-
ICLR 2024 | 联邦学习后门攻击的模型关键层
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程,参与者可以篡改本...
-
CVPR 2024录用结果出炉!2719篇论文被接收,录用率23.6%
想了解更多AIGC的内容: 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ CVPR 2024最终录用结果公布了! 刚刚,CVPR官方发文称,今年共提交了11532份有效论文,2719篇论文被接收,录用率为23...
-
Scaling Law被证伪,谷歌研究人员实锤研究力挺小模型更高效,不局限于特定采样技术!
出品 | 51CTO技术栈(微信号:blog51cto) “模型越大,效果越好”,Scaling Law再次被OpenAI带火了,但谷歌的研究人员的最新研究证伪了这一观点。 在周一发表的一项研究中,谷歌研究院和约翰霍普金斯大学的研究人员对人工智能 (AI...
-
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先...
-
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。 在语义表示上,文本嵌入模型将文本转换为高...
-
首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M to...
-
80M参数打平GPT-4!苹果发超强上下文理解模型ReALM,聪明版Siri马上就来
【新智元导读】苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。 会读心的Siri想不想要? 今天,苹果发布了自家的最新...
-
80M参数打平GPT-4!苹果发超强上下文理解模型,聪明版Siri马上就来
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 会读心的Siri想不想要? 今天,苹果发布了自家的最新模型ReALM,仅需80M参数,就能在上下文理解能力上打平甚至超越GPT-4!...
-
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
分组查询注意力 (Grouped Query Attention 是一种在大型语言模型中的多查询注意力 (MQA 和多头注意力 (MHA 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。 这篇文章中,我们将解释GQA的...
-
AIGC 副业实战工具包
文章末尾领取2024年最新500个搞钱玩法合集 所有跟AI相关的插件合集 AI相关插件 AI Plugins清单@黄小刀 插件搜索框:https://github.com/banbri/AI-Plugins-Searchable/blob/main...
-
在线建图与轨迹预测如何紧密结合?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Producing and Leveraging Online Map Uncertainty in Trajectory Prediction 论文链接:https://arxiv.org/...
-
比肩Transformer的Mamba在时间序列上有效吗?
Mamba是最近最火的模型之一,更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章,探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理,再结合这篇文章探索在时间序列预测场景中Mamba是否有效。...
-
Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习
笔记整理:张廉臣,东南大学硕士,研究方向为自然语言处理、信息抽取 链接:https://arxiv.org/pdf/2305.02105.pdf 持...
-
扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径
「扩散模型」也能攻克算法难题? 图片 一位博士研究人员做了一个有趣的实验,用「离散扩散」寻找用图像表示的迷宫中的最短路径。 图片 作者介绍,每个迷宫都是通过反复添加水平和垂直墙生成的。 其中,起始点和目标点随机选取。 从起点到目标点的最短路径中,随机采样...
-
Elmo官网体验入口 AI网络副驾驶Chrome插件免费下载地址
Elmo是一款AI网络副驾驶工具,可作为Chrome扩展程序使用。它能立即将网页内容压缩成简洁的摘要,提供特定问题的答案,从网页中搜集相关信息,并与PDF和YouTube视频互动,以提高用户的生产力和理解能力。 点击前往Elmo官网体验入口 谁可以从El...
-
苹果AI放大招?新设备端模型超过GPT-4,有望拯救Siri
在最近的一篇论文中,苹果的研究人员宣称,他们提出了一个可以在设备端运行的模型,这个模型在某些方面可以超过 GPT-4。 具体来说,他们研究的是 NLP 中的指代消解(Reference Resolution)问题,即让 AI 识别文本中提到的各种实体...
-
3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战
本文经自动驾驶之心公众号授权转载,转载请联系出处。 作为点集合的点云有望在3D重建、工业检测和机器人操作中,在获取和生成物体的三维(3D)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获取的...
-
快速理解AIGC图像控制利器ControlNet和Lora的架构原理
作者公众号 大数据与AI杂谈 (TalkCheap),转载请标明出处 ControlNet以及Lora是什么,玩过stable diffusion AI图像生成的同学应该都不陌生。 一般来说,如果你用以SD 或 SDXL为基础的模型来生成图像,产出的图...
-
微软财务GPT Excel Copilot for Finance使用攻略
功能本身不收费,但是这个功能需要微软的商业版office账号才能使用,如果你没有账号,可以直说。 在桌面Excel软件中登录账号后,点击“copilot for finance”按钮,如果没有出现,则点击“加载项”,第一个就是: 它现在...
-
比人类便宜20倍!谷歌DeepMind推出「超人」AI系统
AI的同行评审来了! 一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议: 大模型的幻觉问题,好像被终结了? 论文地址:https://arxiv.org/pdf/2403.18802.pdf...
-
爆火的Ai绘画到底怎么用?Disco Diffusion(免费)入门
前段时间,一幅用AI绘制的作品获得绘画大奖的新闻又一次让AI绘画的话题热了起来,作为有一定美术基础的我看来,仅仅通过修改一些参数,通过文字描述,就可以获得一幅超过许多专业人士的画作,的确是让大部分公众兴奋,让少部分专业人士担忧的事。 不过,关于未来画家会...
-
论文降重救星:降AIGC大发猫网页版使用指南
大家好,小发猫降ai今天来聊聊论文降重救星:降AIGC大发猫网页版使用指南,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 红薯伪原创官网 - http://hs.k...
-
火车采集器伪原创【php源码】
大家好,本文将围绕自学python多久可以找到工作展开说明,自学python多久可以找工作是一个很多人都想弄明白的事情,想搞清楚自学python多久可以找兼职需要先了解以下几个事情。 火车头采集ai伪原创插件截图: 如果想从零基础...
-
【AIGC】Animate Anyone阿里全民舞王背后的科技,基于图片高可控动画生成
在11月底,阿里巴巴集团智能计算研究院发布了一款AI动画项目:Animate Anyone。只需要一张人物静态图片,结合人物的骨骼动画(姿势控制),就能生成一段人物动画视频。 我们先通过官网放出的动画效果直观感受一下。 一. Anima...
-
AI绘画Imagen大力出奇迹生成图像
AI绘画Imagen大力出奇迹生成图像 介绍 Imagen是一个文本到图像的扩散模型,由Google大脑团队研究所开发。 Imagen通过创新的设计,摈弃了需要预训练视觉-语言模型的繁琐步骤,直接采用了T5等大规模语言模型作为文...
-
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗? 大模型的幻觉终于要终结了? 今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in la...
-
开启论文写作加速模式 科研AI助手必备的GPTs技能
2023年11月OpenAI 发布了自定义GPTs。它提供了一种新的方式来使用ChatGPT,可以让用户根据自己的需求定制化,并可以与其他用户共享。 GPTs的制作流程非常轻松,因为都是引导对话式。用户可以通过自然语言对话,指定所需的功能和任务,然后G...
-
蚂蚁集团异常检测和归因诊断分析实践
分享嘉宾|丁雷雷 蚂蚁集团算法专家 硕士毕业于北京邮电大学自动化学院,曾在阿里妈妈搜索直通车做广告算法。目前在蚂蚁机器智能部,从事异常检测、时序预测、归因分析、因果推断算法工作。 本文将分享异常检测与归因诊断在蚂蚁集团的实践。主要围绕归因诊断、异常检测...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
RAG 修炼手册|RAG 敲响丧钟?大模型长上下文是否意味着向量检索不再重要
Gemini 发布后,由于其在处理长上下文方面表现出色,行业不乏“RAG 已死”的声音。RAG 到底有没有被杀死?向量数据库的还是 AI 应用开发者的最佳拍档吗?本文将一起探讨。 01.Gemini 发布后 AIGC 的迭代速度正以指数级的速度增长。G...
-
钉钉 AI 升级:加入多模态、工作流等能力
3月28日,钉钉 AI 助理进行了重磅升级,新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉 AI 助理率先尝试了多模态和长文本处理技术,展现出更强大的能力。 用户可以在钉钉 IM 消息框或通过魔法棒按钮进入 AI 助理对话框,发送长文件、在线文档...
-
Whisper-AT:一个统一语音识别和音频标签的模型
公众号/视频号/小红书/微博 :人工智能技术派 人工智能技术派(AITECH 成员:hws ⎣语音大模型⎤ Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong...
-
Claude 3再次登顶!化学专业一骑绝尘,全面碾压GPT-4
Claude 3的诞生又一次震惊了全世界。 Claude 3 Opus,Claude 3中最智能的模型,在大多数常见的人工智能系统评估基准测试中表现优异,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等。 图片...
-
NoLang官网体验入口 AI技术自动生成解释视频工具软件免费使用地址
NoLang是一款基于AI技术的解释视频生成工具。用户可以根据输入的文本或文档内容,实时生成解释性的视频。主要功能包括:文本到视频的实时转换,PDF文件等资料的自动视频化汇总,可持续对话形式生成视频,通过浏览器扩展程序随时调用使用。NoLang的优势在于让...
-
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」
在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。 图无处不在。 互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。 但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能...
-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...
-
DifFlow3D:场景流估计新SOTA,扩散模型又下一城!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based...
-
智能体DS-Agent基于案例推理,让GPT-4数据科学任务接近100%
在大数据时代,数据科学覆盖了从数据中挖掘见解的全周期,包括数据收集、处理、建模、预测等关键环节。鉴于数据科学项目的复杂本质以及对人类专家知识的深度依赖,自动化在改变数据科学范式方面拥有极大的发展空间。随着生成式预训练语言模型的兴起,让大语言模型智能体处理...
-
【精华】AIGC启元2024
文章目录 AIGC 前沿 (1 Gemini 1.5 Pro(谷歌新一代多模态大模型) (2 Sora(文本生成视频大模型) (3 EMO(阿里生成式AI模型) (4 Playground v2.5(文生图大模型) (5 VSP-L...
-
TrajectoryNAS:一种用于轨迹预测的神经结构搜索
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2403.11695.pdf 本文介绍了TrajectoryNAS:一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术,其可以实现...
-
CLIP-BEVFormer:显式监督BEVFormer结构,提升长尾检测性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做...
-
AIGC时代,软件测试智能化到底会怎样?
AI技术在软件测试领域的应用比软件开发早。早在上个世纪七、八十年代,软件测试就开始应用采用遗传算法生成测试数据,到九十年代,其研究和应用逐渐增多,从单元测试、接口测试到GUI的系统测试, 提供自动化的测试用例生成、自动化的测试执行和评估等功能,取得了不少成...
-
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人,跑步又破纪录了! 最近,HYBRID ROBOTICS研究团队的Cassie,给我们来了一段惊艳的表演—— 以2分34秒的成绩,跑完了400米! 随后,它又在不需要额外训练的情况下,完成了1.4米的跳远。 是的,相信你已经注意到了...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
如何利用对抗学习实现产品推荐功能?
作者 | 汪昊 审校 | 重楼 推荐系统自1992 年首篇论文提出协同过滤算法诞生以来,经历了互联网公司百万次的模型迭代,犹如不断涅的凤凰,从一次又一次的低谷中不断重生,先后诞生了百分点、快手、抖音、今日头条等知名的公司和产品。 推荐系统最大的功能在于...
-
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。 然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...
-
离职谷歌的Transformer作者创业,连发3个模型(附技术报告)
去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。其中,Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you n...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
每日一看大模型新闻(2024.1.4)中国AIGC广告营销产业全景报告:五大变革四大影响;马斯克也逃不过「科目三」,阿里这个应用都要把外国人馋哭了;通义千问:上线图生视频功能
1.产品发布 1.1首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型 发布日期:2024-1-4 首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型...
-
视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!
随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介...