-
知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特
就在几天前,开源大模型领域迎来了重磅新玩家:谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。 谷歌发布了包含两种权重规模的模型:Gemma 2B 和 Gemma...
-
药物开发现代化之路:应用AI技术的经验和教训
发现并加快药物开发是笔大买卖,这个行业的运营成本很高,因此利用AI方法优化整个流程就成了这一快速发展行业中的首要考量因素。 德勤公司发现,其关注的全球20强生物制药企业中,去年新药开发的平均成本上涨了15%(增长数字为2.98亿美元),总额来到约23亿...
-
AI智能写作哪个好用?
23年以来,一直爆火的“全能网友”ChatGPT(Generative Pre-trained Transformer)一直霸屏各种热搜。ChatGPT是美国人工智能研究实验室OpenAI开发的一种新款对话型AI模型即俗称的聊天机器人。 Chat...
-
端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。 他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Paramet...
-
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。 具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人...
-
8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了
几天前,ICLR 2024 的最终接收结果出来了。 大家应该还记得,Mamba 被 ICLR 2024 大会 Decision Pending(待定)的消息在 1 月份引发过一波社区热议。 当时,多位领域内的研究者分析,Decision Pending...
-
用扩散模型生成网络参数,LeCun点赞尤洋团队新研究
如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发...
-
「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统
在普渡大学数字孪生实验室的最新成果中,研究人员引入了一种革命性的技术——利用大型语言模型(LLM)为自动驾驶汽车提供智能指令解析能力。 该技术的核心为Talk2Drive框架,旨在通过理解人类的自然语言来控制自动驾驶汽车,从而实现了一种前所未有的人车交互...
-
用ChatGPT快速完成论文全流程
一、论文选题的深度探讨 选题的高质量不仅是论文发表于顶尖期刊的关键,也是研究工作成功的基石。很多研究者在这个过程中犯下的一个常见错误是,过度关注于写作而忽略了选题的重要性。他们往往急于开始,没有充分考虑选题的质量。另一方面,一些研究者在选题上感到无从下手...
-
NUS尤洋团队开发扩散模型p-diff 像Sora一样直接打入AI底层
新加坡国立大学尤洋教授团队联合其他机构开发的p-diff扩散模型在AI领域引起热议。这项模型能以44倍的速度生成神经网络参数,得到了深度学习领域的重要人物LeCun的点赞。该模型的研发结合了自编码器的设计,通过正向和反向过程学习参数的分布,生成高质量的神经...
-
ai毕业论文开题报告(开题报告ai写作免费)
宝子们在论文撰写过程中,研究背景的阐述在学术写作的引言部分扮演着非常重要的角色。很多宝子们在撰写引言时常遇到一个难题——如何有效、有逻辑地构建研究背景。这个问题通常源于对于如何撰写研究背景不是很明确,以及缺乏清晰的写作框架。很可能导致收集到的相关信息被杂乱...
-
打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞
扩散模型,迎来了一项重大新应用—— 像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层! 这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。 具体来说,研究团队提出了一种用于生成神经网络参数的扩散模...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。 与之前的版本相比,Stable Diffus...
-
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了! 我们知道,YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来,领域内的研...
-
Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了
足足酝酿一年之多,相比上一代一共进化了三大能力。 来,直接上效果! 首先,是开挂的文字渲染能力。 且看这黑板上的粉笔字: Go Big or Go Home (不成功便成仁),这个倒是杀气腾腾啊~ 路牌、公交灯牌的霓虹效果: 还有刺绣上“勾”得快要看...
-
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因...
-
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。 现在,2024 年的第一个月已经过去...
-
LLaMA 2 和 QianWen-14B
阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型 - 科技新闻 - EDA365电子论坛网 LLaMA 2 的硬件要求: LLaMA 2 系列模型有不同的参数量版本,如7B、13B和70B等。对于不同大小的模型,其硬件需求也有所不同。以...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
聊聊视觉惯性里程计的IMU预积分模型
为什么工程实践中我们使用视觉与IMU融合的解决方案即视觉惯性里程计(VIO)来估计运动而不是简单地使用视觉里程计(VO)。视觉惯性里程计的传感器主要包括相机和惯性测量单元(IMU)两种传感器各有优缺点,VIO的优势就在于IMU与相机的互补性。 视觉传感器...
-
论文aigc总体疑似度多少正常
在学术研究领域,论文的真实性和原创性始终受到高度关注。其中,AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的疑似度评估尤为重要。那么,论文AIGC的疑似度多少才算是正常呢?本文将从七个方面进...
-
成功!马斯克官宣首个Neuralink脑机接口人类,意念操控鼠标,全民机器人时代来了?
就在刚刚,马斯克宣布,第一个植入Neuralink的人类患者,已经可以通过思考移动计算机鼠标了! 「进展良好,患者似乎已经完全康复,没有我们所知道的不良影响。患者只需动动脑子,即可在屏幕上移动鼠标。」 此前发布的演示 这个消息太炸裂了。从今天起,人类正...
-
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续! 其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion...
-
逆天了!UniVision:BEV检测和Occ联合统一框架,双任务SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导
这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。 随着自然语言被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需...
-
论文润色降重技巧 智能写作
大家好,今天来聊聊论文润色降重技巧 智能写作,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:论文润色降重技巧——专业润色助力论文质量提升 一、引言 在学术研究中,论文的质量和原创性是...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
AI视野:大模型最快推理芯片Groq登场;真人视频冒充Sora;Stable Diffusion WebUI Forge推出;字节辟谣推出中文版Sora
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 📰🤖📢AI新鲜事 大模型最快推理芯...
-
GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况
众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decoding)已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中,会先预测几个可能的 token,...
-
『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 协同感知技术能够有效解决自动驾驶车辆单体感知中存在的障碍物遮挡、视角受限、以及远距离感知能力弱等问题。然而,现有的工作都做了一个过分简单的假设,即参与协作的智能体使用相同的传感器,部署相同的感知模型。...
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好...
-
AI自动化标注崛起,数据标注员要失业了?
在数据标注行业流行着一句话:“有多少智能,就有多少人工”。 由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些AI公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。 这也衍生出了专为AI而生的人力密集型的数据标注产业链。...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
AIGC总体相似度是什么意思
大家好,今天来聊聊AIGC总体相似度是什么意思,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AIGC总体相似度:一篇深入解析的文章 随着人工智能技术的飞速发展,AIGC(人工智能生成...
-
19|Whisper+ChatGPT:请AI代你听播客
今天,我们的课程开始进入一个新的主题了,那就是语音识别。过去几周我们介绍的 ChatGPT 虽然很强大,但是只能接受文本的输入。而在现实生活中,很多时候我们并不方便停下来打字。很多内容比如像播客也没有文字版,所以这个时候,我们就需要一个能够将语音内容转换成...
-
LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置
大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学(HKUST)、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...
-
有什么AI写作论文工具推荐呢?
在学术论文写作过程中,人工智能技术的应用正在逐渐改变传统的写作模式。以下是一些您可能感兴趣的AI论文写作网站和工具: 1. **Smodin**: 这是一个AI研究论文生成器和撰写器,它可以帮助研究者在几分钟内完成高质量的研究论文。使用Smodin不仅可...
-
AI绘画:Stable-diffusion程序的突破与未来展望
随着人工智能技术的快速发展,AI绘画已经成为了一个备受关注的前沿领域。在这其中,Stable-diffusion程序作为一款优秀的AI绘画工具,以其独特的风格和强大的功能,受到了广泛的关注和赞誉。本文将对Stable-diffusion程序进行深入解析,探...
-
AIGC 语言大模型研究报告
AIGC 研究报告 这份报告可以被划分为两大部分。 第一部分集中于ChatGPT的发展和运作原理,为了增强理解,我们将先探讨自然语言处理的历史发展。 第二部分主要聚焦于由大模型引领的新的研究领域,并深入介绍在每个领域中可以进行的具体研究工作及思...
-
这篇深入浅出贴 助你早日实现Stable diffusion自由
我也不想标题党,可它们就是好萌啊!看看下面这些你认识多少? 我是憨憨,一个不会画画的设计师。过去半年里,AI绘画曾经多次引爆公众讨论,网络上那些精致的二次元同人插画、堪比真人的AI穿搭博主、打破次元壁的赛博Coser……背后都有一个“幕后黑手” —— S...
-
Chat gpt和文心一言谁最具有优势
目录 chat gpt 开发者和背景 技术和架构 应用和性能 可用性和开放性 优化和特性 它们俩谁更好用 chat gpt ChatGPT和文心一言(Ernie Bot)都是大型语言模型,但它们由不同的组织开发,基于不同的...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5
赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。 新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medi...
-
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
AI智能体,是目前学界炙手可热的前沿话题,被众多专家视为大模型发展的下一个方向。 然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。 他们对GPT-4 Turbo、Gemini Pro...
-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
两亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」
最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。 这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。 简而言之,...
-
AIGC内容分享(五十三):AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识
目录 一、VGen整体架构 二、VGen核心基础内容 三、快速上手使用VGen进行视频生成 四、VGen与SVD的比较 一、VGen整体架构 「VGen」是一个基于扩散模型的视频生成系统,提供以视频生成扩散模型为中心的强大代码库,具有先进...