-
自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的...
-
不甘只做AI 应用工厂,字节跳动补课大模型
光锥智能获取最新独家消息,继2023年8月首发后,今年4月,字节跳动旗下的大语言模型云雀大模型即将迎来重要版本的升级更新。 八个月一次的更新频率放在大模型市场确实少见,在这样内卷的大模型中,字节显得有些另类,冲刺迅猛如百川智能,前期平均一个月发布升级一款大...
-
苹果为杀入AI领域低调收购,iOS 18要有大动作
苹果一直是人工智能公司的最大买家,甚至超过了微软和谷歌。 在 AI 领域百花齐放的当下,作为全球顶尖的科技公司苹果,似乎掀起的水花不是很大。 苹果在 AI 领域的布局到底是什么,或许苹果 CEO 蒂姆・库克的一句话可以为我们答疑解惑。此前在2024苹果股东...
-
生数科技「多模态大模型」正式通过备案
近日,生数科技「多模态大模型」正式通过国家《生成式人工智能服务管理暂行办法》备案。 成立于2023年3月,生数科技是一家全球领先的自主研发多模态通用大模型的人工智能企业 ,布局MaaS(模型即服务)与应用级产品,面向艺术设计、游戏制作、影视动画、社交娱乐等...
-
【AIGC】重磅消息,GPT-4.5 Turbo将在6月发布?
2024 年 AI 辅助研发趋势 文章目录 强烈推荐 GPT-4.5 Turbo 竞争对手 Anthropic的Claude 3 谷歌的Gemini 1.5 Pro 总结 强烈推荐 专栏集锦 写在最后 强烈推荐 前些天...
-
苹果大模型MM1入场:参数达到300亿 超半数作者是华人
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。 今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?
在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI 还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。 但在文生图领域,开源模型却表现出了足够强的竞争力。 2 周前,开源模型的代表企业 Stability AI 发布了最新...
-
全球第一家!英伟达将推出生成式AI专业认证
快科技3月14日消息,英伟达官方宣布,将在GTC大会上推出一项新的生成式AI专业认证,助力开发者在AI领域证明自身技术实力。 英伟达表示,生成式AI正在全球范围内掀起行业变革浪潮,然而此方面的人才稀缺,技术人员需要不断学习和提升,从而能够更充分地利用这项技...
-
能说会看会行动,OpenAI机器人,一出手就是王炸
「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」 本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。 这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公...
-
零一万物发布API开放平台
3月14日,零一万物正式发布 Yi 大模型 API 开放平台,为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。 同时,零一万物表示,近期零一万物将为开发者提供更多更强模型和 AI 开发框架。主要亮点包括: 推出一系列的模型 API,...
-
科幻片成真!Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了!
Figure最新展示了他们与OpenAI合作的成果,这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求,并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作,表明这一合作取得了显著进...
-
OpenAI的 GPT-4.5 Turbo意外曝光,可能于 6 月发布
OpenAI 的 GPT-4.5Turbo 似乎已被泄露,搜索引擎如 Bing 和 DuckDuck Go 在官方公告前已经索引了 GPT-4.5Turbo 的产品页面。 然而,索引的链接指向一个404页面。但在搜索引擎中有一些预告文字显示,称 GPT-4...
-
Google大模型Bard更名Gemini,现在实力如何?比gpt更强?
名人说:一花独放不是春,百花齐放花满园。——《增广贤文》作者:Code_流苏(CSDN (一个喜欢古诗词和编程的Coder?) 目录 一、简要介绍 1、Gemini是什么? 2、主要特点 3、Gemini的版本 4、应用潜力 5、使用...
-
AI公司生数科技完成新一轮数亿元融资 聚焦原生多模态赛道
生数科技是一家成立于2023年的公司,专注于多模态大模型的研发,包括图像、3D 和视频等多种原生多模态大模型。他们的团队来自清华大学人工智能研究院和其他科技公司,拥有深厚的技术背景。 该公司最近完成了一轮数亿元的融资,将主要用于多模态基础大模型的研发、产品...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文。」 自大模型技术突破以来,越来越多的行业拥有...
-
蔚来NOMI GPT领航版开启招募 拥有多模态感知能力
蔚来汽车官方宣布,备受瞩目的NOMI GPT领航版现已正式开启招募,标志着2024款蔚来汽车将迈入全新的体验升级阶段。 据了解,NOMI作为蔚来汽车的智能助手,在过去的迭代更新中,已经为用户带来了超过2000项实用功能。经过132次版本迭代,NOMI如今即...
-
清华系2B模型杀出支持离线本地化部署,可以个人电脑或者手机上部署的多模态大模型,超越 Mistral-7B、LLaMA-13B
清华系2B模型杀出支持离线本地化部署,可以个人电脑或者手机上部署的多模态大模型,超越 Mistral-7B、LLaMA-13B。 2 月 1 日,面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM,主体语言模型 Mini...
-
华人CV宗师黄煦涛高徒离职特斯拉,加入OpenAI!专攻多模态模型研究
OpenAI又迎来一位AI大将。 最近,华人科学家程博文官宣离职特斯拉,即将加入OpenAI专攻多模态模型的研究。 图片 今天是我在特斯拉自动驾驶部门的最后一天,这一年半的经历真的很棒:有机会与才华横溢的同事们共事,学习了如何开发出色的产品等等。但我向通...
-
2024年人工智能加速品牌营销转型的 9 大重点
2024 年,没有一个品牌或客户不受 AI 影响。在人们对人工智能看似无限可能性的好奇心不断增长下,人工智能营销策略主要有哪些趋势?以下,是我们对 2024 年将占主导地位的主要趋势预测。 1)超个性化 AI 支持个性化定制,为客户提供了一种排他性...
-
最新综述!扩散模型与图像编辑的爱恨情仇
本文经自动驾驶之心公众号授权转载,转载请联系出处。 针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。 全文长达26页,共1.5万余词,涵盖297篇文献,全面研究了图像编辑的各种前沿方法。 同时,作者还提出了全新的be...
-
Pika放大招:今天起,视频和音效可以“一锅出”了!
就在刚刚,Pika发布了一项新功能: 很抱歉我们之前一直处于静音状态。 今天起,大家可以给视频无缝生成音效了——Sound Effects! 生成的方式有两种: 要么给一句Prompt,描述你想要的声音; 要么直接让Pika根据视频内容自动生成。...
-
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。 近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为...
-
大模型在复杂推理任务上潜力如何?多智能体互动框架ThinkThrice玩转剧本杀
剧本杀是一种广受欢迎的多角色扮演侦探游戏,要求玩家扮演不同的角色。通过阅读角色文本、理解各自的故事、搜集线索、以及逻辑推理,玩家们共同努力揭开谜团。游戏角色通常被分为平民和凶手两大类:平民的目标是找出隐藏在他们中间的凶手,而凶手则尽力隐藏自己的身份,避免...
-
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。 究其原因,导致模型理解长视...
-
关于AI智能生成(AIGC),整理一下你该知道这些
什么是AIGC 生成式人工智能(Artificial Intelligence Generated Content) 定义 百度百科 生成式人工智能AIGC(Artificial Intelligence Generated Content)...
-
(Sora模型风口)2024最新GPT4.0使用教程,AI绘画,一站式解决
一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结+DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以...
-
AI初创公司新旦智能完成千万级别天使轮融资 用于发展 xDAN 模型
「新旦智能」是一家新兴的人工智能初创公司,最近完成了千万级的天使轮融资。这轮融资是由全球化人工智能企业 APUS 和 AI 行业资深投资人周弘扬联合投资的。融资资金将用于进一步发展他们的 xDAN 模型,这个模型具有独特的高情商和强大的推理能力,旨在打造新...
-
前谷歌大佬离职创业,不到一年造出GPT3.5和Gemini Pro,惨痛忠告:GPU简直菜鸡,就像是买彩票!
作者 | Yi Tay 编译 | 云昭 出品 | 51CTO技术栈(微信号:blog51cto) 你敢相信吗?一位前谷歌大佬,离职成立公司,不到一年,从头训练出了“GPT3.5”/“Gemini Pro”,注意,后者是多模态大模型! 本文主人公Y...
-
AIGC工具( 7个 )
人工智能技术有好的一方面,又不好的地方,要区别对待,吸取精华,去其糟粕。目前市场上有很多AI大模型,可以支持聊天,写文稿,创作等,部分可以生成图片,以下是7个很不错的免费网站,供参考。 1,讯飞星火 网站: https://xinghuo.xfyun...
-
AIGC专题:Sora是如何成功的?
今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。 (报告出品方:中泰证券) 报告共计:15页 来源:人工智能学派 Sora:大规模训练的视频生成模型,支持60s 1080p视频生成 ◼ 2024年2月15日,O...
-
AI图像合成技术的新浪潮:Stable Diffusion 3与Sora构架的突破
在人工智能的黄金时代,图像合成技术正以前所未有的速度发展。从简单的图像编辑到复杂的场景生成,AI的能力已经超越了传统软件的限制,开启了创意和视觉表达的新纪元。近期,Stable Diffusion 3技术报告的流出引起了业界的广泛关注,其背后的Sora构...
-
如何缩小中美通用大模型差距? 我在两会看到了答案
“通用大模型关乎国运之争”…… “人工智能+”首次出现在政府工作报告中,并直接上升为一种行动 。 雷军刘庆峰等代表委员都将人工智能纳入到自己的建议之中; 又是一年两会进行时,AI大模型受到前所未有的关注。 彼时在大洋彼岸的另一边,GPT-4正被最新大模型...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟无敌
生成式AI的变革,对于基础硬件设计、软件生态开发都提出了新的、更高的要求,尤其是底层硬件和算力必须跟上新的形势,并面向未来发展做好准备。 近日,高通特别发布了《通过NPU和异构计算开启终端侧生成式AI》白皮书,对于终端侧生成式AI的发展趋势,以及高通骁龙处...
-
「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑
如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM? 很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提...
-
一文看尽297篇文献!中科院领衔发表首篇「基于扩散模型的图像编辑」综述
本文全面研究图像编辑前沿方法,并根据技术路线精炼地划分为3个大类、14个子类,通过表格列明每个方法的类型、条件、可执行任务等信息。 此外,本文提出了一个全新benchmark以及LMM Score指标来对代表性方法进行实验评估,为研究者提供了便捷的学习参...
-
中科院等万字详解:最前沿图像扩散模型综述
针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。 全文长达26页,共1.5万余词,涵盖297篇文献,全面研究了图像编辑的各种前沿方法。 同时,作者还提出了全新的benchmark,为研究者提供了便捷的学习参考工具。...
-
NUWA-XL官网体验入口 微软视频创作AI编辑工具在线使用地址
NUWA-XL是微软开发的前沿多模态生成模型,能够根据提供的脚本以“粗到细”的过程生成极长视频。该模型能够产生高质量、多样化且有趣的视频剪辑,并具有真实的镜头变化。 点击前往NUWA-XL官网体验入口 谁可以从NUWA-XL中受益? NUWA-XL适用于...
-
AIlice官网体验入口 AI代理智能助手使用方法指南教程
AIlice是一个轻量级的AI代理,旨在创建一个类似于JARVIS的自包含人工智能助手。它通过构建一个以大型语言模型(LLM)为核心的“文本计算机”来实现这一目标。AIlice在主题研究、编码、系统管理、文献综述以及超越这些基本能力的复杂混合任务方面表现出...
-
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。 论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构! 报告地址: http...
-
一个关于BEV车道线落地的点点滴滴
本文经自动驾驶之心公众号授权转载,转载请联系出处。 21年 埋下了一颗种子 看过BEV障碍物故事的同学应该清楚,我们组是在21年10月左右开始做BEV 障碍物的。那个时候不敢想着去做BEV 车道线,因为没有人力。但是我记得在12月左右的时候,我们面到了...
-
Stable Diffusion 3:创新技术引领未来趋势
文章目录 Stable Diffusion 3:创新技术引领未来趋势 摘要 Stable Diffusion 3 的发布 技术发展方向 行业影响 总结: Stable Diffusion 3:创新技术引领未来趋势 摘要 在...
-
Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,...
-
新王Claude 3实测!各项能力给跪,打麻将也会,确实比GPT-4好用
OpenAI不可战胜的神话,已经被打破了。 随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。 而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(O...
-
生成式 AI 时代,手机正在进行一次全栈革新?
最近一段时间,AI 与大模型技术突飞猛进。春节刚过,前沿方向上就迎来了新一轮突破。 OpenAI 的 Sora 一下子把 AI 视频生成的进度条拉快了半年。 在大模型的应用领域,技术落地应用的速度也在加快。目前各家大厂的新一代旗舰手机已经悉数登场,它们绝...
-
GPT-4时代已过?全球网友实测Claude 3,只有震撼
大模型的纯文本方向,已经卷到头了? 昨晚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。 该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet...
-
全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类
卷疯了卷疯了,大模型又变天了。 就在刚刚,全球最强AI模型一夜易主,GPT-4被拉下神坛。 Anthropic发布了最新的Claude 3系列模型,一句话评价:真·全面碾压GPT-4! 多模态和语言能力指标上,Claude 3都赢麻了。 用Anthrop...