-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
钉钉 AI 升级:加入多模态、工作流等能力
3月28日,钉钉 AI 助理进行了重磅升级,新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉 AI 助理率先尝试了多模态和长文本处理技术,展现出更强大的能力。 用户可以在钉钉 IM 消息框或通过魔法棒按钮进入 AI 助理对话框,发送长文件、在线文档...
-
微软亚研院新作:让大模型一口气调用数百万个API!
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。 但在特定领域任务上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对特定任务的AI...
-
钉钉AI:好险,差点就被长文本卷到
好家伙,现在随便打开一个大模型应用,支持的文本都有那————么长。 最新消息,7亿人在用的钉钉也加入战局,一出手就是长文本、多模态和工作流三大能力升级,全是最热门的AI迭代方向。 专门提一下,钉钉AI助理的长文本这次能轻松拿捏几十万字的文档,甚至放话单文档...
-
理想汽车 Mind GPT 多模态认知大模型通过国家备案
今日,理想汽车宣布其全自研的多模态认知大模型——Mind GPT,已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。 Mind GPT,这款在汽车智能座舱中落地应用的大模型,其...
-
Hume AI发布对话AI——EVI:具备情感感知能力
Hume AI近日发布了一款具有情感感知能力的对话AI:EVI,这款产品采用了一种被称为情感大语言模型(eLLM)的多模态生成AI技术。 情感大语言模型(eLLM)是一种结合了大型语言模型(LLMs 的语言理解能力和表情测量技术的情感感知能力的新技术。这种...
-
OpenAI把微软电网搞崩!GPT-6被曝25年发布,训练刷爆10万张H100
GPT-6也被电力卡脖子了——部署十万个H100时,整个电网发生了崩溃! 就在刚刚,微软工程师爆料,10万个H100基建正在紧锣密鼓地建设中,目的就是训练GPT-6。 微软工程师吐槽说,团队在部署跨区域GPU间的infiniband级别链接时遇到了困难。...
-
【精华】AIGC启元2024
文章目录 AIGC 前沿 (1 Gemini 1.5 Pro(谷歌新一代多模态大模型) (2 Sora(文本生成视频大模型) (3 EMO(阿里生成式AI模型) (4 Playground v2.5(文生图大模型) (5 VSP-L...
-
【AIGC调研系列】AIGC大模型如何与sonar等工具集成
AIGC大模型与Sonar等工具集成的方式主要体现在通过自动化和智能化的方式提升代码质量检测、内容生成和SEO优化等方面。具体来说,可以通过以下几种方式实现集成: 这表明AIGC大模型可以通过集成现有的自动化工具(如Sonar)来提高软件开发过程中的代码...
-
苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 全面发力AI的苹果,再出新研究! 随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。 苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模...
-
阶跃星辰宣布推出 Step 系列通用大模型
阶跃星辰团队宣布推出了 Step 系列通用大模型,包括 Step-1千亿参数语言大模型、Step-1V 千亿参数多模态大模型,以及 Step-2万亿参数 MoE 语言大模型的预览版。 据悉,阶跃星辰成立于2023年4月,以 “智能阶跃,十倍每一个人的可...
-
突破性的百万级视频和语言世界模型:Large World Model~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在探索如何让AI更好地理解世界方面,最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”,能够同时处理百万级长度的视频和语言序列,...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
大佬谈AI|库克要让国行版iPhone装上百度AI 周鸿祎剖析库克盘算,黄仁勋、Altman语出惊人!
3月25日消息,过去一周,国内外AI圈子又有众多话题涌现。苹果公司CEO蒂姆·库克(Tim Cook)的中国之行成为观察苹果生成式AI发展动态的窗口;英伟达的2024 GTC大会CEO黄仁勋携新的超级GPU亮相,要为更大规模的生成式AI模型训练扫清算力障碍...
-
良心!vivo离职员工意外收到年终奖;传苹果使用百度AI功能;阿里魔搭类Sora模型开源;Kimi带火,多家大厂开卷“长文本”
出品 | 51CTO技术栈(微信号:blog51cto)一、商业圈 1.vivo前员工离职大半年突然收到年终奖 日前,有vivo前员工在小红书平台发帖感谢vivo称,离职将近大半年,突然收到年终奖,还称相比去年有涨幅,此外,主动离职也给了N+1补偿。在...
-
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
论文链接:https://arxiv.org/abs/2402.08327 DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/ 项目主页链接:https://preflm...
-
通用文档理解新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教...
-
AI模型训练:强化算法与进化算法
强化学习算法(RL 和进化算法(EA 都属于机器学习领域的子集,但它们在解决问题的方法和思想上有所不同。 强化学习算法: 强化是一种机器学习范式,它主要关注的是智能体(agent 在与环境进行交互的过程中,通过尝试和错误来学习最优的行为策略,以使其在某...
-
【AIGC调研系列】智普GLM-3与GLM-4分别适用于什么使用场景
智普GLM-3与GLM-4分别适用于不同的使用场景。GLM-4是一款性能全面提升的新型大模型,它在总结、信息抽取、复杂推理、代码等应用场景中表现出色[1]。GLM-4支持更长的上下文、更强的多模态支持和更快速的推理[2],能够完成文件处理、数据分析、图表绘...
-
AIGC时代下阿里云视频云媒体内容生产技术实践
编者按 AIGC时代下,媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击,如何优化或重构媒体内容生产技术架构?在多样的应用场景中媒体内容生产技术又有着怎样的实践效果?LiveVideoStackCon2023...
-
第二证券|AIGC行业新突破不断 文化传媒板块活跃
本周以来,以短剧、游戏为代表的文明传媒板块实现三连涨。3月13日,游戏股逆势大涨,游戏出海、网络游戏、短剧游戏方向领涨。到收盘,因赛集团以20%幅度涨停,掌趣科技涨超10%,凯撒文明、中广天择、时代出书、大晟文明、龙版传媒、掌阅科技等多股涨停。 消息面上...
-
每日一看大模型新闻(2024.1.4)中国AIGC广告营销产业全景报告:五大变革四大影响;马斯克也逃不过「科目三」,阿里这个应用都要把外国人馋哭了;通义千问:上线图生视频功能
1.产品发布 1.1首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型 发布日期:2024-1-4 首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型...
-
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里...
-
零一万物API开放 多模态中文图表体验超越GPT-4V
近日,零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态...
-
虚拟角色平台Character AI的生成式AI聊天机器人可以说话了
Character AI 最近为其生成式 AI 聊天机器人增加了语音功能。全新的 Character Voice 功能使用户能够真正听到他们正在对话的合成人物的声音,旨在提升用户体验的参与感。 Character AI 的虚拟人格库通过大型语言模型提供对话...
-
国产大模型kimi chat突然火了 Kimi概念股都有哪些?
3 月 21 日,三大指数集体高开高走。受Kimi的催化,影视院线板块在内的Kimi概念股盘中走高,影视院线板块延续昨日涨势,开盘后迅速拉升走强。 影视ETF(159855)领涨,截至发稿,该ETF涨3.45%,成交额突破 810 万元,换手率13.98%...
-
一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前...
-
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练,还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...
-
旷视实战大模型:把多模态扎进行业
距离ChatGPT、GPT-4等引爆新一轮人工智能变革的时刻,已经过去了整整一年的时间。在这一年里,国内外大量公司涌入大模型的“斗兽场”,加速大模型技术的迭代与跃迁。 大模型前所未有的通用任务处理能力,让所有人看到了解锁更多应用场景的可能性。各行各业开始...
-
降低AIGC总体疑似率的七大策略
随着人工智能技术的飞速发展,AIGC(人工智能生成内容)的应用越来越广泛。然而,随之而来的问题是AIGC的疑似率居高不下,这给人们带来了不少困惑和疑虑。为了解决这个问题,本文将探讨降低AIGC总体疑似率的七大策略。 提高数据质量 数据是训练人工智能模...
-
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切
转自知乎:叫我Alonzo就好了 前言 背景——Sora和Stable Diffusion 3 近期,OpenAI和Stability两大AI巨头公司在同期分别发布了它们的新作品——Sora和Stable Diffusion 3。神奇的是,这...
-
AIGC元年大模型发展现状手册
零、AIGC大模型概览 AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a. LLM大模型通过深度学习和自然语...
-
小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见
近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。 第一行:人眼所见画面,第二...
-
优于所有方法!HIMap:端到端矢量化HD地图构建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 矢量化高清(HD)地图构建需要预测地图元素的类别和点坐标(例如道路边界、车道分隔带、人行横道等)。现有技术的方法主要基于点级表示学习,用于回归精确的点坐标。然而,这种pipeline在获得elemen...
-
巨人网络:计划构建 AI 游戏开发平台 降低开发门槛
巨人网络表示,在2024年春季招聘中首次重点招募 AI 算法实习生,标志着公司在游戏和人工智能深度融合领域的新动向。招聘对象为2025届海内外高校在校生,涵盖多个技术岗位,旨在培养新一代游戏 AI 人才加速公司发展。 招聘涉及游戏策划、技术、美术、市场运营...
-
Stable Diffusion 3报告
报告链接:https://stability.ai/news/stable-diffusion-3-research-paper 文章目录 要点 表现 架构细节 通过重新加权改善整流流量 Scaling Rectified Flow Tr...
-
AI大模型控制红绿灯,港科大(广州)智慧交通新成果已开源
大模型“上路”,干起了交通信号控制(TSC)的活~ 模型名为LightGPT,以排队及不同区段快要接近信号灯的车辆对路口交通状况分析,进而确定最好的信号灯配置。 该模型由香港科技大学(广州)的研究团队提出,其背后关键是一个名为LLMLight的框架。...
-
新智元 | Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
本文来源公众号“新智元”,仅用于学术分享,侵权删,干货满满。 原文链接:Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3? 【新智元导读】Stability AI放出了号称能暴...
-
自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的...
-
不甘只做AI 应用工厂,字节跳动补课大模型
光锥智能获取最新独家消息,继2023年8月首发后,今年4月,字节跳动旗下的大语言模型云雀大模型即将迎来重要版本的升级更新。 八个月一次的更新频率放在大模型市场确实少见,在这样内卷的大模型中,字节显得有些另类,冲刺迅猛如百川智能,前期平均一个月发布升级一款大...
-
苹果为杀入AI领域低调收购,iOS 18要有大动作
苹果一直是人工智能公司的最大买家,甚至超过了微软和谷歌。 在 AI 领域百花齐放的当下,作为全球顶尖的科技公司苹果,似乎掀起的水花不是很大。 苹果在 AI 领域的布局到底是什么,或许苹果 CEO 蒂姆・库克的一句话可以为我们答疑解惑。此前在2024苹果股东...
-
生数科技「多模态大模型」正式通过备案
近日,生数科技「多模态大模型」正式通过国家《生成式人工智能服务管理暂行办法》备案。 成立于2023年3月,生数科技是一家全球领先的自主研发多模态通用大模型的人工智能企业 ,布局MaaS(模型即服务)与应用级产品,面向艺术设计、游戏制作、影视动画、社交娱乐等...
-
【AIGC】重磅消息,GPT-4.5 Turbo将在6月发布?
2024 年 AI 辅助研发趋势 文章目录 强烈推荐 GPT-4.5 Turbo 竞争对手 Anthropic的Claude 3 谷歌的Gemini 1.5 Pro 总结 强烈推荐 专栏集锦 写在最后 强烈推荐 前些天...
-
苹果大模型MM1入场:参数达到300亿 超半数作者是华人
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。 今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?
在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI 还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。 但在文生图领域,开源模型却表现出了足够强的竞争力。 2 周前,开源模型的代表企业 Stability AI 发布了最新...
-
全球第一家!英伟达将推出生成式AI专业认证
快科技3月14日消息,英伟达官方宣布,将在GTC大会上推出一项新的生成式AI专业认证,助力开发者在AI领域证明自身技术实力。 英伟达表示,生成式AI正在全球范围内掀起行业变革浪潮,然而此方面的人才稀缺,技术人员需要不断学习和提升,从而能够更充分地利用这项技...
-
能说会看会行动,OpenAI机器人,一出手就是王炸
「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」 本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。 这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公...
-
零一万物发布API开放平台
3月14日,零一万物正式发布 Yi 大模型 API 开放平台,为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。 同时,零一万物表示,近期零一万物将为开发者提供更多更强模型和 AI 开发框架。主要亮点包括: 推出一系列的模型 API,...