-
ChatGPT上新文件分析、自动搜索等功能,初创公司的产品被取代?
最近,OpenAI 为 ChatGPT Plus 会员推出了新的测试版功能,主要包括上传和分析文件,支持多模态,并且系统会根据上下文自动选择是否使用必应浏览器、数据分析工具、DALL·E,而无需用户手动切换。 将文件输入到 ChatGPT 后,系统需要...
-
阿里云通义千问APP上线 支持创意文案等功能
近日,阿里云旗下通义千问APP正式上线。它具备多种核心能力,包括创意文案、办公助理、学习助手和趣味生活等方面的功能。 通义千问,是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。 9月13日,阿里云宣布通...
-
AI视野:百川发布Baichuan2-192K大模型;DALL·E3新增种子功能;ChatGPT Plus会员可上传和分析文件;谷歌Bard支持实时生成回复
????大模型动态 百川智能发布Baichuan2-192K大模型,可处理35万汉字 百川智能发布了Baichuan2-192K大模型,拥有全球最长的上下文窗口,处理约35万个汉字,超越了Claude2。 百川大模型官网:https://top.aibas...
-
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。 简单来说就是:模型输出的描述与图片内容不相符。 下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描...
-
为何GPT-4P容易受到多模态提示注入图像攻击?
OpenAI新的GPT-4V版本支持图像上传后,带来了一条全新的攻击途径,使大型语言模型(LLM)容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码,随后模型会遵从行事。 多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息,...
-
ChatGPT Plus会员可以在最新测试版中上传和分析文件
有报道称,OpenAI 正在为 ChatGPT Plus 会员推出新的测试版功能。根据订阅者的报告,这次更新包括了上传文件并进行处理的功能,以及多模态支持。这意味着用户不再需要手动选择模式,比如从GPT-4下拉菜单中选择“使用Bing浏览”,而ChatGP...
-
世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 大模型今年爆火,很多领域上的应用如雨后春笋般涌现,很多优秀的工作出现,主要集中在数据生成和场景分析表述两部分,重点解决自动驾驶的长尾分布问题和场景识别。今天自动驾驶之心带大家梳理下自动驾驶行业上的大模...
-
自动驾驶端到端规划方法汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 一、Woven Planet(丰田子公司)的方案:Urban Driver 2021 这篇文章是21年的,但一大堆新文章都拿它来做对比基线,因此应该也有必要来看看方法。 大概看了下,主要就是用Po...
-
智谱的“GPT-4V”来了,CEO张鹏说他们就是奔着AGI去的
时隔仅仅四个月,智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上,智谱介绍了新一代ChatGLM3大模型。 根据智谱官方的表述,尽管新的大模型名字中带有Chat,但实际上这是一个全新版本的基座模型,它的完全版和上一代一样拥有1300...
-
元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法
最近,AI 领域都在思考一件事:多模态大模型落地产业,好的打法应该是什么? 通用人工智能时代正在到来,AI 大模型技术已成为数字经济下基础设施建设的重要支撑,也成为产业智能化转型的核心「引擎」,AI 大模型 + 产业应用迎来了前所未有的发展机遇。 在10月...
-
多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生
还在用指令微调解决多模态大模型的“幻觉”问题吗? 比如下图中模型将橙色柯基错认为“红狗”,还指出周围还有几条。 图片 现在,中科大的一项研究想到了一个全新办法: 一个免重训、即插即用的通用架构,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处...
-
智谱AI推出第三代基座大模型ChatGLM3 智谱清言具备代码交互能力
智谱 AI 在2023中国计算机大会上发布了第三代基座大模型 ChatGLM3及相关系列产品。 ChatGLM3经过深度优化,在中英文公开数据集测试中表现优秀,其中 MML 提升36、CEval 提 %、GSM8K 提升179%、BBH 提升126%。 C...
-
DeepMind:谁说卷积网络不如ViT?
深度学习的早期成功可归功于卷积神经网络(ConvNets)的发展。近十年来,ConvNets 主导了计算机视觉基准测试。然而近年来,它们越来越多地被 ViTs(Vision Transformers)所取代。 很多人认为,ConvNets 在小型或中等规...
-
昆仑万维:已有算力预计能满足未来1~2年除视频AIGC之外需求
10月26日,昆仑万维发布了2023年第三季度报告。 昆仑万维表示,报告显示,公司第三季度实现营业收入36.8亿元,同比增长8%,实现经营性现金流7.6亿元,同比增长33%。海外业务收入占比进一步提升至84%。公司加大研发投入,前三季度研发费用提升至6.2...
-
GraphAlign:通过图匹配增强多模态3D目标检测的准确特征对齐
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Det...
-
用于自动驾驶赛车的多模态传感器融合和目标跟踪
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Multi-Modal Sensor Fusion and Object Tracking for Autonomous Racing 论文链接:https://arxiv.org/pdf/23...
-
AI视野:高通发布骁龙X Elite芯片;AutoGPT获1200万美元融资;AI社交产品Airchat火了;百度Comate智能代码助手上线SaaS版本
???AI新鲜事 高通发布骁龙X Elite芯片 电脑可运行130亿参数大模型 高通发布骁龙X Elite芯片,成为全球性能最强的CPU,能在PC上运行130亿参数的大模型,实现离线AI应用。 爆火智能体项目AutoGPT获1200万美元融资 Auto...
-
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了! 只要不到30个字的提示词,瞬间就能生成这样的3D场景。 场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」 「烈日照耀在无垠...
-
多模态神经网络SALMONN 能够理解声音世界的AI模型
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。 论文地址:https://arxiv.org/pdf/2310.13289v1.pdf SALMONN采用了两个互...
-
讯飞星火和文心一言有什么区别?讯飞文心一言哪个厉害
讯飞星火和文心一言是两个不同的产品,各自有其特点和优势。那么讯飞星火和文心一言有什么区别哪个更厉害呢?下面就给大家带来讯飞星火和文心一言的特点介绍。 1. 讯飞星火: 讯飞星火认知大模型可用于语言理解、知识问答、代码编写、逻辑推理、数学解题等场景。讯飞星火...
-
高通正式发布骁龙 8 Gen 3 旗舰芯片:为 2024 年安卓旗舰手机带来生成式 AI 革命
在今天的 2023 年夏威夷 Snapdragon 峰会上,高通公司正式发布了其最新的顶级芯片组 Snapdragon 8 Gen 3。借助于这款新芯片,预计 2024 年的 Android 旗舰手机将迎来备受期待的生成型人工智能(AI)革命。 Sna...
-
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
大模型“识图”能力都这么强了,为啥还老找错东西? 例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类…… 这是因为,我们让大模型“找东西”时,往往输入的是文本。 如果描述有歧义或太偏门,像是“bat”(蝙蝠还是拍子?)或“魔鳉”(Cy...
-
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界...
-
HiLM-D:自动驾驶多模态大语言模型玩出花了
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人的一些思考 不得不说,最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...
-
科大讯飞星火认知大模型V3.0正式发布 对标ChatGPT 3.5
在今日的2023科大讯飞全球1024开发者节上,科大讯飞宣布,讯飞星火认知大模型V3.0正式发布,目前星火大模型已整体超越ChatGPT。 科大讯飞董事长刘庆峰表示,今年的5月6号,讯飞星火正式发布,到现在为止已经历经了两次升级。讯飞星火3.0,它的标志...
-
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。该模型采用两阶段训练策略,首先进行无图像描述的多模态数据生成,然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...
-
从基础到实践,回顾 Elasticsearch 向量检索发展史
1.引言 向量检索已经成为现代搜索和推荐系统的核心组件。 通过将复杂的对象(例如文本、图像或声音)转换为数值向量,并在多维空间中进行相似性搜索,它能够实现高效的查询匹配和推荐。 Elasticsearch 作为一款流行的开源搜索引擎,其在向量检索方面...
-
4年百亿估值,国产大模型创业TOP 1,清华造
大模型公司智谱AI,一举宣布了年内融资额:25亿元人民币。 如此数额,什么概念?刷新了国内大模型创业公司的累计融资额,估值超过百亿。 这家成立4年的公司,已经成为国产大模型最具吸金力、最具价值认可的公司。 在百模大战来到见真章的“生成式AI第二阶段”,领头...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
百川VS智谱,谁是中国的OpenAI?
6月初,外媒曾发出了“谁是中国的OpenAI”的拷问,经历了大模型创业潮之后,大浪淘沙,最终留下的不过寥寥数人。 清华大学几个十字路口外的赛尔大厦,是明星创业者王小川的百川智能,搜狐网络大厦是学院派出身的智谱AI。二者在经历了市场的检验后,成为了最有希望的...
-
AI视野:WPS AI宣布接入WPS Mac版;爱奇艺推出AI搜索;苹果计划明年推出生成式AI功能;DALL-E3易受越狱攻击
???AI应用 爱奇艺推出AI搜索 将生成式AI技术应用于剧情搜索等场景 爱奇艺升级AI搜索,区别于传统搜索第一步只能搜到片名,升级后的爱奇艺AI搜索主打让观众在搜索环节便能一键直达心仪内容。 WPS AI 宣布接入 WPS Mac 版 提供内容生成等功...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...
-
阿里达摩院发布业内首个遥感 AI 大模型,号称可识别近百种地物分类
10 月 20 日消息,据达摩院 DAMO 官方公众号发文显示,阿里达摩院今天发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种...