-
具身智能机器人隐藏冠军上新:领狗进家门,多模态AI那种
具身智能领域的“癫”,已经进入next level了! 来看这段视频:人形机器人在前面跑,一群机器狗在后面追;然后人追着狗,接着狗追着人…… 最后那位机器人还有很重的「偷感」在身上。 别怕,这不是进入了《恐怖游轮》or《开端》的神奇循环,而是一家国产具身...
-
用AI打假AI,这些倒反天罡的AI应用正在悄悄走红
“不要相信你现在看到的任何东西。”这是X上的一位AI圈博主在看完最近爆火的AI伪造版TED演讲发出的感慨。 谁还记得,一年前AI生成的视频是这样的: 生成式AI将互联网带入到了一个真假难辨的深伪时代。 “有图有真相”在过去是网友求证文字信息真实性时常引用...
-
AI测试入门:认识AIGC与多模态技术
AI测试入门:认识AIGC与多模态技术 前言 一、 什么是AIGC? 二、 AIGC的技术基础 三、 AIGC的工作原理 四、AIGC的应用场景 4.1. 媒体与出版 4.2. 市场营销 4.3. 教育 4.4. 游戏开发 4.5. 艺术创作...
-
AI日报:《黑神话:悟空》应该感谢AI;通义千问启用新域名“tongyi.ai”;Luma v1.5版本发布;claude被作家集体起诉
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、《黑神话:悟空》震撼上线,英伟...
-
小米15蓄势待发!雷军预告小米旗舰将接入谷歌AI大模型
快科技8月8日消息,小米创办人雷军在社交平台上宣布,小米旗舰设备国际版将接入谷歌AI大模型Google Gemini,给用户带来更智能、更直观的使用体验。 据悉,Gemini是谷歌研发的多模态AI大模型,能够识别、理解和操作多种类型的信息。 比如你画个鸭子...
-
AIGC内容分享(一):一次性搞懂什么是AIGC
目录 前言 一、基本概念/理论 1、AI 2、AI大模型 3、开源 4、自然语言处理(NLP) 5、AIGC 6、AIGC和Chat GPT的关系 7、AIGC可以生成的内容 二、常见的AIGC应用 (一)常用AIGC软件 (二)A...
-
百度发布AI原生应用“橙篇”APP 支持超长内容理解生成
5月30日,百度在2024移动生态万象大会上正式推出了AI原生应用——“橙篇”。 “橙篇”不仅让用户能够轻松应对超大、多格式、长内容的文件挑战,进行深度理解、精准总结和即时问答,更以其超长篇幅的长文生成、深度编辑和多模态自由创作能力,极大地丰富了用户的内容...
-
【AIGC调研系列】GPT-4O比GPT-4强在哪
GPT-4O与GPT-4在多个方面有所不同,主要体现在性能、响应速度、成本效益以及多模态处理能力上。 性能提升:GPT-4O在文本分析、推理和编程能力上相较于GPT-4有显著提升。特别是在视觉和音频理解能力上,GPT-4O表现出更优越的性能[3][8...
-
小米小爱同学与阿里云通义大模型合作 成果已在小米汽车等落地
近日,小米旗下备受欢迎的人工智能助手“小爱同学”与阿里云通义大模型携手合作,共同探索并强化在图片生成、图片理解等多模态AI生成能力的新领域。 这一创新技术已经在小米汽车、手机等多类设备上成功落地,为用户带来前所未有的智能体验。 以小米汽车SU7为例,这款车...
-
跟这些头部厂商交流后,终于知道AIGC、大模型持续火爆的原因 | WOT技术大会
2024年,是AIGC出现的第三年,也是其应用落地的元年!站在2024年的当下,有人会产生这样的疑问:为什么AIGC、大模型持续火爆? 一个新兴概念之所以持续火爆,无外乎两个原因:往上看,技术本身还有着无穷无尽的发展潜力,远未触顶,国外的OpenAI、...
-
斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用
全球首个超小型多模态AI Agent模型Octopus V3,来自斯坦福大学的NEXA AI团队,让Agent更加智能、快速、能耗及成本降低。 今年四月份初,NEXA AI推出了备受瞩目的Octopus V2,该模型在函数调用性能上超越了GPT-4,减...
-
Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了
科幻大片中的AR黑科技,竟走进了现实! 就在刚刚,Meta自家的雷朋智能眼镜,已经开始支持多模态版的Llama 3了!要知道,Llama 3的开源版本还没支持多模态呢。 就在最近,小扎还在访谈中承认愿意开源价值100亿美元的模型,不过,如果涉及到产品侧,...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...
-
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。 随着影视业失业潮呼声渐起,Sora的诞生也给中国AI行业带来了巨大的焦虑。 360集团创始人周鸿祎认为,Sora模型展现出了超越当前中国同类产品的性能...
-
高通宣布推出 AI Hub 开发人员在高通设备上运行AI模型
在巴塞罗那世界移动大会上,高通公司推出了多项新技术。该公司发布了Qualcomm AI Hub,这是一款新工具,允许开发人员在高通设备上运行AI模型。 Qualcomm AI Hub 为 Snapdragon 和 Qualcomm 平台提供75多个优化的...
-
OpenAI 推出适用于 Apple Vision Pro 的 ChatGPT 应用
OpenAI是地球上一些最先进的人工智能模型背后的研究组织,它为Apple Vision Pro(苹果上个月推出的增强现实耳机)发布了一款新的 ChatGPT 应用程序。 ChatGPT for Vision Pro是OpenAI的GPT-4Turbo模...
-
张晴晴:对话数据推动AIGC——大模型底层数据探索
“Training data is technology” . 数据即科技,OpenAI的联合创始人IlyaSutskever在与知名科技媒体The Verge访谈中提到。ChatGPT自发布以来热度席卷全球,一周前惊艳亮相的GPT-4更是...
-
阿里北交大实习生论文火了!MobileAgent 可模拟人类玩转手机,网友:加速剁手、吃土!
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) “太酷了,以后就靠AI帮我加速剁手吃土了。”近日一款名为MobileAgent的移动智能代理引起了圈内人的注意。 一个惊艳之处在于,这款Agent为“手机+GPT4”结合,做出...
-
Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理
Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。 该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要...
-
Gemini官网体验入口 谷歌DeepMind多模态AI人工智能在线使用地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。作为全球热门的多模态AI系统,Gemini能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。在语言理解、推理、数学、编程等多个领域,Gemini超越了之前的状态,成为迄今为止最...
-
2023全球AI企业大盘点!2024最能搞钱的方向是什么?
2023,AI狂飙了一整年。 无论是科技巨头还是初创企业,都在发掘生成式AI的潜力,布局各自的AI产品。高盛数据显示,至2025年全球AI领域投资数额将达2000亿美元。 投资者们倾向在AI等创新领域寻找新机会和新的增长点。美国著名风险投资家Aileen...
-
Gemini官网体验入口 谷歌AI聊天模型软件app免费下载地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域的表现超越了以往,成为目前最强大的AI系统之一。它有三个不同规模的版本,能...
-
Meta Ray-Ban智能眼镜引入AI,可识别物体和语言翻译
Meta公司最新宣布将在其Ray-Ban智能眼镜上推出引人注目的多模态AI功能,为用户提供更智能、交互式的体验。该功能利用眼镜的摄像头和麦克风,使Meta的AI助手能够感知用户周围的视听信息,并做出相应的反应。 马克扎克伯格在Instagram的一段视频中...
-
Google Gemini官方体验入口在哪 谷歌AI模型介绍
Google Gemini是一个由Google开发的下一代人工智能(AI)项目,它旨在创建一个强大的多模态AI模型,能够处理不同类型的内容,如文本、图像、代码等,并具有高级的语言、对话、创造和分析能力。Gemini软件的体验入口在哪呢,这里我们来看下Gem...
-
GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的3...
-
【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家
个人主页:【?个人主页】 文章目录 前言 什么是DALL-E 2 ? 介绍的怎么厉害,它又能干啥呢? 基本功能 新功能 编辑 变体功能 总结 前言 DALL-E 2 是一种基于语言的人工智能图像生...
-
全网最全ChatGPT/AIGC报告分析(365份)
本星球整理了365份ChatGPT/AIGC重磅专业报告(更新中…),部分目录如下,请读者搜索关键字,获取报告,学习参阅。 https://mp.weixin.qq.com/s/hvI2Hupjx_mnPh3YGyobww 1、计算机研究报告:Chat...