-
不想炸薯条的Ilya和不送GPU的英伟达,Hinton最新专访:道路千万条,安全第一条
从谷歌离职一年之际,「人工智能教父」Hinton接受了采访。 ——也许是因为徒弟Ilya终于被从核设施中放了出来?(狗头) 视频地址:https://www.youtube.com/watch?v=tP-4njhyGvo 当然了,采访教父的小伙子也非等...
-
一模一样!斯坦福AI团队被曝抄袭中国国产大模型:直接删库跑路
快科技6月3日消息,近日,斯坦福AI团队被曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果,模型结构和代码,几乎一模一样。 斯坦福的Llama3-V项目在5月29日发布,宣称仅需500美元就能训练出一个性能超越GPT-4V、Gemini Ultra、Cl...
-
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声...
-
麦肯锡调查显示:生成式AI应用大中华区增长最快
据全球顶级咨询公司麦肯锡(McKinsey & Company)发布的最新调查报告《he state of AI in early2024:Gen AI adoption spikes and starts to generate value》,显...
-
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。 能够同时生成多种模态输出的多模态模型一般是通过某...
-
【AIGC调研系列】LLaVA++整合Phi-3和Llama-3能够实现什么
LLaVA++能够为Phi-3和Llama-3带来的主要好处包括: 视觉处理能力的增强:通过整合Phi-3和Llama-3模型,创建了具备视觉处理能力的Phi-3-V和Llama-3-V版本,这意味着这些模型现在能够理解和生成与图像相关的内容[1]。...
-
【AIGC调研系列】通义千问、文心一言、抖音云雀、智谱清言、讯飞星火的特点分析
通义千问、文心一言、抖音云雀、智谱清言、讯飞星火这五款AI大模型各有特色,它们在市场上的定位和竞争策略也有所不同。 通义千问:由阿里巴巴推出,被认为是最接近ChatGPT水平的国产AI模型[7]。它不仅提供了长文档处理功能,还能够进行市场调研、竞品分...
-
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【新智元导读】刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面...
-
OpenAI正式重启机器人团队!之前曾一度被放弃
快科技5月31日消息,据媒体报道,OpenAI将重启其机器人团队。 这一团队在2020年因多种原因被解散,但随着对人工智能机器人的投资升温,OpenAI决定再次进军机器人领域。 据知情人士透露,OpenAI目前正在积极招募研究工程师,以重建曾经解散的机器人...
-
助力全球人工智能伦理建设马上消费AI防伪大模型成功入选联合国ITU AI for Good 全球案例集
随着Chat GPT等生成式人工智能技术快速发展,如何更加高效地使用以及监管AI应用,已成为全球科技界关注的核心议题之一。 近日,联合国旗下国际电信联盟(ITU)在瑞士日内瓦召开2024人工智能向善全球峰会AI for Good,公布全球TOP40案例...
-
Stable Diffusion 3.0技术论文解读
前几周 AI绘画领域扔出了一颗重磅炸弹 那就是Stability AI发布了备受期待的Stable Diffusion 3.0 简称SD3 一周后 官方放出了一篇详尽的技术论文 阐述了SD3实现突破性进展的底层原理 但是同时也引发了一连串疑问...
-
这家产品AI用户过亿,月活第一,覆盖学习办公和家庭教育,还有人偷偷用来赚钱
谁是AI产品风口浪尖最当红的焦点? 不是有些盆友猜测的聊天Bot——在最新的AI产品榜上,百度文库才是高居榜首的那一位。 显眼的排名背后,是超1.4亿的AI用户数,以及超15亿的AI新功能使用次数。 AI能用它帮大忙的场景,遍布学习办公、家庭教育和兼职赚...
-
【AIGC调研系列】llama 3与GPT4相比的优劣点
Llama 3与GPT-4相比,各有其优劣点。以下是基于我搜索到的资料的详细分析: Llama 3的优点: 更大的数据集和参数规模:Llama 3基于超过15T token的训练,这相当于Llama 2数据集的7倍还多[1][3]。此外,它拥有40...
-
筑基砥柱:EcomXL-万相实验室AIGC电商基础模型
✍? 本文作者:顾知、岁星、天扉、佳玏、允行 一、背景 随着生成式技术浪潮的兴起,Stable Diffusion结合Controlnet等控制能力在电商场景得到了广泛的应用,其中制作一张优秀的商品主图(亦或是广告的创意图,以下简称商品...
-
百度发布AI原生应用“橙篇”APP 支持超长内容理解生成
5月30日,百度在2024移动生态万象大会上正式推出了AI原生应用——“橙篇”。 “橙篇”不仅让用户能够轻松应对超大、多格式、长内容的文件挑战,进行深度理解、精准总结和即时问答,更以其超长篇幅的长文生成、深度编辑和多模态自由创作能力,极大地丰富了用户的内容...
-
降低AIGC检测的策略与方法
随着人工智能技术的飞速发展,AIGC(Artificial Intelligence Generated Content,人工智能生成内容)已经广泛应用于各个领域。然而,随之而来的是AIGC检测技术的挑战。如何降低AIGC检测成为了一个备受关注的研究课题。...
-
【AIGC调研系列】GPT-4O比GPT-4强在哪
GPT-4O与GPT-4在多个方面有所不同,主要体现在性能、响应速度、成本效益以及多模态处理能力上。 性能提升:GPT-4O在文本分析、推理和编程能力上相较于GPT-4有显著提升。特别是在视觉和音频理解能力上,GPT-4O表现出更优越的性能[3][8...
-
OpenAI与普华永道合作,为10万员工提供ChatGPT
5月30日,全球四大会计事务所之一的普华永道(PwC)在官网宣布,与OpenAI达成技术、市场双向合作,成为其最大客户和首家产品经销商。 根据协议,普华永道将向其美国75,000名和英国的26,000名员工提供ChatGPT Enterprise(企业版)...
-
用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景
高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。 那么,Edit the World试试。 图片 来自北京大学、Tiamat AI、天工AI、Mila实验室提出了EditWorld,他们引入了一种新的编辑任务,即世界指令(world-ins...
-
微软、亚马逊、IBM 承诺公布 AI 模型的安全措施
在首尔举行的 AI 安全峰会上,微软、亚马逊和 IBM 等领先科技公司承诺在开发基础模型时公布他们所采取的安全措施。这些公司都同意,如果无法控制或减轻 AI 模型所带来的风险,将不会开发或部署该模型。 图源备注:图片由AI生成,图片授权服务商Midjou...
-
Meta AI的首席执行官LeCun:不要从事LLM工作
出品 | 51CTO技术栈(微信号:blog51cto) 在巴黎举行的初创企业年度技术大会VivaTech上,Meta AI的首席执行官Yann LeCun建议希望在AI生态系统中工作的学生不要从事LLM(大型语言模型)方面的工作。 “如果你是对构建下一...
-
AI日报|微软推出Copilot+PC,通义主模型大幅降价,文心两大模型全面免费...
文章推荐 AI晚报|GPT-4o最新语音交互模式即将上线,微软Build 2024开发者大会即将开幕... AI Agent深度解析:潜力与挑战并存的智能新世界 GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传? 微软让Windo...
-
AI编码,真需求还是噱头?
嘉宾 | 徐晓强 采访 | 张晓楠 撰稿 | 李美涵 出品 | 51CTO技术栈(微信号:blog51cto) 自从生成式AI大火以后,AI好像“杠上了”程序员这个角色。 几乎每隔一段时间,关于AI编程工具是否能取代程序员的话题就会被再次讨论。 AI编程...
-
最猛AI独角兽:一年估值1700亿,再造一个OpenAI!马斯克LeCun却吵起来了
马斯克搞大模型又融到60亿美元(约435亿元)! 这是xAI最大的一轮融资,目前估值已来到240亿美元(约1738亿元),一举超过Anthropic,成为OpenAI之下第二位。 借着这个势头,老马也亲自下场发起招聘广告: 如果你相信我们理解宇宙的使命,...
-
百度文心大模型学习机“小度学习机Z30”发布
近日,百度旗下的小度科技正式推出了首款基于文心大模型的学习机Z30,已在京东平台全面开售。这款学习机以“重新定义AI老师”为核心理念,旨在通过先进的AI技术助力孩子主动学习,同时让家长享受全陪伴的超省心体验。其8GB RAM +256GB存储空间的版本售价...
-
【AIGC调研系列】CogVLM2:第二代视觉大模型
CogVLM2是智谱AI推出的新一代多模态大模型,继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...
-
百度文心一言用户破 2 亿,李彦宏:文心大模型已成中国最领先的 AI 基础模型
过去,开发者用代码来改变世界,未来,自然语言将成为通用的编程语言。 用代码书写历史的程序员会被 AI 取代吗?一个全知全能的大模型能适配一切吗?大模型成本过高怎么办?在这个 AI 时代,什么样的工具才能被称为最好用的工具? 这些问题,并非空中楼阁,而是...
-
众神听令,王者归位!Meta最强开源大模型 Llama 3 重磅来袭
整理 | 王轶群 责编 | 唐小引 出品丨AI 科技大本营(ID:rgznai100) 4月19日凌晨,Meta重磅发布了全球最大开源大模型Llama 3,一夜间重新坐稳王者之位。 模型下载链接:https://llama.meta.com/lla...
-
马斯克xAI官宣435亿元B轮融资:估值已突破1300亿!
快科技5月27日消息,埃隆马斯克旗下的人工智能初创企业xAI近日宣布,已经成功完成60亿美元(约合435亿元人民币)的B轮融资,公司估值达到180亿美元(约合1304亿元人民币)。 本轮融资的主要投资者包括Valor Equity Partners、Vy...
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态...
-
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了
TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期...
-
换了30多种方言,我们竟然没能考倒中国电信的语音大模型
不管你来自哪个城市,相信在你的记忆中,都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒…… 某种意义上说,方言不只是一种语言习惯,也是一种情感连接、一种文化认同。我们「上网冲浪」遇到的新鲜词汇中,有不少就是来自各地方言。...
-
目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。 这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。 此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。...
-
“巡云轻论坛爬虫”技术探秘:高效数据抓取与智能分析
随着互联网的飞速发展,论坛作为网民交流和信息共享的重要平台,承载了海量的数据资源。如何从这些论坛中高效抓取并分析数据,成为了许多研究者和开发者关注的焦点。本文将围绕“巡云轻论坛爬虫”展开探讨,介绍其技术原理、应用场景以及未来发展趋势。一、巡云轻论坛爬虫技术...
-
AIGC的崛起:定义未来内容创作的新纪元
?文章目录 ?AIGC简介 ? AIGC的相关技术与特点 ?AIGC有哪些应用场景? ?AIGC对其他行业影响 ?面临的挑战与问题 ?AIGC未来发展 ?AIGC十大热门网站推荐: 文心一言:https://aigc.izzi.c...
-
长文干货!老程序员测评文心一言4.0模型代码能力!
目录 前言:老程序员聊聊AI和国产大模型 第一关:代码质量和可用性——写个可运行的游戏代码 第二关:需求理解和记忆能力——多轮对话下的任务能力 总结 前言:老程序员聊聊AI和国产大模型 大家好,我是一名老程序员了,大模型出来后我算是一...
-
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
这几天,在巴黎举办的最大科技活动VivaTech上,OpenAI再次带来了许多惊喜。 从展示的模型智能进化路线图中,可以确定的是,今年OpenAI一定会发布新一代旗舰模型。 而且,大概率不会以GPT-5命名,演示中将其称之为「GPT Next」。 那么...
-
马斯克预测AI世界:人类无需再为生计奔波 工作将变成爱好
快科技5月24日消息,近日,埃隆马斯克在巴黎的欧洲科技创新展览会上分享了他对未来人工智能世界的预测。 他认为,随着AI技术的快速发展,未来社会将能够按需提供所有商品和服务。 在这样的环境下,人们将不再为了生计而工作,而是根据个人兴趣和爱好选择职业,更多地去...
-
AIGC实战——多模态模型DALL.E 2
AIGC实战——多模态模型DALL.E 2 0. 前言 1. 模型架构 2. 文本编码器 3. CLIP 4. 先验模型 4.1 自回归先验模型 4.2 扩散先验模型...
-
京东宣布五大方面升级保障618!首次应用大模型、员工倒班调休
快科技5月24日消息,京东618将于5月31日20:00开启,京东物流今日宣布五大方面”全线升级保障618。 据了解,这五大方面包括技术升级,电商仓、保税仓升级,揽派、以旧换新等服务升级,物流升级,员工关怀升级。 京东表示,今年618期间,京东物流首次深度...
-
【活动】AIGC 技术的发展现状与未来趋势
?个人主页: 鑫宝Code?热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ?个人格言: "如无必要,勿增实体" 文章目录 AIGC 技术的发展现状与未来趋势 引言 AIGC技术的发展现状 文本生成...
-
字节携港大南大升级 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脱胎换骨,轻松追平 GPT-4V
文 | 王启隆 出品 | 《新程序员》编辑部 2023 年,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员共同开发的 LLaVA 首次亮相,彼时它被视为一个端到端训练的大型多模态模型,展现了在视觉与语言融合领域的潜力。今年...
-
ambientGPT:开源多模态MacOS基础模型操作界面 可调用GPT-4o API
最近,一款名为 ambientGPT 的开源项目备受关注。这款工具是一款多模态 MacOS 基础模型操作界面,可以调用 GPT-4o API 或者本地开源模型进行问答,并能直接访问屏幕内容而不需要截图。它的本地模型是基于 Apple 的 MLX 库,技术栈...
-
CVPR 2024|多模态场景感知,小红书高保真人体运动预测方法来了!
设想一下,你在家中准备起身,前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统,已经预测出你的行动路线(路线通畅,避开桌椅障碍物)。当你接近橱柜时,系统已经理解了你的意图,柜门在你达到之前就已自动打开,无需手动操作。 视频中,左边为 3D 场景...
-
AI日报:讯飞星火Lite API永久免费;李开复称大模型疯狂降价是双输;AI特效末日滤镜抖音爆火;AI音乐Suno 融资1.25亿美元
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、科大讯飞:讯飞星火Lite A...
-
Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴
「这份访谈的每一秒都是精华。」最近,图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。 视频链接:https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s 在访谈中,Hi...
-
马斯克的xAI正努力实现Grok多模态化 将支持上传照片获得文本回复
埃隆・马斯克的人工智能公司 xAI 正在努力为其 Grok 聊天机器人增加多模态输入功能。 根据公开的开发者文件,埃隆·马斯克(Elon Musk)的人工智能公司xAI在向其Grok聊天机器人添加多模态输入方面取得了进展。这意味着,很快,用户就可以将照片上...
-
微软颠覆生产力:Copilot推自定义版,AI PC原生支持PyTorch,奥特曼预告新模型
AI 生产力的未来会是什么样子?全世界都在等待微软的答案。 5 月 22 日凌晨,微软 Build 2024 开发者大会在美国西雅图召开,今天的发布有关 AI 技术,更有关 AI 带来的新工具。 「三十多年来,微软对于计算机一直有两个梦想 —— 首先是...
-
微软Copilot+PC之后还有大招!牵手GPT-4o后能力简直王炸!奥特曼也来build现场了!
编辑|伊风 出品 | 51CTO技术栈(微信号:blog51cto) 昨天,微软震撼发布的Copilot+PC,被大赞终于是真正的AI PC了! 今天,在AI领域里拳打谷歌,脚踢苹果的微软又在build大会中狠狠地秀了一把肌肉。宣布要将Windows打造...
-
Meta发布类GPT-4o多模态模型Chameleon
Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像...