-
GPT-4o被全球网友玩坏了 谷歌:终究是错付了!
在社交软件上,OpenAI的GPT-4o成为了热议的焦点。这款最新旗舰产品以其全能的特性——接受文字、音频、图像的任意组合输入,并生成相应的文字、音频、图像输出——迅速吸引了全球网友的关注。GPT-4o的免费特性更是让其成为了互联网上的新宠。 在5月14日...
-
云图AI:建筑设计师效率工具 快速批量生成设计效果图
云图AI是一个由扮家家、纯粹设计与广州设计师周联合打造的专业级AIGC设计平台。该平台汇聚了30位国内外顶尖AI技术专家的智慧,利用人工智能大模型为引擎,旨在为室内设计师、建筑设计师、景观设计师和展厅设计师等提供高效的设计绘图工具。 平台功能 AI创作...
-
一些 Llama3 微调工具以及如何在 Ollama 中运行
Llama3是Meta提供的一个开源大模型,包含8B和 70B两种参数规模,涵盖预训练和指令调优的变体。这个开源模型推出已经有一段时间,并且在许多标准测试中展示了其卓越的性能。特别是Llama3 8B,其具备小尺寸和高质量的输出使其成为边缘设备或者移动设...
-
美国参议院公布AI监管路线图 呼吁每年投320亿美元
美国四位顶级参议员于周三公布了一份关于人工智能监管的提案路线图,呼吁每年至少投入320亿美元用于非国防人工智能创新。AI 工作组的成员包括参议院多数党领袖查克・舒默(D-NY),迈克・朗兹(R-SD ,马丁・海因里希(D-NM 和托德・扬(R-IN ,在举...
-
与机器对话:揭示提示工程的十个秘密
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 提示的力量十分神奇,我们只需抛出几个近似人类语言的单词,就能得到一个格式和结构都良好的答案。没有什么话题是晦涩难懂的,没有什么事实是触...
-
小米AI大模型MiLM通过备案 将应用于手机、汽车产品中
5月16日,小米公司宣布,小米大语言模型MiLM正式通过大模型备案,小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。 5月15日,北京市生成式人工智能服务新增已备案信息正式公布。此次19家企业新增备案,包括了北京小米科技有限责任公司“小米”、腾讯...
-
Ollama如何构建自己的Llama3中文模型
Ollama Ollama 是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。Ollama 设计为一个框架,旨在简化在 Docker 容器中部署和管理大型语言模型的过程,使得这一过程变得简单快捷。用户可以通过简单的...
-
UIUC发布StarCoder2-15B-Instruct代码大模型 无需OpenAI数据登上性能榜单
UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型,这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct,登上了代码生成性能榜单之巅。 StarC...
-
不止3D高斯!最新综述一览最先进的3D重建技术
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的...
-
苹果将推出的AI补丁 用眼睛和声音控制您的 iPhone 和 iPad
苹果公司在纪念全球辅助功能意识日上宣布了即将推出的 iOS 和 iPadOS 辅助功能,旨在为残疾人士提供更便捷的体验。这些新技术不仅服务于特定群体,还可能对广大用户产生积极影响。 眼动追踪技术将成为 iPhone 和 iPad 用户的利器,无需额外硬件...
-
国内大厂“魔改”AI搜索
北京时间5月15日凌晨,被OpenAI 抢过风头的谷歌开始了绝地反击,其中就包括 AI 搜索。 比起之前的小试牛刀,谷歌这回的搜索改造进一步打开了想象的空间。搜索不止是回答还是执行,获得的不仅是难以辨别真假的回答,而是详细可执行的计划。用户的搜索不再是一次...
-
「大模型」之所短,「知识图谱」之所长
最近一年以来,大语言模型技术突飞猛进,被广泛地认为开启了人工智能研究的新阶段。大语言模型时代的到来,给知识图谱技术也带来了新的机遇与挑战。我们在 5 月份的时候曾经发布过知识图谱与 AIGC 大模型的知识地图,其中包括了文本生成、图像生成等技术。本次分享...
-
字节发布豆包大模型,以普惠AI推动企业业务创新
根据麦肯锡的报告显示,到2030年,大模型推动的全球经济增量将达到49万亿人民币,其中中国部分的经济增量将达到14万亿人民币。这里面既包括大模型对现有工作效率的提升,也包括新技术所带来的新场景和新业态。 虽然我们看到更多的企业和开发者在积极拥抱大模型,甚...
-
中国区AI团队被打包去美国 微软回应:仅一小部分员工可国际轮岗
快科技5月15日消息,对于有关微软人工智能团队集体赴美的消息,微软方面回应称,目前微软有一小部分员工得到可以选择国际轮岗的机会。 这部分员工可以选择接受轮岗,或者继续在现在的岗位工作,此前打包赴美”传闻有夸张及不实之处。 今天有报道称,微软总部下发邮件,通...
-
字节与荣耀、小米、OPPO、vivo等共同宣布:成立智能终端大模型联盟
快科技5月15日消息,在今天的字节跳动2024春季火山引擎Force原动力大会上,火山引擎携手OPPO、vivo、荣耀、小米、三星、华硕等,共同宣布成立了智能终端大模型联盟。 联盟的成立旨在推动大模型技术在智能终端设备上的应用,通过整合各方资源,共同探索A...
-
百度:文心大模型日均处理Tokens文本达2490亿
快科技5月15日消息,今日,百度发布公告表示,文心大模型日均处理Tokens文本已达2490亿。 百度认为,使用大模型不应该只看价格,更要看综合效果,只有让AI应用效果更好、响应速度更快、分发渠道更广,才能让人们切实感受AI为社会生产带来的便利。 近日,国...
-
GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推。 请!看! 这,就是用上GPT-4o,花不到30s时间,通过单个prompt把一个电子表格中的内容生成了完整的图表和统计分析。 在过去,在Excel里做这玩意儿...
-
大模型真要取代程序员了?最危险的岗位是......
如今,随着大模型在编程、代码生成、自动化测试等领域展现出越来越强大的能力,一个引人深思的问题浮现出来:大模型会不会最终取代程序员的工作? 有些人认为,世界上本就没有哪项工作是绝对安全的,机器取代人工本就是迟早的事。从 GitHub Copilot...
-
首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了! 5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型...
-
OpenAI 首次推出 GPT-4o“全能”模型,干翻所有语音助手
OpenAI 在本周一(2024年5月13号 推出了一款名为 GPT-4o 的新旗舰级生成式AI模型。这里的“o”代表“全能”,因为这款模型能够处理文本、语音和视频三种不同的输入。在未来几周内,GPT-4o 将逐步应用于公司针对开发者和消费者的各类产品。...
-
MiniMax推出人生搭子「海螺 AI」 已接入自研多模态大模型
MiniMax 公司推出了一款人生搭子产品,名为「海螺 AI」,也可以称为「小海螺」。 这款产品可以帮助学生、职场新人、自由工作者、创作者等各类人群,作为一个外挂大脑和人生搭子,帮助化解信息过载和高速运转带来的压力。产品背后接入了 MiniMax 自研的多...
-
告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人赵健、清华大学智能产业研究...
-
2024春季火山引擎FORCE原动力大会总结 字节豆包9大模型详细介绍
在2024年春季火山引擎FORCE原动力大会上,字节跳动隆重推出了自主研发的“豆包大模型”系列,标志着该公司在人工智能领域的深厚积累和创新能力。这一系列大模型涵盖了豆包通用模型Pro、lite,以及角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文...
-
GPU需求增长但费用高昂,微云服务成为企业新宠
GPU的需求如今呈现出极大的增长,它们对于运行和训练生成式人工智能(GenAI)模型来说至关重要。微云(microclouds)提供的GPU服务可能成为一种可行的替代方案。微云市场规模正在快速增长。CoreWeave、Lambda Labs、Volta...
-
字节跳动正式发布自研豆包大模型系列 覆盖九大模型
站长之家(ChinaZ.com)5月15日 消息:在今日举办的2024春季火山引擎FORCE原动力大会上,字节跳动重磅推出了其自研的“豆包大模型”系列。 这款大模型家族涵盖了豆包通用模型Pro、liti,以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声...
-
写一个类ChatGPT应用,前后端数据交互有哪几种
前言 最近,公司有一个AI项目,要做一个文档问答的AI产品。前端部分呢,还是「友好借鉴」ChatGPT。别问为什么,问就是要站在巨人的肩膀上进行「带有中国特色」的创新。而后端是接入我们团队的模型,我咨询过模型团队,也是基于开源模型做参数的微调,这个魔幻的...
-
谷歌推全新AI视频生成模型Veo,可创建高质量60秒、1080p视频
谷歌在其深度学习 AI 部门 DeepMind 的研究人员发布了一款名为 Veo 的全新式 AI 视频模型,能够创建“超过60秒的高质量、1080p 剪辑”,“从照片写实主义到超现实主义和动画,它可以应对一系列电影风格”,在逼真度和视觉果方面达到了令人惊叹...
-
字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型
火山引擎总裁 谭待 企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。 ——谭待 火山引擎总裁...
-
思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能...
-
微软发布 MatterSim 模型:模拟材料、预测性能,AI 探索材料设计的无限可能
5 月 15 日消息,微软研究院科学智能中心(Microsoft Research AI for Science)近日推出 MatterSim 模型,能够在广泛的元素、温度和压力范围内,准确高效地模拟材料和预测性能,助力材料设计的数字化转型。 新材料探索...
-
AI日报:谷歌终极杀器硬刚GPT-4o、Sora;字节推出豆包大模型“全家桶”;阿里再推AI虚拟试衣神器;腾讯开源混元文生图大模型
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 1、谷歌急了,终极杀器对打GPT-4o 视频模型Veo硬刚Sora 谷歌近日发布了一系列强大的AI工具,...
-
OpenAI和Google接连两天的大动作,都想让AI助手成“精”
看过昨天OpenAI的春季发布后,不难猜到,在今天的谷歌I/O大会上,必然会有关于AI助手的介绍。 毕竟,抢在谷歌I/O大会前发布GPT-4o的Altman,已经显示出了十足的针对性,凭借Altman的手段,自然也有着十足的把握做到精准打击,将这场“红蓝...
-
谷歌CEO:如果OpenAI在AI训练中滥用YouTube将采取行动
谷歌母公司 Alphabet 的 CEO Sundar Pichai 在接受 BC 采访时表示,如果谷歌发现由微软支持的 OpenAI 利用 YouTube 内容来训练能够生成视频的人工智模型,谷歌将采取行动来解决这个问题。 这一表态是在 OpenAI 技...
-
GPT-4o干掉初创全网实测,马斯克Karpathy等大佬纷表不服:OpenAI不过如此
OpenAI一夜之间,又干掉了一大批初创公司。 官方公布的全能模型GPT-4o的炸裂演示,即便过去了一天,依旧让全网深陷其中,无法自拔。 凭借实时语音视频对话,GPT-4o已经深入教育、翻译、视频会议等领域的变革。 OpenAI科学家Lilian W...
-
Google CEO表示,生成式AI对搜索业务不构成威胁
Alphabet 旗下的 Google 在周二宣布了几项新的生成式人工智能功能,公司表示这项新技术会取代其价值数十亿美元的搜索业务,而是会增强其功能,提高搜索结果的相关性。 Google 首执行官 Sundar Pichai 表示,目前还不太可能会有任何技...
-
无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct
在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。 这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之...
-
Gmail引入Gemini AI技术,帮助用户搜索、总结和起草邮件
谷歌在其2024年 Google I/O 大会上宣布,Gmail 将获得一次 AI 升级。根据谷歌的介绍,Gmail 用户能够利用其 Gemini AI 技术搜索、总结和起草邮件。Gemini 还能够执行更复杂的任务,例如帮助用户处理电子商务退货,通过搜索...
-
“全家桶”战士归来,谷歌自我革命!
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 5月与6月,旧金山硅谷各大新贵旧王正在激烈角逐,主战场无疑则是AI。 就在昨天凌晨GPT-4o发布的24小时后,Google I/O大会也交卷了。 有意思的是,谷歌掌舵人皮查伊,好...
-
Android即将推出基于AI的诈骗电话检测功能
在 Google 的 I/O 开发者大会上,Google 宣布正在测试一项新的通话监测功能,以提醒用户正在与可能试图欺诈他们的人进行通话,并鼓励他们结束此通话。Google 表示,该功能利用了 Gemini Nano 技术,这是公司为 Android 设备...
-
Agents需要一个代码解释器
作者 | Vasek Mlejnsky 编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 构建人工智能代理很难。你将与幻觉作斗争,让agents智商不掉线,并引导他们使用正确的工具。 不过,方法也不难,其中一种就是赋予代理代码执行...
-
谷歌推出新的 AI 模型 LearnLM,专注于教育领域
谷歌发布了它的新 AI 模型 LearnLM 将帮助学生解决作业问题。 LearnLM 是基于谷歌大型语言模型 Gemini 的一系列 AI 模型,旨在成为各个学科的专家,以不同的方式找到展示例子(如照片或视频),在学习过程中辅导学生,并激发学习的兴趣。谷...
-
MIT最新!多模态LLM真的无所不能吗?大模型能解决一切难题吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文对自动驾驶领域内多模态大型语言模型(MLLMs)的应用进行了审慎的审视,并对一些常见的假设提出了质疑/验证,重点关注它们通过闭环控制环境中的图像/帧序列推理和解释...
-
谷歌隐形AI数字水印技术可辅助识别生成的文本和视频
谷歌在今天宣布的一系列新的 AI 模型和工具中,还将其 AI 内容水印技术扩展到了两个新的媒介。谷歌旗下的 DeepMind 首执行官 Demis Hassabis 在周二的 Google I/O 开发者大会上首次登台,不仅介绍了团队的新 AI 具(如 V...
-
HPE Aruba Networking的前瞻视角:构建AI赋能的安全融合网络
数字化时代,网络不仅是连接世界的纽带,更是推动商业和社会进步的关键力量。随着移动设备、物联网(IoT 和云服务的爆炸性增长,用户对网络的依赖达到了前所未有的水平。一个能够随时随地提供安全、高效接入的网络环境,无论对个人还是企业,都已成为刚需。然而,这一需...
-
谷歌 I/O开发者大会汇总:AI模型全面更新 几乎覆盖所有生成模型类型
在昨晚的Google I/O发布会上,Google宣布了一系列AI模型的更新,涵盖了从文本到视觉和音乐的多个领域: Gemini1.5Pro:支持200万上下文,针对翻译、编码、推理等关键用例进行了质量改进,但未发布测试结果。 Gemini Flash:针...
-
为什么腾讯认为DiT架构是未来的主流?做了哪些改进?
OpenAI迭代ChatGPT的过程,发现随着参数量的提升,基于Transformer 架构的大语言模型出现了涌现现象。因此,在文生图领域,很可能参数量更大的模型,也会更“聪明”。 而此前文生图领域大火的Unet 模型容易陷入性能瓶颈与可扩展性的问题,且...
-
对标GPT4o!谷歌推出AI代理Project Astra 电影《她》将成真?
在"I/O2024"大会上,谷歌DeepMind推出了一款全新的AI代理产品Project Astra,标志着谷歌在生成式AI领域的又一重大进展。 Project Astra的推出被认为是打破现实与科幻界限的创新,让人联想到电影《她》和《星际迷航》系列中的...
-
刚刚,Ilya官宣离职OpenAI,“下一个项目意义重大”
刚刚,久未露面的Ilya Sutskever突然发声! 官宣离开OpenAI,已经有了下一个计划,但目前还不能透露细节。 近十年后,我决定离开OpenAI。 公司的发展轨迹堪称奇迹,我相信,在Sam Altman、Greg Brockman、Mira...
-
谷歌计划将 Gemini Nano AI 直接内置到Chrome浏览器中
谷歌计划将其 Gemini AI 技术直接嵌入到 Chrome 浏览器的桌面中。在谷歌于本周二举行的 I/O 大会上,宣布 Chrome126版本将采用 Gemini Nano 来为浏器内的 AI 功能提供支持,包括文本生成等功能。 图源备注:图片由AI...
-
字节跳动发布豆包大模型,主力模型比行业价格低99.3%
5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成...