-
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。 最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney, 可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷! 图片 用一张爱丽丝奇境漫游的图片,...
-
UCLA推出Chameleon框架 大模型表格数学推理准确率达98.78%
在NeurIPS2023上,UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具,包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块,解决了大型语言模型在实时信息获取和数学推理方面的不足。 Chameleon的核...
-
表格数学推理准确率达98.78%!UCLA推出全新「变色龙推理框架」
在自然语言处理任务中取得显著成就的大型语言模型(LLMs)尽管表现出色,但在实时信息获取、外部工具利用和精确数学推理方面仍显不足。 为了应对这些挑战,来自UCLA等机构的研究人员打造了全新的Chameleon框架,其独特的即插即用模型融合了多种工具,包括...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
一分钟玩转Stable Diffusion
用计算机视觉模型生成各种各样的图片已经不是什么新鲜的事了,但是最近新出的一款AI绘画模型Stable Diffusion确实惊艳到了各位小伙伴,无论是从软件的使用难度还是绘画生成的结果,都有可圈可点的地方,下面我们就一起尝试用该AI绘画软件画出一幅精美的图...
-
锐龙8040官宣!AMD首创的AI PC性能飙升60% 明年再涨3倍
AMD 2023年初发布的锐龙7040系列处理器,不但为笔记本带来了迄今最先进的4nm制造工艺、Zen4 CPU架构、RDNA3 GPU架构,还第一次为x86处理器加入了独立的NPU AI引擎硬件单元。 这就是Ryzen AI,也创造了AI P...
-
微软Copilot进化完全体,代码解释器、DALL·E 3,ChatGPT有的它都有
Copilot发布一周年之际,将迎来一系列重磅更新! 聊天将支持128k上下文,ChatGPT的代码解释器也将被引入…… 可以说,微软这次是把GPT有的功能几乎全搬进了Copilot。 不仅功能完备,Copilot的入口更加丰富多样,响应速度也更快捷,...
-
美图自研AI视觉大模型MiracleVision发布4.0版本
今日,美图自研AI视觉大模型MiracleVision(奇想智能)发布4.0版本,最新版本带来了两大新能力:AI 设计和 AI 视频。 AI 设计包括四大功能:矢量图形、文字特效、智能分层和智能排版。用户可以通过 AI 设计快速生成匹配设计风格的矢量图形,...
-
Visual chatgpt多模态大模型的前菜
刚开始感觉这就是一篇工程类文章,把各种的模型做了整合,把最近很热的两个方向chatgpt和文本生成图、图文提问整合在一起。看完文章发现自己太自傲了,绝对轻视了微软亚研院大佬们的实力。 表面看起来这是一个用chatgpt做意图理解、对话管理,然后用...
-
【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型
文章目录 一、背景 二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择 三、效果 四、思考 论文:Learning Transferabl...
-
【多模态】4、Chinese CLIP | 专为中文图文匹配设计
文章目录 一、背景 二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸 三、效果 四、代码 4.1 推理 论文:Chinese CLIP: Contrastive Vision-Language Pr...
-
AI原型“Make It Real”震惊开发者,将草图转化为可运行软件
在本周三,一款名为"tldraw"的协作白板应用发布了一项名为"Make It Real"的功能原型,引起了开发者社区的热议。该功能利用OpenAI的GPT-4V API,将用户绘制的矢量图转化为可运行的Tailwind CSS和JavaScript we...
-
Yolo V8:深入探讨其高级功能和新特性
Yolo是一种计算机视觉模型,被广泛认为是目前最强大和最知名的模型之一。这一突破性技术被称为Yolo,它是“You Only Look Once”的缩写,是一种以几乎瞬间处理速度检测物体的方法。Yolo V8技术是这一技术的最新版本,也是对之前版本的一种...
-
解释:生成式 AI的工作机制与差异
像 ChatGPT 这样强大的生成式 AI 系统是如何工作的,它们与其他类型的人工智能有何不同? 快速浏览一下头条新闻,就会发现生成式人工智能如今无处不在。事实上,其中一些标题实际上可能是由生成式人工智能撰写的,例如 OpenAI 的 ChatGPT,...
-
UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了
GPT-4V诞生后,惊艳的多模态能力让网友惊呼连连,连OpenAI总裁Greg Brockman都不断在X上安利。 不过,最近大家发现,只要打乱布局,GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」,再次难倒…… UCSC教授Xin...
-
智谱AI以200亿人民币估值寻求新一轮融资 推出第三代基座模型ChatGLM3
智谱 AI,一家百亿清华系国产大模型公司,被曝正以200亿人民币估值,寻求新一轮融资。这使其成为国产大模型创企中,估值最高的一家公司之一。10月底官宣融资额度后,智谱 AI 迅速有了新动作:推出自研第三代基座大模型 ChatGLM3,从底层架构和模型功能进...
-
老黄H100再破纪录,4分钟训完GPT-3!全新「特供版」H20、L20和L2曝光,性能史诗级缩水
H100再次在MLPerf中刷新了记录! 英伟达超算NVIDIA Eos在GPT-3模型的基准测试中,只用了3.9分钟就完成了训练。 这比6月份的刷新记录的成绩——10.9分钟,提升了近3倍。 Eos使用了多达10,752个H100和NVIDIA Quan...
-
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市 当中经历丰富多彩的生活。然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们是否也能有一...
-
【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍
文章目录 一、AIGC 的简要介绍 二、AIGC 的发展历程 三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持 四、生成式 AI(Generative AI) 4.1 单模态 4.1.1 生成式语...
-
【原创】用 VisualGLM 进行AIGC多模识别和内容生成
最近几个月,整个AI行业的LLM(大语言模型)蓬勃发展,除了过去传统的纯文字的多模态能力的视觉语言模型,如 GPT-4,ImageBind等表现令人印象深刻。 ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日,智谱...
-
大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干
随着游戏制作技术的不断发展,电子游戏已然成为现实世界的模拟舞台。 以游戏《侠盗猎车手》(GTA)为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活。 然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们...
-
来聊聊近期火爆的几个大模型和自动驾驶概念
本文经自动驾驶之心公众号授权转载,转载请联系出处。 近期大模型各种应用依然火爆,10月初前后出现了一系列颇有噱头的文章,试图把大模型应用于自动驾驶。和很多朋友最近也聊了很多相关的话题,写这篇文章,一方面是发现其实包括我在内,在过去其实都混淆了一些很相关...
-
视觉感知未来,高德数据采集模型部署实践!
1. 导读 作为DAU过亿的国民出行服务平台,高德地图每天为用户提供海量的检索、定位和导航服务,实现这些服务需要有精准的道路信息,比如电子眼位置、路况信息、交通标识位置信息等。读者是否会好奇,高德是如何感知到现实世界的道路信息,并提供这些数据给用户呢?...
-
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...
-
GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%
近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角...
-
独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。 但细心...
-
GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了...
-
4年百亿估值,国产大模型创业TOP 1,清华造
大模型公司智谱AI,一举宣布了年内融资额:25亿元人民币。 如此数额,什么概念?刷新了国内大模型创业公司的累计融资额,估值超过百亿。 这家成立4年的公司,已经成为国产大模型最具吸金力、最具价值认可的公司。 在百模大战来到见真章的“生成式AI第二阶段”,领头...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...