视觉模型第2页 - AIGC资讯

LLM生成3D场景，无限延伸！斯坦福华人提出3D动画生成框架，一句话一幅图创造无限3D世界

斯坦福华人退学博士开发的Pika，让AI技术和艺术迸发出了绚丽的火花。最近，又有斯坦福的华人研究人员提出的新的框架——WonderJourney，可以用一句话或者一张图，自动生成一系列3D场景的连续画面，效果炫酷！图片用一张爱丽丝奇境漫游的图片，...

AIGC 2023-12-14 人工智能

920阅读

UCLA推出Chameleon框架大模型表格数学推理准确率达98.78%

在NeurIPS2023上，UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具，包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块，解决了大型语言模型在实时信息获取和数学推理方面的不足。 Chameleon的核...

人工智能 2023-12-12 人工智能

881阅读

表格数学推理准确率达98.78%！UCLA推出全新「变色龙推理框架」

在自然语言处理任务中取得显著成就的大型语言模型（LLMs）尽管表现出色，但在实时信息获取、外部工具利用和精确数学推理方面仍显不足。为了应对这些挑战，来自UCLA等机构的研究人员打造了全新的Chameleon框架，其独特的即插即用模型融合了多种工具，包括...

大数据 2023-12-12 人工智能

888阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

1073阅读

一分钟玩转Stable Diffusion

用计算机视觉模型生成各种各样的图片已经不是什么新鲜的事了，但是最近新出的一款AI绘画模型Stable Diffusion确实惊艳到了各位小伙伴，无论是从软件的使用难度还是绘画生成的结果，都有可圈可点的地方，下面我们就一起尝试用该AI绘画软件画出一幅精美的图...

生成式AI 2023-12-08 人工智能

913阅读

锐龙8040官宣！AMD首创的AI PC性能飙升60％明年再涨3倍

AMD 2023年初发布的锐龙7040系列处理器，不但为笔记本带来了迄今最先进的4nm制造工艺、Zen4 CPU架构、RDNA3 GPU架构，还第一次为x86处理器加入了独立的NPU AI引擎硬件单元。这就是Ryzen AI，也创造了AI P...

大数据 2023-12-07 人工智能

855阅读

微软Copilot进化完全体，代码解释器、DALL·E 3，ChatGPT有的它都有

Copilot发布一周年之际，将迎来一系列重磅更新！聊天将支持128k上下文，ChatGPT的代码解释器也将被引入…… 可以说，微软这次是把GPT有的功能几乎全搬进了Copilot。不仅功能完备，Copilot的入口更加丰富多样，响应速度也更快捷，...

AIGC 2023-12-06 人工智能

814阅读

美图自研AI视觉大模型MiracleVision发布4.0版本

今日，美图自研AI视觉大模型MiracleVision（奇想智能）发布4.0版本，最新版本带来了两大新能力:AI 设计和 AI 视频。 AI 设计包括四大功能:矢量图形、文字特效、智能分层和智能排版。用户可以通过 AI 设计快速生成匹配设计风格的矢量图形，...

人工智能 2023-12-05 人工智能

807阅读

Visual chatgpt多模态大模型的前菜

刚开始感觉这就是一篇工程类文章，把各种的模型做了整合，把最近很热的两个方向chatgpt和文本生成图、图文提问整合在一起。看完文章发现自己太自傲了，绝对轻视了微软亚研院大佬们的实力。表面看起来这是一个用chatgpt做意图理解、对话管理，然后用...

生成式AI 2023-11-29 人工智能

864阅读

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

文章目录一、背景二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择三、效果四、思考论文：Learning Transferabl...

AIGC 2023-11-27 人工智能

2281阅读

【多模态】4、Chinese CLIP | 专为中文图文匹配设计

文章目录一、背景二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸三、效果四、代码 4.1 推理论文：Chinese CLIP: Contrastive Vision-Language Pr...

人工智能 2023-11-24 人工智能

2487阅读

AI原型“Make It Real”震惊开发者，将草图转化为可运行软件

在本周三，一款名为"tldraw"的协作白板应用发布了一项名为"Make It Real"的功能原型，引起了开发者社区的热议。该功能利用OpenAI的GPT-4V API，将用户绘制的矢量图转化为可运行的Tailwind CSS和JavaScript we...

AIGC 2023-11-17 人工智能

1016阅读

Yolo V8：深入探讨其高级功能和新特性

Yolo是一种计算机视觉模型，被广泛认为是目前最强大和最知名的模型之一。这一突破性技术被称为Yolo，它是“You Only Look Once”的缩写，是一种以几乎瞬间处理速度检测物体的方法。Yolo V8技术是这一技术的最新版本，也是对之前版本的一种...

生成式AI 2023-11-15 人工智能

2186阅读

解释：生成式 AI的工作机制与差异

像 ChatGPT 这样强大的生成式 AI 系统是如何工作的，它们与其他类型的人工智能有何不同？快速浏览一下头条新闻，就会发现生成式人工智能如今无处不在。事实上，其中一些标题实际上可能是由生成式人工智能撰写的，例如 OpenAI 的 ChatGPT，...

AIGC 2023-11-15 人工智能

962阅读

UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了

GPT-4V诞生后，惊艳的多模态能力让网友惊呼连连，连OpenAI总裁Greg Brockman都不断在X上安利。不过，最近大家发现，只要打乱布局，GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」，再次难倒…… UCSC教授Xin...

大数据 2023-11-13 人工智能

752阅读

智谱AI以200亿人民币估值寻求新一轮融资推出第三代基座模型ChatGLM3

智谱 AI，一家百亿清华系国产大模型公司，被曝正以200亿人民币估值，寻求新一轮融资。这使其成为国产大模型创企中，估值最高的一家公司之一。10月底官宣融资额度后，智谱 AI 迅速有了新动作:推出自研第三代基座大模型 ChatGLM3，从底层架构和模型功能进...

生成式AI 2023-11-10 人工智能

865阅读

老黄H100再破纪录，4分钟训完GPT-3！全新「特供版」H20、L20和L2曝光，性能史诗级缩水

H100再次在MLPerf中刷新了记录! 英伟达超算NVIDIA Eos在GPT-3模型的基准测试中，只用了3.9分钟就完成了训练。这比6月份的刷新记录的成绩——10.9分钟，提升了近3倍。 Eos使用了多达10，752个H100和NVIDIA Quan...

AIGC 2023-11-10 人工智能

822阅读

让AI模型成为GTA五星玩家，基于视觉的可编程智能体Octopus来了

电子游戏已经成为如今现实世界的模拟舞台，展现出无限可能。以游戏《侠盗猎车手》（GTA）为例，在 GTA 的世界里，玩家可以以第一人称视角，在洛圣都(游戏虚拟城市当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们是否也能有一...

AIGC 2023-11-10 人工智能

848阅读

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1300阅读

【原创】用 VisualGLM 进行AIGC多模识别和内容生成

最近几个月，整个AI行业的LLM（大语言模型）蓬勃发展，除了过去传统的纯文字的多模态能力的视觉语言模型，如 GPT-4，ImageBind等表现令人印象深刻。 ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日，智谱...

人工智能 2023-11-09 人工智能

1023阅读

大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

随着游戏制作技术的不断发展，电子游戏已然成为现实世界的模拟舞台。以游戏《侠盗猎车手》（GTA）为例，在GTA的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们...

人工智能 2023-11-09 人工智能

1002阅读

来聊聊近期火爆的几个大模型和自动驾驶概念

本文经自动驾驶之心公众号授权转载，转载请联系出处。近期大模型各种应用依然火爆，10月初前后出现了一系列颇有噱头的文章，试图把大模型应用于自动驾驶。和很多朋友最近也聊了很多相关的话题，写这篇文章，一方面是发现其实包括我在内，在过去其实都混淆了一些很相关...

生成式AI 2023-11-09 人工智能

822阅读

视觉感知未来，高德数据采集模型部署实践！

1. 导读作为DAU过亿的国民出行服务平台，高德地图每天为用户提供海量的检索、定位和导航服务，实现这些服务需要有精准的道路信息，比如电子眼位置、路况信息、交通标识位置信息等。读者是否会好奇，高德是如何感知到现实世界的道路信息，并提供这些数据给用户呢？...

人工智能 2023-11-08 大数据

897阅读

AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后，有人破案了

从 ChatGPT 到 GPT4，从 DALL・E 2/3 到 Midjourney，生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待，但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...

AIGC 2023-11-05 人工智能

860阅读

GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角...

AIGC 2023-10-31 人工智能

898阅读

独家 | GPT-4、Midjourney之外，谭平创业团队要造一个3D基础模型

前段时间，OpenAI 发布了文生图模型 DALL・E3，生成效果非常惊艳。比如，你可以让它一次画出几十个物体，然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到，DALL・E3不仅画出了足量的物体，就连冲浪者面对重压时的神情都刻画了出来。但细心...

AIGC 2023-10-31 人工智能

953阅读

GPT-4、Midjourney之外，谭平创业团队要造一个3D基础模型

前段时间，OpenAI 发布了文生图模型 DALL・E 3，生成效果非常惊艳。比如，你可以让它一次画出几十个物体，然后再要求它把这些物体全部放到一个冲浪者的背上：可以看到，DALL・E 3 不仅画出了足量的物体，就连冲浪者面对重压时的神情都刻画了...

AIGC 2023-10-31 人工智能

876阅读

4年百亿估值，国产大模型创业TOP 1，清华造

大模型公司智谱AI，一举宣布了年内融资额:25亿元人民币。如此数额，什么概念?刷新了国内大模型创业公司的累计融资额，估值超过百亿。这家成立4年的公司，已经成为国产大模型最具吸金力、最具价值认可的公司。在百模大战来到见真章的“生成式AI第二阶段”，领头...

AIGC 2023-10-23 人工智能

893阅读

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

研究人员推出了一种新的视觉提示方法 Set-of-Mark（SoM），它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型，可以同时处理文本和图像，并生成多种类型的输出。然而...

AIGC 2023-10-23 人工智能

1077阅读

在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来，大型多模态模型 (LMM 引起了研究界越来越多的兴趣，许多工作致力于构建多模态...

AIGC 2023-10-23 人工智能

981阅读