视觉语言第3页 - AIGC资讯

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据...

AIGC 2023-12-03 人工智能

824阅读

280万大模型中文开发者拿到最后一块拼图

2023年5月，微软CEO纳德拉抛出一个惊人数字，未来全球的开发者数量将会达到10亿。那时候Meta的Llama已经开源4个月，但一些国内的开发者发现，从小以英文语料喂养起来的Llama，对中文世界并不友好。这未来的“10亿”开发者里会有多少中文开发者...

生成式AI 2023-12-01 人工智能

797阅读

独立开发者案例：每周4h月入数万刀；国家数据局与时代红利；创业前先买个域名；工程师成长最重要的是什么 | ShowMeAI周刊

这是ShowMeAI周刊的第6期。聚焦AI领域本周热点，及其在各圈层泛起的涟漪；关注AI技术进步，并提供我们的商业洞察。欢迎关注与订阅！?日报合辑 ⌛ 独立开发者案例：每周只工作4小时，独立开发者打造月入数万美金的歌词网站创业一定需要...

人工智能 2023-12-01 人工智能

842阅读

北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

近日，北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型，实现了统一的视觉表征，使其能够同时处理图片和视频任务。这一框架的独特之处在于，它不仅在深度学习任务中表现卓越，而且仅需短短三天的训练时间，就能够训练出具有130亿参数...

大数据 2023-11-29 人工智能

778阅读

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。具体而言，团队按照提出的新框架...

人工智能 2023-11-29 人工智能

791阅读

AI视野：Stability.ai开源SDXL Turbo；Pika Labs1.0版发布；字节跳动ChitChop在海外上线；Keras3.0正式发布；法院判决AI生成图片具备版权

???AI应用 Stability.ai发布开源文生图模型SDXL Turbo 文生成图AI平台Stability.ai发布开源SDXL Turbo，图像生成实时响应，仅需1秒。SDXL Turbo基于全新对抗扩散蒸馏技术（ADD），将生成步骤减至1-4步...

大数据 2023-11-29 人工智能

861阅读

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

论文地址：https://arxiv.org/pdf/2311.08046.pdf GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi Huggingface 地址：https://huggi...

人工智能 2023-11-29 人工智能

786阅读

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

841阅读

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但...

人工智能 2023-11-21 人工智能

800阅读

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点

AI能理解搞笑视频笑点在哪里了。 AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文...

大数据 2023-11-20 人工智能

716阅读

GPT-4V在自动驾驶上应用前景如何？面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉（CV）应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近，一篇题为《On the Road with GPT-4V (ision : Early Explorations of Visua...

人工智能 2023-11-20 人工智能

737阅读

AIGC时代，用Midjourney设计UI，跟“灵魂画手”说拜拜

使用 Midjourney 进行 UI 设计微信搜索关注《Python学研大本营》，加入读者群，分享更多精彩引言 Midjourney、Dalle-2和 Stable Diffusion等文本到图像 AI 工具可以从纯文本生成图像。现在互联网...

大数据 2023-11-19 人工智能

937阅读

UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了

GPT-4V诞生后，惊艳的多模态能力让网友惊呼连连，连OpenAI总裁Greg Brockman都不断在X上安利。不过，最近大家发现，只要打乱布局，GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」，再次难倒…… UCSC教授Xin...

大数据 2023-11-13 人工智能

694阅读

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1220阅读

【原创】用 VisualGLM 进行AIGC多模识别和内容生成

最近几个月，整个AI行业的LLM（大语言模型）蓬勃发展，除了过去传统的纯文字的多模态能力的视觉语言模型，如 GPT-4，ImageBind等表现令人印象深刻。 ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日，智谱...

人工智能 2023-11-09 人工智能

957阅读

在等GPT-5多模态？试试Genmo！Adobe AI首轮内测报告；ChatGPT三条使用哲学与实践；论文追更与阅读神器 | ShowMeAI日报

?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦！ ? 『微软 New Bing 引入广告』日活跃用户超1亿，探索广告投放的未来微软正在尝试在 New Bing 的聊天回复中投放广告。虽然广告被明确标...

生成式AI 2023-11-09 人工智能

900阅读

北大具身智能新成果：无需训练，听指令就能灵活走位

北京大学董豪团队具身导航最新成果来了：无需额外建图和训练，只需说出导航指令，如： Walk forward across the room and walk through the panty followed by the kitchen. Stan...

人工智能 2023-11-06 人工智能

839阅读

GPT-4V连小学生都不如？最新基准测试错误率竟高达90%：红绿灯认错、勾股定理也不会

GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V直接犯了致命的...

人工智能 2023-10-31 人工智能

878阅读

世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么？

本文经自动驾驶之心公众号授权转载，转载请联系出处。大模型今年爆火，很多领域上的应用如雨后春笋般涌现，很多优秀的工作出现，主要集中在数据生成和场景分析表述两部分，重点解决自动驾驶的长尾分布问题和场景识别。今天自动驾驶之心带大家梳理下自动驾驶行业上的大模...

AIGC 2023-10-30 人工智能

1083阅读

AI视野：OpenAI成全球第三最有价值初创公司；SDXL推精简版本；小米14将搭载WPS AI功能；Bing AI拒绝生成女性逼真图像

???AI应用 SDXL推精简版本SSD-1B 推理速度提升60% Segmind Stable Diffusion1B（SSD-1B）是一款高效、高速的文本生成图像AI模型，为图像生成提供广泛可能性，它是稳定扩散XL的精简版本，体积减小50%，但速度提升...

AIGC 2023-10-27 人工智能

823阅读

AI视野：高通发布骁龙X Elite芯片；AutoGPT获1200万美元融资；AI社交产品Airchat火了；百度Comate智能代码助手上线SaaS版本

???AI新鲜事高通发布骁龙X Elite芯片电脑可运行130亿参数大模型高通发布骁龙X Elite芯片，成为全球性能最强的CPU，能在PC上运行130亿参数的大模型，实现离线AI应用。爆火智能体项目AutoGPT获1200万美元融资 Auto...

人工智能 2023-10-25 人工智能

889阅读

在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来，大型多模态模型 (LMM 引起了研究界越来越多的兴趣，许多工作致力于构建多模态...

AIGC 2023-10-23 人工智能

905阅读