-
【AIGC调研系列】CogVLM2:第二代视觉大模型
CogVLM2是智谱AI推出的新一代多模态大模型,继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...
-
颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 项...
-
全球首个基于大语言模型的自动驾驶语言控制模型
Arxiv论文链接:https://arxiv.org/abs/2312.03543项目主页:https://github.com/Petrichor625/Talk2car_CAVG 近年来,工业界和学术界都争先恐后地研发全自动驾驶汽车(AVs)。尽...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
厦门大学、Intel、大疆联合出品,从网络视频中学习零样本图像匹配大模型
图像匹配是计算机视觉的一项基础任务,其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering 等的基础和前置步骤,其精确度和效率对于后续处理十分重要。 传统算法(SIFT)在面临...
-
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模...
-
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。 想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出
【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。 最近,通义千问实火。 前段时间被网友玩疯的全民舞王,让「AI科目三」频频登上热搜。 让甄嬛、慈禧、马斯克、猫主子和兵...
-
阿里云发布多模态大模型Qwen-VL-Max版本 性能比肩GPT-4V
阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。 Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。此外,该模型还具备视觉定位功能,可根据画面指定区域...
-
0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
用多模态大模型来做语义分割,效果有多好? 一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定! 只需输入想分割的对象如“擎天柱”,单个目标立刻就能被精准识别、快速切割: 多个物体也是手到擒来,像是指定天空、水、树、草、女孩、龙猫(Chinchil...
-
最强“全开源”多模态分割一切大模型APE
APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 W...
-
GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了
GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。 最近,一篇题为《On the Road with GPT-4V (ision : Early Explorations of Visua...
-
NeRF与自动驾驶的前世今生,近10篇论文汇总!
神经辐射场(Neural Radiance Fields)自2020年被提出以来,相关论文数量呈指数增长,不但成为了三维重建的重要分支方向,也逐渐作为自动驾驶重要工具活跃在研究前沿。 NeRF这两年异军突起,主要因为它跳过了传统CV重建pipeline的...