视觉定位 - AIGC资讯

人工智能在自动驾驶中的核心技术

标题：人工智能在自动驾驶中的核心技术探索随着科技的飞速发展，人工智能（AI）已逐步渗透到我们生活的各个领域，其中自动驾驶技术作为AI应用的前沿阵地，正引领着汽车行业乃至整个交通领域的深刻变革。自动驾驶技术通过集成传感器技术、大数据分析、机器学习、计算机视觉...

人工智能 2025-06-27 人工智能

827阅读

【AIGC调研系列】CogVLM2:第二代视觉大模型

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...

人工智能 2024-05-28 人工智能

1689阅读

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

近日，颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项...

大数据 2024-04-25 人工智能

1034阅读

全球首个基于大语言模型的自动驾驶语言控制模型

Arxiv论文链接：https://arxiv.org/abs/2312.03543项目主页：https://github.com/Petrichor625/Talk2car_CAVG 近年来，工业界和学术界都争先恐后地研发全自动驾驶汽车（AVs）。尽...

人工智能 2024-03-19 人工智能

1073阅读

两张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora

只需2张图片，无需测量任何额外数据—— 当当，一个完整的3D小熊就有了：这个名为DUSt3R的新工具，火得一塌糊涂，才上线没多久就登上GitHub热榜第二。有网友实测，拍两张照片，真的就重建出了他家的厨房，整个过程耗时不到2秒钟！（除了3D图，...

人工智能 2024-03-04 人工智能

914阅读

厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型

图像匹配是计算机视觉的一项基础任务，其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering 等的基础和前置步骤，其精确度和效率对于后续处理十分重要。传统算法（SIFT）在面临...

生成式AI 2024-02-29 人工智能

966阅读

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模...

大数据 2024-02-19 人工智能

1096阅读

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...

生成式AI 2024-01-29 人工智能

915阅读

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。 2024年，大模型领域要卷什么? 如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 G...

大数据 2024-01-26 人工智能

869阅读

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。最近，通义千问实火。前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。让甄嬛、慈禧、马斯克、猫主子和兵...

生成式AI 2024-01-26 人工智能

1089阅读

阿里云发布多模态大模型Qwen-VL-Max版本性能比肩GPT-4V

阿里云公布了多模态大模型的最新研究成果，继Plus版本之后，再次推出Max版本。 Qwen-VL-Max模型在视觉推理方面展现出卓越的能力，可以理解并分析复杂的图片信息，包括识人、答题、创作和写代码等任务。此外，该模型还具备视觉定位功能，可根据画面指定区域...

AIGC 2024-01-26 人工智能

930阅读

0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

用多模态大模型来做语义分割，效果有多好？一张图+文字输入想分割的物体，大模型几秒钟就能识别并搞定！只需输入想分割的对象如“擎天柱”，单个目标立刻就能被精准识别、快速切割：多个物体也是手到擒来，像是指定天空、水、树、草、女孩、龙猫（Chinchil...

大数据 2023-12-10 人工智能

876阅读

最强“全开源”多模态分割一切大模型APE

APE 是一种全开源的多模态分割模型，其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt，但 APE 通过对每个类别名或描述短语进行独立建模，可以学习到不同实例之间的差异。此外，APE 还通过压缩 W...

大数据 2023-12-10 人工智能

852阅读

GPT-4V在自动驾驶上应用前景如何？面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉（CV）应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近，一篇题为《On the Road with GPT-4V (ision : Early Explorations of Visua...

人工智能 2023-11-20 人工智能

826阅读

NeRF与自动驾驶的前世今生，近10篇论文汇总！

神经辐射场（Neural Radiance Fields）自2020年被提出以来，相关论文数量呈指数增长，不但成为了三维重建的重要分支方向，也逐渐作为自动驾驶重要工具活跃在研究前沿。 NeRF这两年异军突起，主要因为它跳过了传统CV重建pipeline的...

生成式AI 2023-11-14 人工智能

1015阅读