-
【AIGC调研系列】InternVL开源多模态模型与GPT-4V的性能对比
InternVL和GPT-4V都是多模态模型,但它们在性能、参数量以及应用领域上有所不同。 InternVL是一个开源的多模态模型,其参数量为60亿,覆盖了图像/视频分类、检索等关键任务,并在32个视觉-语言基准测试中展现了卓越性能[2]。InternV...
-
AIGC 011-SAM第一个图像分割大模型-分割一切!
AIGC 011-SAM第一个图像分割大模型-分割一切! 文章目录 0 论文工作 1论文方法 2 效果 0 论文工作 这篇论文介绍了 Segment Anything (SA 项目,这是一个全新的图像分割任务、模...
-
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源:https://github.com/LeapLabTHU/EfficientTrain 会议...
-
Pika之后又有华人创业者入局AI视频生成,融资千万美金
3月5日,两位华人创业者苗亦舒和王子宇建立的 AI 初创公司推出了搭载自研 AI 模型的视频生成工具 Haiper。 题图来源:Haiper Haiper 的两位创始人都获得了牛津大学机器学习方向的博士学位,在该领域拥有丰富的知识和实践经验。苗亦舒曾供职...
-
都在搞端到端,试问端到端自动驾驶的基石到底是什么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基础模型的出现彻底改变了自然语言处理和计算机视觉领域,为其在自动驾驶(AD)中的应用铺平了道路。这项调查对40多篇研究论文进行了全面回顾,展示了基础模型在增强AD中的...
-
RadOcc:通过渲染辅助蒸馏学习跨模态Occupancy知识
原标题:Radocc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation 论文链接:https://arxiv.org/pdf/2312...
-
迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人思考 图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一;大模型以及多模态的发展又带来了文本和图像统一,使得跨模态端到端成为可能;追求更高级、更全面...
-
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。 上周四, Vision Mamb...
-
【前沿技术杂谈:智能对话的未来】深入比较ChatGPT与文心一言
【前沿技术杂谈:智能对话的未来】深入比较ChatGPT与文心一言 引言 主体 智能回复 语言准确性 知识库丰富度 深入分析:ChatGPT与文心一言的技术对比 技术架构和算法 数据处理和隐私 用户界面和体验 应用场景分析 未来展望 技...
-
视觉Mamba来了:速度提升2.8倍,内存能省87%
号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。 论文地址:https://arxiv.or...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
AI平台:文心大模型-产业级知识增强大模型
文心大模型-产业级知识增强大模型···大模型···产品中心···星河社区···合作咨询···文心一言,你的智能伙伴有用、有趣、有温度写方案、想点子、问万事、闲聊天现已全面开放,快来和我聊天吧查看详情两小时玩转大模型创意应用学习课程文心一言向全社会开放文心一...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
用多模态大模型来做语义分割,效果有多好? 一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定! 只需输入想分割的对象如“擎天柱”,单个目标立刻就能被精准识别、快速切割: 多个物体也是手到擒来,像是指定天空、水、树、草、女孩、龙猫(Chinchil...
-
独立开发者案例:每周4h月入数万刀;国家数据局与时代红利;创业前先买个域名;工程师成长最重要的是什么 | ShowMeAI周刊
这是ShowMeAI周刊的第6期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅!?日报合辑 ⌛ 独立开发者案例:每周只工作4小时,独立开发者打造月入数万美金的歌词网站 创业一定需要...
-
Visual chatgpt多模态大模型的前菜
刚开始感觉这就是一篇工程类文章,把各种的模型做了整合,把最近很热的两个方向chatgpt和文本生成图、图文提问整合在一起。看完文章发现自己太自傲了,绝对轻视了微软亚研院大佬们的实力。 表面看起来这是一个用chatgpt做意图理解、对话管理,然后用...
-
2023年微软开源八个人工智能项目
作者 | Tsamia Ansari 策划 | 言征 自2001年软件巨头微软前首席执行官史蒂夫·鲍尔默对开源(尤其是Linux)发表尖刻言论以来,微软正在开源方面取得了长足的进步。继ChatGPT于去年年底发布了后,微软的整个2023年,大多数技术...
-
AI视野:飞书智能伙伴发布;OpenAI曝光Q*项目;微软12月1日向中国开放Copilot;Grok下周将向x的Premium+订阅用户推出
???AI新鲜事 微软12月1日向中国开放Copilot 微软将在今年12月1日面向中国大陆的企业和教育机构推出,基于网页的生成式AI聊天助手 ——Copilot,那些无法使用ChatGPT的小伙伴们可以体验Copilot。 xAI的聊天机器人Grok...
-
【精华】AIGC之Stable Diffusion专栏
【精华】AIGC之Stable Diffusion专栏 1 参考资料 Stable-diffusion-webui 小白使用大全+插件和模型推荐2.0 Stable-diffusion-webui 插件拓展及依赖汇总 2 SD插件仓库 (...
-
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。 简单来说就是:模型输出的描述与图片内容不相符。 下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描...