视觉编码器第2页

字节跳动与中科大联手提出多模态文档大模型DocPedia

字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限，达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法，解决了现有模型在解析高分辨文档图像方面的不足。在此研究中，提出了DocPedia，...

大数据 2023-12-04 人工智能

728阅读

现在连文档都有大模型了，还是高分辨率、多模态的那种! 不仅能准确识别出图像里的信息，还能结合用户需求调用自己的知识库来回答问题。比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究，于2023年...

大数据 2023-12-04 人工智能

719阅读

训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。具体而言，团队按照提出的新框架...

人工智能 2023-11-29 人工智能

726阅读

论文地址：https://arxiv.org/pdf/2311.08046.pdf GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi Huggingface 地址：https://huggi...

人工智能 2023-11-29 人工智能

711阅读

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人的一些思考不得不说，最近大模型在学术界火起来了，基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外，大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...

人工智能 2023-10-24 人工智能

882阅读