文档理解 - AIGC资讯

又被 OpenAI 截胡，Google推出开源视觉语言模型：PaliGemma

前言该模型结合了 SigLIP 视觉模型和 Gemma 语言模型，这两种模型都是开放组件，使得PaliGemma在处理视觉与语言结合的任务上表现出色。 PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemm...

生成式AI 2024-05-17 人工智能

951阅读

多模态文档理解能力新SOTA！阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5，针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战，提出了一系列解决方案。话不多说，先来看效果。复杂结构的图表一键识别转换为M...

生成式AI 2024-04-02 人工智能

962阅读

零一万物大模型开放平台是一个通过API调用获取高品质Yi系列大模型的平台。Yi系列模型基于零一万物的前沿科研成果和高品质数据训练而成，曾在多个权威榜单中获得SOTA表现。主要产品包括yi-34b-chat-0205、yi-34b-chat-200k和y...

人工智能 2024-03-15 人工智能

1055阅读

概括大家好，我是戚张扬，目前就读于香港大学，今天和大家分享一篇我们关于视觉语言模型最新的研究，这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...

大数据 2023-12-29 人工智能

1269阅读

近期，基于GPT-4的AI系统Coscientist成功在Nature杂志上发表了一篇论文，展示了其在科学研究领域的引人注目的表现。这一新兴的大模型化学家能够自主完成复杂的实验任务，甚至包括2010年诺贝尔化学奖获得者因其研究而获奖的钯催化交叉偶联反应。这...

大数据 2023-12-21 人工智能

912阅读

字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限，达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法，解决了现有模型在解析高分辨文档图像方面的不足。在此研究中，提出了DocPedia，...

大数据 2023-12-04 人工智能

875阅读

现在连文档都有大模型了，还是高分辨率、多模态的那种! 不仅能准确识别出图像里的信息，还能结合用户需求调用自己的知识库来回答问题。比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究，于2023年...

大数据 2023-12-04 人工智能

859阅读

文章目录前言正文 Python支持的ChatGPT都能干应用场景文档理解和摘要图片分析和描述数据集处理和分析文件搜索和检索任务协作和知识共享总结写在最后前言在过去的几年中，人工智能技术取得了巨大的进展，...

人工智能 2023-11-22 人工智能

1124阅读