当前位置:AIGC资讯 > AIGC > 正文

Jina AI 推出“jina-embeddings-v2”:全球首个8k 开源文本嵌入模型

Jina AI 公布了其第二代文本嵌入模型最新进展:jina-embeddings-v2。这个最先进的模型是唯一支持8K(8192个token)上下文长度的开源解决方案。这一成就使其在功能和在大规模文本嵌入基准 (MTEB) 排行榜上的性能方面与 OpenAI 的专有模型 text-embedding-ada-002相当。

Jina-embeddings-v2是开源文本嵌入模型的一大步,在容量和基准性能方面可与已建立的专有对应物相媲美。它的性能优于 OpenAI 的8K 模型 jina-embeddings-v2。值得注意的是,与 OpenAI 相比,Jina-embedding-v2在分类平均值、重新排名平均值、检索平均值和摘要平均值等关键指标上表现出更出色的性能。

研究人员表示,Jina-embeddings-v2以其先进的功能彻底改变了各种应用程序。在法律文件分析中,它捕捉和分析大量法律文本中的每一个错综复杂的细节。对于医学研究,它嵌入了科学论文,促进了整体分析并促进了突破性的发现。该模型深入研究文学分析中的长篇内容,捕捉主题元素以进行更丰富的理解。财务预测使用户能够从详细的财务报告中获得卓越的洞察力,从而增强决策过程。在对话式 AI 中,Jina Embeddings V2显著改善了聊天机器人对复杂用户查询的响应。凭借其多功能和强大的功能,Jina Embeddings V2站在改变我们处理各个领域复杂数据集和从中获取见解的方式的最前沿。

测试表明,这种支持上下文的 jina-embeddings-v2优于其他领先的基础嵌入模型,强调了更长上下文功能的实际优势。

研究人员表示,他们计划发表一篇学术论文,详细介绍Jina-embeddings-v2的技术复杂性和基准,为AI社区提供更深入地探索该模型能力的机会。该团队正在开发一个类似于 OpenAI 的嵌入 API 平台,该平台已进入高级阶段,可确保用户根据他们的需求量身定制的嵌入模型的无缝可扩展性。此外,Jina AI正在通过涉足多语言嵌入来扩大其语言能力,并打算引入德语-英语模型。此次扩张旨在增强他们的产品组合,并巩固他们作为人工智能创新领导者的地位。

该模型可以在 Hugging Face 上轻松免费下载。基础模型专为需要高精度的苛刻任务而制定,适用于学术研究或商业分析等领域。相比之下,小型型号的体积仅为0.07G,专为轻量级任务而设计,非常适合计算资源有限的移动应用程序或设备上的应用程序。认识到人工智能社区的不同需求,Jina AI提出了这两种不同的模型选项,允许用户选择最适合其计算需求并符合其应用偏好的模型。

项目地址:https://huggingface.co/jinaai/jina-embeddings-v2-base-en?ref=jina-ai-gmbh.ghost.io

官方介绍网址:https://jina.ai/news/jina-ai-launches-worlds-first-open-source-8k-text-embedding-rivaling-openai/

更新时间 2023-11-02