-
突发!OpenAI展示草莓,很快发布“GPT-5”猎户座!
OpenAI不藏了,终于展示江湖流传已久的秘密项目“草莓”(Strawberry)和猎户座(Orion 。 根据Theinformation消息,OpenAI已经向美国国家安全官员展示了草莓这个秘密项目,保证会在安全、合理的范围内来开发和使用。同时Open...
-
最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。 目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。 MiniCPM-V 1.0模型:该模型系列第一个版本...
-
AI日报:类GPT-5新模型将上线?奥特曼发草莓照片引热议;美图发布美图云修Pro版; ComfyUI已支持腾讯混元DiT与Flux模型
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、奥特曼发草莓图引发猜测暗示Op...
-
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了
国产大模型,多模态能力都开始超越GPT-4-Turbo了?? 权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉: 特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者...
-
离线免费最新超长AI视频模型!一句话即可生成120秒视频,免费开源!只需要一张照片和音频,即可生成会说话唱歌的AI视频!能自行完成整个软件项目的AI工具,以及 Llama 3 在线体验和本地安装部署
离线免费最新超长AI视频模型!一句话即可生成120秒视频,免费开源!只需要一张照片和音频,即可生成会说话唱歌的AI视频!能自行完成整个软件项目的AI工具,以及 Llama 3 在线体验和本地安装部署。 StreamingT2V(Streaming Tex...
-
终于来了,OpenAI测试GPT-4o高级语音模式!
OpenAI宣布开始向小部分ChatGPT Plus用户,测试GPT-4o的高级语音模式。 本次测试将主要搜集安全、功能方面的反馈,OpenAI会在8月初分享一份全面的GPT-4o评估报告。随后,还会发布视频和屏幕共享新功能。 获取测试权限的用户会收到O...
-
LLaMA-Adapter:零初始注意机制的语言模型高效微调
23年6月来自上海AI实验室,香港中文大学和UCLA的论文“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention“。 LLaMA-Adapter是...
-
【AIGC评测体系】大模型评测指标集
大模型评测指标集 (☆)SuperCLUE (1)SuperCLUE-V(中文原生多模态理解测评基准) (2)SuperCLUE-Auto(汽车大模型测评基准) (3)AIGVBench-T2V(文生视频基准测评) (4)SuperCLUE-C...
-
全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了
【新智元导读】最近,公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问,让所有i人和e人在职场极限场景中反复拉扯。国产黑马和上影打造的原汁原味《大闹天宫》画风,简直让人一秒穿越回童年。 就在最近,全公司都为这个大闹天宫MBTI测...
-
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南 在人工智能领域,多模态学习正逐渐成为研究热点,它旨在融合视觉和语言信息,构建能够理解和生成跨模态内容的智能体。Visual-Chinese-LLaMA...
-
【大模型应用】使用 Windows 窗体作为 Copilot 应用程序的 Ollama AI 前端(测试llava视觉问答)...
项目 “WinForm_Ollama_Copilot” 是一个使用Windows Forms作为前端的Ollama AI Copilot应用程序。这个项目的目的是提供一个用户界面(UI ,通过它,用户可以与Ollama AI进行交互。以下是该项目的一...
-
Llama 3-V: 比GPT4-V小100倍的SOTA
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的A...
-
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。 Gemini1.5P...
-
【AIGC调研系列】DeepSeek模型的优势和劣势
DeepSeek模型的优势主要包括: 多模态能力:DeepSeek-VL能够在不丢失语言能力的情况下融入多模态能力,能够处理包括逻辑图、网页、公式识别、科学文献、自然图像等多种类型的数据,显示出其强大的通用多模式理解能力[1]。 高分辨率图片输入:...
-
国产大模型:今天起,我们100万tokens只需1元!
昨天刚刚在顶会ICLR作为特邀演讲(Invited Talk)中“国内唯一”的大模型玩家智谱AI,今天又放出了一个好消息: 之前:0.005元 / 千tokens 现在:0.001元 / 千tokens 换算一下,就是1元=1000000tokens...
-
AIGC批量图生成的一些思考
从技术到先进生产力,从先进装备到作战能力,中间隔了一道GAP。现在AI技术进展很快,开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元,为业务带来实际的价值是我们必须要解决的一个问题。 消费侧技术点 中文clip: 这...
-
Kimi平替?最神秘国产大模型团队阶跃星辰冒泡 一出手就是两个王炸!
国内基础大模型创业公司阶跃星辰近日正式亮相,由微软前全球副总裁姜大昕创立。该公司专注于多模态融合和Scaling Law,已经开发出千亿参数的ToC产品,并在万亿模型研发上取得显著进展。阶跃星辰的产品包括两款面向C端市场的应用:跃问和冒泡鸭,均已全面开放使...
-
一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前...
-
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练,还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...
-
科幻片成真!Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了!
Figure最新展示了他们与OpenAI合作的成果,这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求,并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作,表明这一合作取得了显著进...
-
Claude 3“自我认知”事件引爆,马斯克坐不住了,OpenAI被曝还有后手
Claude 3问世超过24小时,还在不断刷新人们的认知。 学量子物理的博士大哥快疯了,因为Claude 3是仅有的几个能理解他博士毕业论文的人之一。 没错,大哥的原话就是“的人”,people。 另一位搞量子计算的大哥,论文还没发布呢,Claude...
-
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...
-
Stable Diffusion 3正式发布,旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同...
-
AnyGPT:实现任意模态输入到任意模态输出
近日,复旦大学、上海人工智能实验室等机构联合推出了一款名为AnyGPT的多模态大语言模型,该模型在处理语音、文本、图像和音乐等多种模态输入时,可以生成任何模态的输出。 AnyGPT采用离散表示技术,通过在各模态输入上进行离散标记,实现了多模态信息的统一处...
-
国内首个!最火的MoE大模型APP来了,免费下载,人人可玩
MoE(混合专家)模型最近有多火,不用过多介绍了吧? 作为当下最顶尖、最前沿的大模型技术方向,MoE能在不增加推理成本的前提下,为大模型带来性能激增。比如,在MoE的加持之下,GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。 但普通用户想要体...
-
讯飞星火大模型重磅升级,对标GPT-4 Turbo!星火语音大模型发布,37个主流语种识别超OpenAI!
出品 | 51CTO技术栈(微信号:blog51cto) 1月30日,讯飞星火认知大模型V3.5成功发布!用核心能力的突破,回应时代的疑问。迈向更通用、实用的全民开放大模型,讯飞星火全面对标国际先进水平,同时首次发布星火语音大模型和星火开源大模型。 1、...
-
最强开源多模态生成模型MM-Interleaved:首创特征同步器
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。 最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科...
-
2024大模型应用元年,科大讯飞率先打响商业化第一枪
浩浩荡荡的AIGC潮流,叠加资本资金如火如荼地注入,过去一年里,AI赛道焕发了新生,再度登上了科技语境的浪潮之巅。 然而,与大模型战场的热闹相比,在商业化落地场景,AIGC的步伐却略显踌躇——技术层面,从文字到图像创作再到视频创作,AI屡屡交出了刷新大众视...
-
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。 近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...
-
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intellige...
-
讯飞推出“智慧黑板”:从板书工具跃迁为教师AI助手
快科技1月30日消息,今天下午讯飞星火大模型3.5正式发布。 会上,科大讯飞推出了星火智慧黑板”,号称让黑板从板书工具跃迁为教师AI助手。 据了解,星火智慧黑板具备四大特色: 1、多模态理解与推荐,让知识的讲解更直观、更生动 2、全自然交互,让老师授课更便...
-
科大讯飞发布星火认知大模型 V3.5,多项核心能力超越GPT-4Turbo
在今日下午的发布会上,科大讯飞宣布了星火认知大模型 V3.5的全面升级,该模型在文本生成、语言理解、知识问答等七大能力上均取得显著提升。值得一提的是,其中语言理解、数学能力已超越 GPT-4Turbo,代码能力更达到了 GPT-4Turbo96%,多模态理...
-
把图像视为外语,快手、北大多模态大模型媲美DALLE-3
当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
开源一个整合了AIGC大语言模型的SpringBoot智慧医药系统
前言 哈喽兄弟们,好久不见哦~ 最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的,虽然这些项目普遍都写的比较简单,但想一想既然放在电脑里面也吃灰,那么还不如开源分享出去,没准还可以帮助到一些小白新手。 本期就在其中选取了一个医...
-
首届百度商业AI技术创新大赛启动 点燃AIGC革新“星火”
随着生成式AI在全球范围的热议,AIGC前沿技术也在快速迭代,正如百度CEO李彦宏所说 “人工智能发生了方向性改变,从辨别式AI走向生成式AI,生成式AI会带来极大的效率提升” 。而这一领域的发展,将推动AI产品应用深化,极有可能在内容创作、客户服务等领域...
-
世界顶尖多模态大模型开源!又是零一万物,又是李开复
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。 模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。 同属Yi系列,同样具有两个版本...
-
AI视野:阿里推ReplaceAnything框架;OpenAI取消军用禁令;Pika推视频画面扩充功能;SD推图生视频插件I2V-Adapter
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 👨💻💡🎯聚焦开发者 阿里推Rep...
-
精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了
字节&复旦大学多模态理解大模型来了: 可以精确定位到视频中特定事件的发生时间。 比如在下面这个视频中: 狗子转身看镜头时的时间戳是多少? 什么时候用爪子推开滑板? 在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书? 对...
-
文心一言正式对标GPT-4,是青铜还是王者?
昨天,OpenAI正式发布GPT-4模型 号称史上最先进的AI系统 今天,百度文心一言在万众瞩目中闪亮登场 这款产品被视为中国版ChatGPT 在这一个多月内备受关注 文心一言某种程度上具有了对人类意图的理解能力 回答的准确性、逻辑性、流畅性都...
-
Gemini vs GPT-4V到底哪家强?视觉-语言模型的全面比较和结合使用
概括 大家好,我是戚张扬,目前就读于香港大学,今天和大家分享一篇我们关于视觉语言模型最新的研究,这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...
-
通义千问72B模型登顶Hugging Face开源大模型预训练模型榜首
开源大模型社区Hugging Face公布了最新的开源大模型排行榜,通义千问在预训练模型类别中脱颖而出,占据榜首位置。 Hugging Face开源大模型排行榜涵盖了全球上百个顶尖的开源大模型,并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力
在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型...
-
GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
近日,一项基于大学水平考试的多模态AI测试基准MMMUs发布,旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战,通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的3...
-
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,如下排行榜所示。 看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的...
-
Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4
【新智元导读】大模型能否理解自己所说,Hinton和LeCun再次吵起来了。LeCun新论文证明,GPT-4回答问题准确率仅为15%,自回归模型不及人类。 AI大佬的激战再次掀起。 Hinton在线直接点名LeCun,说他对AI接管风险的看法对人类的影响微...
-
人类考92分的题,GPT-4只能考15分:测试一升级,大模型全都现原形了
AutoGPT 的得分也凉凉。 GPT-4自诞生以来一直是位「优等生」,在各种考试(基准)中都能得高分。但现在,它在一份新的测试中只拿到了15分,而人类能拿92。 这套名叫「GAIA」的测试题由来自 Meta-FAIR、Meta-GenAI、Hugging...
-
谷歌发布 Mirasol:30 亿参数,将多模态理解扩展到长视频
11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 Mirasol,可以回答有关视频的问题并创造新的记录。 AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。...
-
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。 视频是一种多功能媒介,可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法,就能帮助人们设计出具备强大能力的认知机器 —— 它不...