-
Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱
如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban M...
-
大模型——LLaVA和LLaMA的介绍和区别
LLaVA和LLaMA是两个不同的模型架构,它们的设计目的和应用领域有所不同: LLaMA(Large Language Model Meta AI) 简介:LLaMA是由Meta AI推出的一系列大规模语言模型(Large Language M...
-
AIGC时代,仅用合成数据训练模型到底行不行?来一探究竟 | CVPR 2024
首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究,展示了如SynCLIP和SynCLR等合成克隆模型,其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标,除了常见的图像损坏和OOD(域外分布)检测。另一方...
-
AIGC实战——多模态模型Flamingo
AIGC实战——多模态模型Flamingo 0. 前言 1. Flamingo 架构 2. 视觉编码器 3. Perceiver 重采样器 4. 语言模型 5. FIamingo 应用 小结 系列链接 0. 前言 我们已经学习了文...
-
Ollama保姆级教程
Ollama保姆级教程 Ollama是一个开源框架,专门设计用于在本地运行大型语言模型。它的主要特点是将模型权重、配置和数据捆绑到一个包中,从而优化了设置和配置细节,包括GPU使用情况,简化了在本地运行大型模型的过程。 Ollama还提供了对模型量化...
-
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
阿里巴巴开源了最新视觉多模态模型Qwen2-VL,根据测试数据显示,其72B模型在大部分指标超过了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名闭源模型,成为目前最强多模态模型之一。 Qwen2-VL支持中文、英文、...
-
Xinference安装及部署大模型
1. Xinference 介绍 Xorbits Inference (Xinference 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理...
-
华为昇腾Ascend系列 之 01 什么是昇腾芯片?AIGC浪潮已至,进一步推动对芯片和算力的需求,主流 GPGPU/ASIC 产品性能对比(Ascend 910、Ascend 910B)
什么是昇腾Ascend 910、Ascend 910B 昇腾 310 和 910 处理器为华为AI 算力领域核心产品,910 单卡 Int8 算力大致可达 0.6 P,最大功耗为 300W,已可对标国际主流 GPU。且昇腾计算产业在硬件方面坚持“硬件开...
-
Chameleon:Meta推出的图文混合多模态开源模型
目录 引言 一、Chameleon模型概述 1、早期融合和基于token的混合模态模型 1)早期融合的优势 2)基于token的方法 2、端到端训练 二、技术挑战与解决方案 1、优化稳定性问题 2、扩展性问题 3、架构创新 4、训练技...
-
OpenAI惨遭打脸!SearchGPT官方演示大翻车,源代码竟暴露搜索机制
【新智元导读】OpenAI再次上演了谷歌Bard出糗的一幕,SearchGPT官方震撼演示却被外媒曝出低级错误。另有神通广大的开发者甚至扒出内部源码,揭秘了背后搜索机制。网友最新一手实测,AI秒级回复让全网惊呆。 SearchGPT发布刚过两天,已有人灰度...
-
阿里大模型元老杨红霞去向官宣:入职香港高校!被曝创业项目也在推进
最新消息,阿里大模型元老杨红霞入职香港理工大学,任电子计算机系教授。 杨红霞是AI领域知名科学家。她曾在IBM T.J.沃森研究中心担任研究人员,并在雅虎担任首席科学家。2016年加入阿里巴巴,就职于达摩院智能计算实验室;2023年3月入职字节跳动。 她在...
-
AI多模态模型架构之LLM主干(3):Llama系列
〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕 本文作者:AIGCmagic社区 刘一手 前言 AI多模态大模型发展至今,每年都有非常优秀的工作产出,按照当前模型设计思路,多模态大模型的架构主要包括...
-
【AIGC调研系列】VILA-1.5版本的视频理解功能如何
VILA-1.5版本的视频理解功能表现出色,具有显著的突破。这一版本不仅增强了视频理解能力,还提供了四种不同规模的模型供用户选择,以适应不同的应用需求和计算资源限制[1][2][3]。此外,VILA-1.5支持在笔记本等边缘设备上部署,这得益于其高效的模型...
-
AI日报:阿里云发布音频模型Qwen2-Audio;字节将推类sora模型;AI眼里13.11>13.8
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Qwen2-Audio:千问系...
-
【AIGC调研系列】InternVL开源多模态模型与GPT-4V的性能对比
InternVL和GPT-4V都是多模态模型,但它们在性能、参数量以及应用领域上有所不同。 InternVL是一个开源的多模态模型,其参数量为60亿,覆盖了图像/视频分类、检索等关键任务,并在32个视觉-语言基准测试中展现了卓越性能[2]。InternV...
-
规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果...
鱼羊 明敏 发自 凹非寺量子位 | 公众号 QbitAI 本周国内最受关注的AI盛事,今日启幕。 活动规格之高,没有哪个关心AI技术发展的人能不为之吸引—— Sora团队负责人Aditya Ramesh与DiT作者谢赛宁同台交流,李开复与...
-
一文看懂LLaMA 2:大型多模态模型的新里程碑
一文看懂LLaMA 2:大型多模态模型的新里程碑 LLaMA 2是OpenAI继GPT-3之后推出的又一重磅模型,它不仅在文本生成方面有所突破,而且在图像处理和语音识别等领域也展现出了令人印象深刻的能力。本文将全面介绍LLaMA 2的背景、技术细节、应用...
-
使用LMDeploy部署和量化Llama 3模型
## 引言 在人工智能领域,大型语言模型(LLMs)正变得越来越重要,它们在各种自然语言处理任务中发挥着关键作用。Llama 3是近期发布的一款具有8B和70B参数量的模型,它在性能和效率方面都取得了显著的进步。为了简化Llama 3的部署和量化过程,lm...
-
【大模型应用】使用 Windows 窗体作为 Copilot 应用程序的 Ollama AI 前端(测试llava视觉问答)...
项目 “WinForm_Ollama_Copilot” 是一个使用Windows Forms作为前端的Ollama AI Copilot应用程序。这个项目的目的是提供一个用户界面(UI ,通过它,用户可以与Ollama AI进行交互。以下是该项目的一...
-
AI日报|微软Copilot全家桶造福十亿打工人,李开复称大模型狂降价是双输...
文章推荐 阿里通义降价,百度文心免费,一图对比谁是最具性价比大模型? AI晚报|微软推出Copilot+PC,通义主模型大幅降价,文心两大模型全面免费... AI Agent深度解析:潜力与挑战并存的智能新世界 微软Build 2024:Copil...
-
跟AI做搭子,还是这届年轻人会玩儿
这届年轻人越来越喜欢跟AI做搭子。 比如跟AI做生活搭子,让它帮自己挑水果,X平台网友“Cydiar”前不久发文,说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。 对此,有超70万网友在线围观,还有不少人在评论区用AI选起了各种水果。 除了让...
-
双排组到一个刀硬嘴甜的小姐姐,打完发现她竟是AI大模型。
永劫无间手游,终于在今天开启二测。 这意味着,在本次测试结束后,正式公测就真离我们不远了。 不知道差友里面多少人运气好,今天能顺利进入服务器。 反正官方的各种评论区下面,那些没抽到资格的玩家,已经有点走火入魔了。 而官方(24工作室和网易伏羲实验室 )...
-
AI日报:Hedra图转说话视频免费开放;Deepmind发布超牛自动视频配音技术V2A;美图WHEE V2正式上线;开源版Sora可一键生成720p高清视频
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Hedra的 Characte...
-
规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果
本周国内最受关注的AI盛事,今日启幕。 活动规格之高,没有哪个关心AI技术发展的人能不为之吸引—— Sora团队负责人Aditya Ramesh与DiT作者谢赛宁同台交流,李开复与张亚勤炉边对话,Llama2/3作者Thomas Scialom,王小川、杨...
-
清北爸爸辅导数学崩溃瞬间,这个国产大模型有解!AI启发问答关键情绪稳定
【新智元导读】辅导孩子写作业这件事,竟难倒了一众清北爸爸、海淀妈妈。不过,最近爆火的这个国产大模型,让无数家长疯狂冲进视频留言,直接把它评为国内家长最想要的AI! 前几天,微博热搜上的这个话题,可以说是让家长们哭笑不得。 既然补习老师不靠谱,那亲自上阵辅...
-
马斯克的Grok已经可以在xAI网站上单独访问
马斯克开发的Grok现在已经可以在xAI网站上单独访问。这个工具在xAI平台上的功能比之前在推特上展示的版本更加丰富。特别值得一提的是它的分支树模式,这个模式允许用户观察多轮对话中可能产生的不同回答路径,这对于分析和理解对话流程非常有用。 如果你对使用Gr...
-
一文读懂如何基于 Ollama 在本地运行 LLM
为什么要使用 Ollama 开源项目 ? 在当今人工智能技术飞速发展的时代,大型语言模型(LLM 无疑已成为焦点炯炯的科技明星。自从ChatGPT的推出以来,其强大的自然语言理解和生成能力便惊艳了全球,成为人工智能商业化进程中的杰出代表。 然而,这一领域...
-
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
斯坦福团队抄袭清华系大模型事件后续来了—— Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者切割了。 最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。 不在其中、来自南加利福尼亚大学的M...
-
一文读懂如何基于Ollama在本地运行LLM
“Mixtral有46.7B的总参数,但每个令牌只使用12.9B参数。因此,它以与12.9B型号相同的速度和成本处理输入并生成输出。” 为什么要使用 Ollama 开源项目 ? 在当今人工智能技术飞速发展的时代,大型语言模型(LLM 无疑已成为焦点炯炯...
-
多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键
只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策! 这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。 图片 这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华: 图灵奖三巨头之一、M...
-
具身智能的视觉-语言-动作模型:综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。 深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...
-
【AIGC调研系列】MiniCPM-Llama3-V2.5模型与GPT-4V对比
MiniCPM-Llama3-V2.5模型与GPT-4V的对比可以从多个方面进行分析,包括性能、应用场景和技术特点。 从性能角度来看,MiniCPM-Llama3-V2.5在OCR识别、模型幻觉能力和空间理解能力方面表现出色,实现了开源模型的性能SOTA...
-
【AIGC半月报】AIGC大模型启元:2024.05(下)
AIGC大模型启元:2024.05(下) (1 豆包大模型(抖音大模型) (2 Project Astra(谷歌对标GPT-4o) (3 Chameleon(meta对标GPT-4o) (4 MiniCPM-Llama3-V 2.5(面...
-
不想炸薯条的Ilya和不送GPU的英伟达,Hinton最新专访:道路千万条,安全第一条
从谷歌离职一年之际,「人工智能教父」Hinton接受了采访。 ——也许是因为徒弟Ilya终于被从核设施中放了出来?(狗头) 视频地址:https://www.youtube.com/watch?v=tP-4njhyGvo 当然了,采访教父的小伙子也非等...
-
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声...
-
OpenAI正式重启机器人团队!之前曾一度被放弃
快科技5月31日消息,据媒体报道,OpenAI将重启其机器人团队。 这一团队在2020年因多种原因被解散,但随着对人工智能机器人的投资升温,OpenAI决定再次进军机器人领域。 据知情人士透露,OpenAI目前正在积极招募研究工程师,以重建曾经解散的机器人...
-
AI大牛karpathy点赞SEAL榜单,LLM评估的状况过去是非常糟糕的!
lmsys.org的一个严肃的竞争对手已经加入了对LLMs(大型语言模型)评估的讨论中:SEAL Leaderboards——对领先前沿模型进行的私密、专家评估。 SEAL Leaderboards的设计原则: ?私密 + 无法被利用。在评估上不会过度拟...
-
马斯克预测AI世界:人类无需再为生计奔波 工作将变成爱好
快科技5月24日消息,近日,埃隆马斯克在巴黎的欧洲科技创新展览会上分享了他对未来人工智能世界的预测。 他认为,随着AI技术的快速发展,未来社会将能够按需提供所有商品和服务。 在这样的环境下,人们将不再为了生计而工作,而是根据个人兴趣和爱好选择职业,更多地去...
-
AIGC实战——多模态模型DALL.E 2
AIGC实战——多模态模型DALL.E 2 0. 前言 1. 模型架构 2. 文本编码器 3. CLIP 4. 先验模型 4.1 自回归先验模型 4.2 扩散先验模型...
-
字节携港大南大升级 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脱胎换骨,轻松追平 GPT-4V
文 | 王启隆 出品 | 《新程序员》编辑部 2023 年,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员共同开发的 LLaVA 首次亮相,彼时它被视为一个端到端训练的大型多模态模型,展现了在视觉与语言融合领域的潜力。今年...
-
Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴
「这份访谈的每一秒都是精华。」最近,图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。 视频链接:https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s 在访谈中,Hi...
-
马斯克的xAI正努力实现Grok多模态化 将支持上传照片获得文本回复
埃隆・马斯克的人工智能公司 xAI 正在努力为其 Grok 聊天机器人增加多模态输入功能。 根据公开的开发者文件,埃隆·马斯克(Elon Musk)的人工智能公司xAI在向其Grok聊天机器人添加多模态输入方面取得了进展。这意味着,很快,用户就可以将照片上...
-
微软颠覆生产力:Copilot推自定义版,AI PC原生支持PyTorch,奥特曼预告新模型
AI 生产力的未来会是什么样子?全世界都在等待微软的答案。 5 月 22 日凌晨,微软 Build 2024 开发者大会在美国西雅图召开,今天的发布有关 AI 技术,更有关 AI 带来的新工具。 「三十多年来,微软对于计算机一直有两个梦想 —— 首先是...
-
微软Copilot+PC之后还有大招!牵手GPT-4o后能力简直王炸!奥特曼也来build现场了!
编辑|伊风 出品 | 51CTO技术栈(微信号:blog51cto) 昨天,微软震撼发布的Copilot+PC,被大赞终于是真正的AI PC了! 今天,在AI领域里拳打谷歌,脚踢苹果的微软又在build大会中狠狠地秀了一把肌肉。宣布要将Windows打造...
-
Meta发布类GPT-4o多模态模型Chameleon
Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像...
-
AI日报:骨折价!通义千问模型费用下降97%;豆包大模型也拼性价比;从零复现Llama3代码库爆火;智谱开源大模型CogVLM2
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、阿里云宣布GPT-4级主力模型...
-
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。 别家发布会都在画饼,OpanAI却总能开出一种「欲扬先抑」的效果,惊喜全在发布会之后。 基准测试结果 首先...
-
OpenAI CEO下场回应「封口协议」,争议还是到了股权利益上,奥特曼:我的锅
自从 Ilya 和 超级对齐负责人 Jan 离职后,OpenAI 内部还是心散了,后续也有越来越多的人离职,同时也引发了更多的矛盾。 昨天,争议的焦点来到了一份严格的「封口协议」。 OpenAI 前员工 Kelsey Piper 爆料,任何员工的入职文...
-
微软宣布 GPT-4o 模型在 Azure OpenAI 上使用
日前,微软宣布OpenAI 最新发布的多模态模型 GPT-4o 现已可以在 Azure OpenAI 云服务中使用。 GPT-4o 是一款支持跨文本、视频、音频多模态推理的先进模型,其强大多模态解读和输出能力使其在各个领域都展现出巨大的潜力。例如,在教育...
-
Android 15即将推出:融入谷歌Gemini大模型
快科技5月15日消息,谷歌在I/O大会上宣布,Android 15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2将在明天正式推出。 据悉,全新升级后的谷歌G...