-
Meta推出Llama 3.2 AI模型,支持多模态和边缘计算;OpenAI首席技术官穆拉蒂宣布离职
? AI新闻 ? Meta推出Llama 3.2 AI模型,支持多模态和边缘计算 摘要:Meta于9月25日发布Llama 3.2 AI模型,具备开放性和可定制性,支持开发者实现边缘人工智能和视觉应用。该系列包含多模态视觉模型(11B和90B)及轻...
-
[240929] 12 款最佳免费开源隐写工具 | Llama 3.2: 开源、可定制模型,革新边缘人工智能和视觉体验
目录 12 款最佳免费开源隐写工具 Llama 3.2: 开源、可定制模型,革新边缘人工智能和视觉体验 12 款最佳免费开源隐写工具 什么是隐写术? 隐写术是一种将信息隐藏在其他信息中的艺术和科学,除了发送者和预期的接收者之外,...
-
Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱
如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban M...
-
超9000颗星,优于GPT-4V!国内开源多模态大模型
国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。 据悉,MiniCPM-V2.6一共有80亿参数,在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4o mini、Gemini1.5Pro...
-
小米15蓄势待发!雷军预告小米旗舰将接入谷歌AI大模型
快科技8月8日消息,小米创办人雷军在社交平台上宣布,小米旗舰设备国际版将接入谷歌AI大模型Google Gemini,给用户带来更智能、更直观的使用体验。 据悉,Gemini是谷歌研发的多模态AI大模型,能够识别、理解和操作多种类型的信息。 比如你画个鸭子...
-
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。 大数字一向吸引眼球。 千亿参数、万卡集群,——还有各大厂商一直在卷的超长上下...
-
【AIGC调研系列】VILA-1.5版本的视频理解功能如何
VILA-1.5版本的视频理解功能表现出色,具有显著的突破。这一版本不仅增强了视频理解能力,还提供了四种不同规模的模型供用户选择,以适应不同的应用需求和计算资源限制[1][2][3]。此外,VILA-1.5支持在笔记本等边缘设备上部署,这得益于其高效的模型...
-
每日AIGC最新进展(46):上海AI Lab发布多模态大模型InternLM-XComposer-2.5、阿里发布视频生成大模型EasyAnimate-V3、快手发布人像模型LivePortrait
Diffusion Models专栏文章汇总:入门与实战 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input...
-
每日一看大模型新闻(2024.1.20-1.21)英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大;Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LL
1.产品发布 1.1韩国Kakao:推出多模态大模型Honeybee 发布日期:2024.1.20 Kakao unveils multimodal large language model Honeybee - The Korea Ti...
-
探索AIGC时代:全球大模型产品的评估与未来展望
随着人工智能技术的快速发展,AIGC(人工智能生成内容)产品的应用已经成为科技领域的一大趋势。本文通过详细分析我个人使用过的全球知名的AI大模型产品,如OpenAI的GPT系列、Google的Gemini、阿里巴巴的通义和Kimi,深入探讨它们的功能、优势...
-
腾讯元宝全面测评!国产AI“看剧”时代开启!读懂《庆余年》范闲,揭秘奥特曼宫斗!打通腾讯生态“全村的希望”!
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 腾讯在大模型上的动作姗姗来迟。 对于“后发”的抉择,腾讯想得很清楚。 在“腾讯元宝”上线的发布会上,腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,“虽然行业内看起来火热,但是中国移动...
-
马斯克的 xAI 融资 60 亿美元,估值达 240 亿美元
Elon Musk 的人工智能公司 xAI 在最新的 B 轮融资中成功筹集了60亿美元,使得该公司的估值达到了240亿美元。该公司周日宣布了这一消息,表示这笔资金将用于推出 xAI 的首个产品、建设先进基础设施,并加速未来技术的研发。 xAI 的关键投资...
-
马斯克xAI完成60亿美元B轮融资 将发布多个技术更新和产品
马斯克人工智能初创企业xAI宣布完成60亿美元B轮融资,该轮融资得到了包括 Valor Equity Partners、Vy Capital、Andreessen Horowitz、Sequoia Capital、Fidelity Management &...
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态...
-
谷歌数学版Gemini解开奥赛难题,堪比人类数学家!
四个月的迭代,让Gemini 1.5 Pro成为了全球最强的LLM(几乎)。 谷歌I/O发布会上,劈柴宣布了Gemini 1.5 Pro一系列升级,包括支持更长上下文200k,超过35种语言。 与此同时,新成员Gemini 1.5 Flash推出,设计...
-
智谱 AI 上线大模型开放平台 bigmodel.cn
智谱 AI 上线大模型开放平台 bigmodel.cn ,该平台是一个集成了 GLM 系列大模型的平台。这些大模型包括企业版 GLM-4/4V、个人版 GLM-3Turbo、文本描述创作图像的 CogView-3、角色定制模型 CharacterGLM、中...
-
AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、这个五一假期,小红书被Remi...
-
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。 上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。 相比于其他多模...
-
阶跃星辰宣布推出 Step 系列通用大模型
阶跃星辰团队宣布推出了 Step 系列通用大模型,包括 Step-1千亿参数语言大模型、Step-1V 千亿参数多模态大模型,以及 Step-2万亿参数 MoE 语言大模型的预览版。 据悉,阶跃星辰成立于2023年4月,以 “智能阶跃,十倍每一个人的可...
-
突破性的百万级视频和语言世界模型:Large World Model~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在探索如何让AI更好地理解世界方面,最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”,能够同时处理百万级长度的视频和语言序列,...
-
Claude 3 Haiku官网体验入口 企业级AI模型软件工具app免费使用地址
Claude 3 Haiku是Anthropic公司最新推出的企业级AI模型,具有出色的视觉能力和卓越的基准测试表现。以下是关于该模型的详细介绍: 点击前往「Claude 3 Haiku」官网体验入口 Claude 3 Haiku特点 快速处理和分析...
-
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。...
-
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模...
-
如何免费访问和使用Gemini API?
Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本,获得几乎完美的答案。 我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数,包括文本生成和图像理解。 Gemini A...
-
AIGC面经大全(持续更新)
目录 DDPM算法原理部分: DDIM算法原理部分: ⾼阶采样⽅案: 特征编码篇: Stable Diffusion篇: SDXL篇: ⼤模型微调篇: 控制模型篇: 适配器篇: DDPM算法原理部分: 简述DDP...
-
AIGC(生成式AI)试用 13 -- 数据时效性
数据时效性? 最新的数据,代表最新的状态,使用最新的数据也应该最有说服力。 学习需要时间,AIGC学习并接收最新数据的效果如何? 问题很简单,如何验证?这个需要找点更新快的对像进行验证。。。。。。 抱歉无法处理,CSD...
-
InternLM-XComposer2官网体验入口 视觉语言AI模型文本图像合成在线使用地址
InternLM-XComposer2是一款领先的视觉语言模型,专注于自由形式文本图像合成与理解。该模型不仅能理解传统的视觉语言,还能从各种输入构建交织的文本图像内容,实现高度可定制的内容创作。InternLM-XComposer2 采用部分LoRA(PL...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
FlashAttention2原理解析以及面向AIGC的加速实践
FlashAttention-2提出后,便得到了大量关注。本文将具体讲述FlashAttention-2的前世今生,包括FlashAttention1&2的原理解析、加速效果比较以及面向AIGC的加速实践,在这里将相关内容与大家分...
-
2023 ACM Fellow颁给图灵三巨头!清华马维英、微软高剑峰、上交大陈海波等14位华人当选
2023 ACM Fellow揭榜了! 刚刚,美国计算机协会(Association for Computing Machinery)正式宣布了,2023年当选ACM Fellow的68位成员。 值得一提的是,今年图灵奖三巨头、万维网之父纷纷入选。 新晋...
-
世界顶尖多模态大模型开源!又是零一万物,又是李开复
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。 模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。 同属Yi系列,同样具有两个版本...
-
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。 但是,正如LeCun一直以来所言,如今的AI连猫狗都不如。现在看来的确如此。 GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是,它们并非真的能够做的面面俱到。...
-
AI视野:Stability AI发布代码模型Stable Code3B;书生·浦语2.0正式开源;阿里推新项目MotionShop;Win11新增AI生成图像功能
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ????大模型动态 Stabili...
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...
-
VCoder官网体验入口 AI图像语义理解app软件免费下载地址
VCoder是一个适配器,通过辅助感知模式作为控制输入,来提高多模态大型语言模型在对象级视觉任务上的性能。VCoder LLaVA是基于LLaVA-1. 5 构建的,不对LLaVA-1. 5 的参数进行微调,因此在通用的问答基准测试中的性能与LLaVA-1...
-
文心一言4 测评
文章目录 中文语句理解 “我一把把把把住了” “别别别的” 藏头诗 文案策划 组会汇报文档 视频文案 课程大纲设计 C++考点设计 人工智能引论 生活场景 旅游计划 代码生成与分析 样例1:python多进程程序 样例2:数据处理...
-
GPT-4V都搞不明白的未来推理有解法了!来自华科大&上科大
多模态大语言模型展现了强大的图像理解和推理能力。 但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。 即便是当前最强大的GPT-4V(如下图所示),也无法很好地解决这一问题。 △ GPT-4V的错误案例 现在,华科大和上科大团队提出了一个赋予...
-
谷歌文生图巅峰之作Imagen 2登场,实测暴打DALL·E 3和Midjourney!
提问:下面这张图,是AI生图还是照片? 如果不是这么问,绝大多数人大概都不会想到,这居然不是一张照片。 是的,只要在谷歌最新AI生图神器Imagen 2中输入这样的提示词—— A shot of a 32-year-old female, up an...
-
微软提出变色龙框架,让模型自带工具箱开挂,数学推理任务准确率98%
教大模型调用工具,已经是AI圈关注度最高的话题之一了。 这不,又有一项研究登上最新NeurIPS 2023—— 它是一个叫做Chameleon(变色龙)的框架,号称能将大语言模型直接变成魔法师的工具箱,来自微软与加州大学洛杉矶分校(UCLA)。 相比其它...
-
UCLA推出Chameleon框架 大模型表格数学推理准确率达98.78%
在NeurIPS2023上,UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具,包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块,解决了大型语言模型在实时信息获取和数学推理方面的不足。 Chameleon的核...
-
谷歌祭出多模态“杀器” Gemini真能碾压GPT-4吗?
“最大”、最有能力”、“最佳”、“最高效”,谷歌为其12月7日新发布的多模态大模型Gemini冠上了好几个“最”,与OpenAI GPT-4“比高高”的胜负欲呼之欲出。 区分为Ultra、Pro、Nano三个尺寸的Gemini,不仅号称在各种“AI考试”中...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
谷歌刚刚在其AI之旅中迈出了新的一步,推出了其最新和最强大的AI模型Gemini 1.0。 谷歌最优秀、最聪明的AI能否击败其最知名的竞争对手——AI聊天机器人ChatGPT?以下是关于机器人之战中的最新参赛者的信息。 在本文中,你将了解Gemini和...
-
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。 尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答...
-
aigc是什么
一、AIGC的基本概念 AI生成内容(AIGC),是指运用人工智能技术,尤其是深度学习技术,创建各类数字内容的新型内容创作模式。AIGC继承了专业生成内容(PGC)的高质量特点,再结合用户生成内容(UGC)的分布式、互动的特点,打造了全新的数字内容生成与...
-
AI生成内容(AIGC):概念、实现与未来趋势
一、AIGC的基本概念 AI生成内容(AIGC),是指运用人工智能技术,尤其是深度学习技术,创建各类数字内容的新型内容创作模式。AIGC继承了专业生成内容(PGC)的高质量特点,再结合用户生成内容(UGC)的分布式、互动的特点,打造了全新的数字内容生成与...
-
图像相似度比较之 CLIP or DINOv2
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界...
-
GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?
人工智能(AI)在医学影像诊断方面的应用已经有了长足的进步。然而,在未经严格测试的情况下,医生往往难以采信人工智能的诊断结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。 为了增强医生对辅助医疗的人工智能之间的信任,让 AI...
-
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...