图像理解 - AIGC资讯

Meta推出Llama 3.2 AI模型，支持多模态和边缘计算；OpenAI首席技术官穆拉蒂宣布离职

? AI新闻 ? Meta推出Llama 3.2 AI模型，支持多模态和边缘计算摘要：Meta于9月25日发布Llama 3.2 AI模型，具备开放性和可定制性，支持开发者实现边缘人工智能和视觉应用。该系列包含多模态视觉模型（11B和90B）及轻...

人工智能 2024-10-05 人工智能

1323阅读

[240929] 12 款最佳免费开源隐写工具 | Llama 3.2: 开源、可定制模型，革新边缘人工智能和视觉体验

目录 12 款最佳免费开源隐写工具 Llama 3.2: 开源、可定制模型，革新边缘人工智能和视觉体验 12 款最佳免费开源隐写工具什么是隐写术？隐写术是一种将信息隐藏在其他信息中的艺术和科学，除了发送者和预期的接收者之外，...

AIGC 2024-10-05 人工智能

1443阅读

Llama 3.2来了，多模态且开源！AR眼镜黄仁勋首批体验，Quest 3S头显价格低到离谱

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕，那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相，短短数月，Ray-Ban M...

AIGC 2024-09-27 人工智能

999阅读

超9000颗星，优于GPT-4V！国内开源多模态大模型

国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。据悉，MiniCPM-V2.6一共有80亿参数，在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4o mini、Gemini1.5Pro...

人工智能 2024-08-11 人工智能

1113阅读

小米15蓄势待发！雷军预告小米旗舰将接入谷歌AI大模型

快科技8月8日消息，小米创办人雷军在社交平台上宣布，小米旗舰设备国际版将接入谷歌AI大模型Google Gemini，给用户带来更智能、更直观的使用体验。据悉，Gemini是谷歌研发的多模态AI大模型，能够识别、理解和操作多种类型的信息。比如你画个鸭子...

人工智能 2024-08-09 人工智能

915阅读

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群，——还有各大厂商一直在卷的超长上下...

大数据 2024-07-23 人工智能

954阅读

【AIGC调研系列】VILA-1.5版本的视频理解功能如何

VILA-1.5版本的视频理解功能表现出色，具有显著的突破。这一版本不仅增强了视频理解能力，还提供了四种不同规模的模型供用户选择，以适应不同的应用需求和计算资源限制[1][2][3]。此外，VILA-1.5支持在笔记本等边缘设备上部署，这得益于其高效的模型...

AIGC 2024-07-20 人工智能

1619阅读

每日AIGC最新进展(46)：上海AI Lab发布多模态大模型InternLM-XComposer-2.5、阿里发布视频生成大模型EasyAnimate-V3、快手发布人像模型LivePortrait

Diffusion Models专栏文章汇总：入门与实战 InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input...

生成式AI 2024-07-19 人工智能

880阅读

每日一看大模型新闻（2024.1.20-1.21）英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大；Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LL

1.产品发布 1.1韩国Kakao：推出多模态大模型Honeybee 发布日期：2024.1.20 Kakao unveils multimodal large language model Honeybee - The Korea Ti...

大数据 2024-06-27 人工智能

937阅读

探索AIGC时代：全球大模型产品的评估与未来展望

随着人工智能技术的快速发展，AIGC（人工智能生成内容）产品的应用已经成为科技领域的一大趋势。本文通过详细分析我个人使用过的全球知名的AI大模型产品，如OpenAI的GPT系列、Google的Gemini、阿里巴巴的通义和Kimi，深入探讨它们的功能、优势...

生成式AI 2024-06-19 人工智能

1010阅读

腾讯元宝全面测评！国产AI“看剧”时代开启！读懂《庆余年》范闲，揭秘奥特曼宫斗！打通腾讯生态“全村的希望”！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）腾讯在大模型上的动作姗姗来迟。对于“后发”的抉择，腾讯想得很清楚。在“腾讯元宝”上线的发布会上，腾讯云副总裁、腾讯混元大模型负责人刘煜宏说，“虽然行业内看起来火热，但是中国移动...

生成式AI 2024-06-03 人工智能

1024阅读

马斯克的 xAI 融资 60 亿美元，估值达 240 亿美元

Elon Musk 的人工智能公司 xAI 在最新的 B 轮融资中成功筹集了60亿美元，使得该公司的估值达到了240亿美元。该公司周日宣布了这一消息，表示这笔资金将用于推出 xAI 的首个产品、建设先进基础设施，并加速未来技术的研发。 xAI 的关键投资...

大数据 2024-05-28 人工智能

787阅读

马斯克xAI完成60亿美元B轮融资将发布多个技术更新和产品

马斯克人工智能初创企业xAI宣布完成60亿美元B轮融资，该轮融资得到了包括 Valor Equity Partners、Vy Capital、Andreessen Horowitz、Sequoia Capital、Fidelity Management &...

人工智能 2024-05-27 人工智能

819阅读

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态...

AIGC 2024-05-27 人工智能

850阅读

谷歌数学版Gemini解开奥赛难题，堪比人类数学家！

四个月的迭代，让Gemini 1.5 Pro成为了全球最强的LLM（几乎）。谷歌I/O发布会上，劈柴宣布了Gemini 1.5 Pro一系列升级，包括支持更长上下文200k，超过35种语言。与此同时，新成员Gemini 1.5 Flash推出，设计...

AIGC 2024-05-20 人工智能

898阅读

智谱 AI 上线大模型开放平台 bigmodel.cn

智谱 AI 上线大模型开放平台 bigmodel.cn ，该平台是一个集成了 GLM 系列大模型的平台。这些大模型包括企业版 GLM-4/4V、个人版 GLM-3Turbo、文本描述创作图像的 CogView-3、角色定制模型 CharacterGLM、中...

生成式AI 2024-05-13 人工智能

969阅读

AI日报：Remini“黏土AI”攻占小红书；HeyGen推自动剪辑工具；多图漫画工具StoryDiffusion来了；AI音乐Udio可生成15分钟音频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、这个五一假期，小红书被Remi...

大数据 2024-05-06 人工智能

1432阅读

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。相比于其他多模...

大数据 2024-04-22 人工智能

891阅读

阶跃星辰宣布推出 Step 系列通用大模型

阶跃星辰团队宣布推出了 Step 系列通用大模型，包括 Step-1千亿参数语言大模型、Step-1V 千亿参数多模态大模型，以及 Step-2万亿参数 MoE 语言大模型的预览版。据悉，阶跃星辰成立于2023年4月，以 “智能阶跃，十倍每一个人的可...

生成式AI 2024-03-26 人工智能

893阅读

突破性的百万级视频和语言世界模型：Large World Model~

本文经自动驾驶之心公众号授权转载，转载请联系出处。在探索如何让AI更好地理解世界方面，最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”，能够同时处理百万级长度的视频和语言序列，...

生成式AI 2024-03-26 人工智能

960阅读

Claude 3 Haiku官网体验入口企业级AI模型软件工具app免费使用地址

Claude 3 Haiku是Anthropic公司最新推出的企业级AI模型，具有出色的视觉能力和卓越的基准测试表现。以下是关于该模型的详细介绍：点击前往「Claude 3 Haiku」官网体验入口 Claude 3 Haiku特点快速处理和分析...

人工智能 2024-03-14 人工智能

875阅读

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

今日GitHub热榜榜首，是最新的开源世界模型。上下文窗口长度达到了100万token，持平了谷歌同时推出的王炸Gemini 1.5，伯克利出品。强大的模型，命名也是简单粗暴——没有任何额外点缀，直接就叫LargeWorldModel（LWM）。...

AIGC 2024-02-20 人工智能

869阅读

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模...

大数据 2024-02-19 人工智能

1072阅读

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数，包括文本生成和图像理解。 Gemini A...

大数据 2024-02-18 人工智能

2304阅读

AIGC面经大全（持续更新）

目录 DDPM算法原理部分： DDIM算法原理部分：⾼阶采样⽅案：特征编码篇： Stable Diffusion篇： SDXL篇：⼤模型微调篇：控制模型篇：适配器篇： DDPM算法原理部分：简述DDP...

AIGC 2024-02-04 人工智能

1463阅读

AIGC（生成式AI）试用 13 -- 数据时效性

数据时效性？最新的数据，代表最新的状态，使用最新的数据也应该最有说服力。学习需要时间，AIGC学习并接收最新数据的效果如何？问题很简单，如何验证？这个需要找点更新快的对像进行验证。。。。。。抱歉无法处理，CSD...

人工智能 2024-02-02 人工智能

963阅读

InternLM-XComposer2官网体验入口视觉语言AI模型文本图像合成在线使用地址

InternLM-XComposer2是一款领先的视觉语言模型，专注于自由形式文本图像合成与理解。该模型不仅能理解传统的视觉语言，还能从各种输入构建交织的文本图像内容，实现高度可定制的内容创作。InternLM-XComposer2 采用部分LoRA（PL...

AIGC 2024-02-01 人工智能

894阅读

通义千问视觉语言模型Qwen-VL在线体验入口阿里云AI在线使用入口

Qwen-VL是阿里云推出的通用型视觉语言模型，具备强大的视觉理解和多模态推理能力。采用 Transformer 结构，以 7B 参数规模进行预训练，支持 448x448 分辨率，能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...

生成式AI 2024-01-29 人工智能

1149阅读

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。 2024年，大模型领域要卷什么? 如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 G...

大数据 2024-01-26 人工智能

852阅读

FlashAttention2原理解析以及面向AIGC的加速实践

FlashAttention-2提出后，便得到了大量关注。本文将具体讲述FlashAttention-2的前世今生，包括FlashAttention1&2的原理解析、加速效果比较以及面向AIGC的加速实践，在这里将相关内容与大家分...

人工智能 2024-01-25 人工智能

1853阅读

2023 ACM Fellow颁给图灵三巨头！清华马维英、微软高剑峰、上交大陈海波等14位华人当选

2023 ACM Fellow揭榜了！刚刚，美国计算机协会（Association for Computing Machinery）正式宣布了，2023年当选ACM Fellow的68位成员。值得一提的是，今年图灵奖三巨头、万维网之父纷纷入选。新晋...

大数据 2024-01-25 人工智能

886阅读

世界顶尖多模态大模型开源！又是零一万物，又是李开复

领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。模型名为Yi Vision Language（Yi-VL），现已正式面向全球开源。同属Yi系列，同样具有两个版本...

生成式AI 2024-01-23 人工智能

845阅读

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

Sam Altman最近在世界经济论坛上发言，称达到人类级别的AI很快就会降临。但是，正如LeCun一直以来所言，如今的AI连猫狗都不如。现在看来的确如此。 GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是，它们并非真的能够做的面面俱到。...

大数据 2024-01-21 人工智能

893阅读

AI视野：Stability AI发布代码模型Stable Code3B；书生·浦语2.0正式开源；阿里推新项目MotionShop；Win11新增AI生成图像功能

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ????大模型动态 Stabili...

大数据 2024-01-17 人工智能

942阅读

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单...

生成式AI 2024-01-16 人工智能

824阅读

VCoder官网体验入口 AI图像语义理解app软件免费下载地址

VCoder是一个适配器，通过辅助感知模式作为控制输入，来提高多模态大型语言模型在对象级视觉任务上的性能。VCoder LLaVA是基于LLaVA-1. 5 构建的，不对LLaVA-1. 5 的参数进行微调，因此在通用的问答基准测试中的性能与LLaVA-1...

AIGC 2024-01-04 人工智能

785阅读

文心一言4 测评

文章目录中文语句理解 “我一把把把把住了” “别别别的” 藏头诗文案策划组会汇报文档视频文案课程大纲设计 C++考点设计人工智能引论生活场景旅游计划代码生成与分析样例1：python多进程程序样例2：数据处理...

人工智能 2023-12-25 人工智能

1204阅读

GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的GPT-4V（如下图所示），也无法很好地解决这一问题。 △ GPT-4V的错误案例现在，华科大和上科大团队提出了一个赋予...

生成式AI 2023-12-18 人工智能

867阅读

谷歌文生图巅峰之作Imagen 2登场，实测暴打DALL·E 3和Midjourney！

提问：下面这张图，是AI生图还是照片？如果不是这么问，绝大多数人大概都不会想到，这居然不是一张照片。是的，只要在谷歌最新AI生图神器Imagen 2中输入这样的提示词—— A shot of a 32-year-old female, up an...

生成式AI 2023-12-14 人工智能

906阅读

微软提出变色龙框架，让模型自带工具箱开挂，数学推理任务准确率98%

教大模型调用工具，已经是AI圈关注度最高的话题之一了。这不，又有一项研究登上最新NeurIPS 2023—— 它是一个叫做Chameleon（变色龙）的框架，号称能将大语言模型直接变成魔法师的工具箱，来自微软与加州大学洛杉矶分校（UCLA）。相比其它...

大数据 2023-12-13 人工智能

902阅读

UCLA推出Chameleon框架大模型表格数学推理准确率达98.78%

在NeurIPS2023上，UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具，包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块，解决了大型语言模型在实时信息获取和数学推理方面的不足。 Chameleon的核...

人工智能 2023-12-12 人工智能

880阅读

谷歌祭出多模态“杀器” Gemini真能碾压GPT-4吗？

“最大”、最有能力”、“最佳”、“最高效”，谷歌为其12月7日新发布的多模态大模型Gemini冠上了好几个“最”，与OpenAI GPT-4“比高高”的胜负欲呼之欲出。区分为Ultra、Pro、Nano三个尺寸的Gemini，不仅号称在各种“AI考试”中...

人工智能 2023-12-11 人工智能

1109阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

1072阅读

Gemini vs ChatGPT：谷歌最新的AI和ChatGPT相比，谁更强?

谷歌刚刚在其AI之旅中迈出了新的一步，推出了其最新和最强大的AI模型Gemini 1.0。谷歌最优秀、最聪明的AI能否击败其最知名的竞争对手——AI聊天机器人ChatGPT?以下是关于机器人之战中的最新参赛者的信息。在本文中，你将了解Gemini和...

人工智能 2023-12-07 人工智能

1189阅读

专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域，多模态大模型已经充分展示了其卓越的性能。然而，对于工作中经常需要处理的图表理解与生成任务，现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色，但由于缺乏语言理解和输出能力，它们无法胜任更为复杂的问答...

大数据 2023-12-03 人工智能

929阅读

aigc是什么

一、AIGC的基本概念 AI生成内容（AIGC），是指运用人工智能技术，尤其是深度学习技术，创建各类数字内容的新型内容创作模式。AIGC继承了专业生成内容（PGC）的高质量特点，再结合用户生成内容（UGC）的分布式、互动的特点，打造了全新的数字内容生成与...

大数据 2023-11-30 人工智能

2261阅读

AI生成内容（AIGC）：概念、实现与未来趋势

一、AIGC的基本概念 AI生成内容（AIGC），是指运用人工智能技术，尤其是深度学习技术，创建各类数字内容的新型内容创作模式。AIGC继承了专业生成内容（PGC）的高质量特点，再结合用户生成内容（UGC）的分布式、互动的特点，打造了全新的数字内容生成与...

人工智能 2023-11-27 人工智能

1228阅读

图像相似度比较之 CLIP or DINOv2

在人工智能领域，计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式，而DINOv2为自监督学习带来了新的方法。在本文中，我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界...

AIGC 2023-11-21 人工智能

1393阅读

GPT-4V医学执照考试成绩超过大部分医学生，AI加入临床还有多远？

人工智能（AI）在医学影像诊断方面的应用已经有了长足的进步。然而，在未经严格测试的情况下，医生往往难以采信人工智能的诊断结果。对于他们来说，理解人工智能根据医学影像给出的判别，需要增加额外的认知成本。为了增强医生对辅助医疗的人工智能之间的信任，让 AI...

生成式AI 2023-11-21 人工智能

856阅读

AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后，有人破案了

从 ChatGPT 到 GPT4，从 DALL・E 2/3 到 Midjourney，生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待，但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...

AIGC 2023-11-05 人工智能

859阅读