多模态学习 - AIGC资讯

多模态大模型：文本、图像与语音的终极融合

标题：多模态大模型：文本、图像与语音的终极融合——开启智能交互新时代随着人工智能技术的飞速发展，我们正逐步迈入一个前所未有的智能时代。在这个时代里，信息的传递与处理不再局限于单一维度，而是向着多元化、综合化的方向迈进。多模态大模型，作为这一趋势的集大成者，...

人工智能 2025-07-10 人工智能

954阅读

多模态学习：文本、图像与语音的融合

标题：多模态学习：文本、图像与语音的融合——开启智能交互新时代在人工智能领域，多模态学习正逐渐成为推动技术进步与创新的关键力量。这一概念的核心在于整合来自不同渠道的信息——文本、图像与语音，以实现更加全面、深入的理解与交流。随着深度学习技术的飞速发展和大数...

大数据 2025-07-04 人工智能

650阅读

数据预测分析模型发展趋势预测：深度学习与强化学习

标题：数据预测分析模型的发展趋势：深度学习与强化学习的融合前景在大数据时代背景下，数据预测分析模型已成为企业决策、科学研究乃至日常生活的核心工具。随着技术的不断进步，尤其是人工智能领域的飞速发展，深度学习与强化学习作为两大前沿技术，正引领着数据预测分析模型...

大数据 2025-06-08 大数据

637阅读

百度Ernie大模型是什么？

百度的Ernie模型（Enhanced Representation through kNowledge Integration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成...

人工智能 2024-09-29 人工智能

1441阅读

浅谈AIGC的底层技术

人工智能生成内容（Artificial Intelligence Generated Content, 简称AIGC）是近年来AI技术发展的一个重要领域，它利用机器学习和自然语言处理等技术，让计算机能够自主创作文章、音乐、图像等多种类型的内容。本文将深入浅...

人工智能 2024-09-06 人工智能

1397阅读

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

随着GPT-4o、Gemini等多模态大模型的出现，对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别，使用精心标注的数据集能带来显著的性能提升，同时大幅减少所需的训练数据量。但目前多数模型的数据处理流程严重依赖于人工筛选，不仅...

AIGC 2024-08-08 人工智能

1060阅读

Stable Diffusion 使用详解（2）---- 图生图原理，操作，参数

目录背景图生图原理基本原理 1. 扩散模型基础 2. 图生图的具体流程 3. 关键技术点 4. 应用实例 CLIP 原理 1.基本概念 2. 核心特点使用及参数随机种子重绘幅度图像宽高采样方法 1. DPM（...

AIGC 2024-08-04 人工智能

1147阅读

AI日报：性能超GPT-4o！Meta4050亿参数开源模型Llama3.1遭泄漏；Stability AI开源音频生成模型Stable Audio Open

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、震惊AI界！Llama 3.1...

大数据 2024-07-23 人工智能

797阅读

探索多模态智能边界：Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南

探索多模态智能边界：Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南在人工智能领域，多模态学习正逐渐成为研究热点，它旨在融合视觉和语言信息，构建能够理解和生成跨模态内容的智能体。Visual-Chinese-LLaMA...

生成式AI 2024-07-02 人工智能

972阅读

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览

1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 扩散...

生成式AI 2024-06-05 人工智能

1126阅读

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。现在LLMs也开始逐步学习理解3D物理空间，通过增强LLMs的「看到」世界的能力，人们可以开发新的应用，在更多场景去获取LLMs的帮助。...

大数据 2024-04-21 人工智能

1022阅读

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。这篇论文聚焦于3D目标检测的领域，特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中，系统旨在预测真实场景中物体的定向3D边界框和语义类别标签，这通常依赖于点云或RGB图像...

生成式AI 2024-04-11 人工智能

833阅读

太全了！多模态深度学习的综述！

1.介绍我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些...

人工智能 2024-04-08 人工智能

1014阅读

AI写作的奥秘：从困惑度到爆发度的探索之旅

大家好，小发猫降重今天来聊聊AI写作的奥秘：从困惑度到爆发度的探索之旅，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具： AI写作的奥秘：从困惑度到爆发度的探索之旅在AI写作的领域中，困惑度和...

生成式AI 2024-04-03 人工智能

894阅读

AI写作的未来：从困惑度与爆发度的视角探索

大家好，小发猫降ai今天来聊聊AI写作的未来：从困惑度与爆发度的视角探索，希望能给大家提供一点参考。降ai辅写以下是针对论文AI辅写率高的情况，提供一些修改建议和技巧，可以借助此类工具：还有： AI写作的未来：从困惑度与爆发度的视角探索...

生成式AI 2024-03-29 人工智能

914阅读

AI绘画中VAE压缩图像

介绍在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。最后再将编码空间中的噪声表示解码恢复为...

生成式AI 2024-03-12 人工智能

1142阅读

AI图像合成技术的新浪潮：Stable Diffusion 3与Sora构架的突破

在人工智能的黄金时代，图像合成技术正以前所未有的速度发展。从简单的图像编辑到复杂的场景生成，AI的能力已经超越了传统软件的限制，开启了创意和视觉表达的新纪元。近期，Stable Diffusion 3技术报告的流出引起了业界的广泛关注，其背后的Sora构...

人工智能 2024-03-08 人工智能

925阅读

探索AI写作的未来：从困惑度与爆发度的视角展望

大家好，小发猫降重今天来聊聊探索AI写作的未来：从困惑度与爆发度的视角展望，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：探索AI写作的未来：从困惑度与爆发度的视角展望在人工智能飞速发展的...

大数据 2024-02-29 人工智能

924阅读

深度学习在时间序列预测的总结和未来方向分析

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...

生成式AI 2024-02-21 人工智能

911阅读

AI绘画：Stable-diffusion程序的突破与未来展望

随着人工智能技术的快速发展，AI绘画已经成为了一个备受关注的前沿领域。在这其中，Stable-diffusion程序作为一款优秀的AI绘画工具，以其独特的风格和强大的功能，受到了广泛的关注和赞誉。本文将对Stable-diffusion程序进行深入解析，探...

人工智能 2024-02-12 人工智能

1271阅读

分享AIGC场景应用及泰迪AIGC大模型师资培训内容

什么是AIGC? AIGC是内容生产方式的进阶，实现内容和资产的再创造。AIGC（AI-Generated Content）本质上是一种内容生产方式，即人工智能自动生产内容，是基于深度学习技术，输入数据后由人工智能通过寻找规律并适当泛化从而生成内...

人工智能 2024-02-06 人工智能

868阅读

百川智能发布千亿参数大模型，中文能力超越GPT-4！

“追上ChatGPT水平，我觉得今年内可能就能够实现，但对于GPT-4或者GPT-5，我认为可能需要3年左右的时间，应该不会低于两年。”去年4月，百川智能创始人王小川当初曾这样判断自己入局大模型赛道后的进度。就在昨天，千亿参数规模的百川大模型终于来了！...

AIGC 2024-01-30 人工智能

929阅读

AIGC场景应用展望研究报告

AIGC场景应用展望研究报告 AIGC介绍技术视角：AIGC产业技术新突破产业视角：AIGC的产业新变革典型企业案例随着人工智能技术的快速发展，AIGC(AI生成内容正在成为内容生产方式的新趋势。AIGC场景应用展望研...

AIGC 2024-01-25 人工智能

911阅读

大模型“藏毒”：“后门”触发，猝不及防！

撰稿 | 言征出品 | 51CTO技术栈（微信号：blog51cto）跟大模型会产生幻觉相比，更可怕的事情来了，最新的一项研究证明：在用户不知情的情况下，最初觉得很得力的大模型助手，将化身“间谍”，产生破坏性代码。具体来讲，一组研究人员对LL...

人工智能 2024-01-17 人工智能

858阅读

国内多所高校共建开源社区LAMM，加入多模态语言模型大家庭的时候到了

ChatGPT问世以来，大语言模型（LLM）实现了跳跃式发展，基于自然语言进行人机交互的AI范式得到广泛运用。然而，人类与世界的交互中不仅有文本，其他诸如图片、深度等模态也同样重要。然而，目前的多模态大语言模型（MLLM）研究大多数闭源，对高校和大多数研...

大数据 2024-01-14 人工智能

1015阅读

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一下子就能揪出对应起止时间戳：就连“大笑”这种语义难理解型的，也能准确定位：方法名为自适应双分支促进网络（ADPN），由清...

AIGC 2024-01-06 人工智能

879阅读

苹果ferret官网体验入口 Apple AI模型工具免费下载地址

Appleml-ferret是一个先进的端到端机器学习语言模型（MLLM），专门设计用于在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器，支持对细粒度和开放词汇的引用和定位。此外，ml-ferret还包含了包括约 110 万个样本的G...

生成式AI 2024-01-03 人工智能

896阅读

AI绘画中CLIP文本-图像预训练模型

介绍 OpenAI 在 2021 年提出了 CLIP（Contrastive Language–Image Pretraining）算法，这是一个先进的机器学习模型，旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行...

AIGC 2023-12-24 人工智能

1039阅读

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

团队模型、论文、博文、直播合集，点击此处浏览一、背景近10年来，深度学习技术得到了长足进步，在图像增强领域取得了显著的成果，尤其是以GAN为代表的生成式模型在图像复原、老片修复，图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面，用...

人工智能 2023-12-22 人工智能

1049阅读

专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域，多模态大模型已经充分展示了其卓越的性能。然而，对于工作中经常需要处理的图表理解与生成任务，现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色，但由于缺乏语言理解和输出能力，它们无法胜任更为复杂的问答...

大数据 2023-12-03 人工智能

930阅读

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态，多模态模型需要组合不同来源的信号。然而，这些模态具有不同的特征，很难通过单一模型来组合。例如，视频和文本具有不同的采样率。最近，来自 Google DeepMind 的研究团队将多模态...

生成式AI 2023-11-28 人工智能

874阅读

【多模态】4、Chinese CLIP | 专为中文图文匹配设计

文章目录一、背景二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸三、效果四、代码 4.1 推理论文：Chinese CLIP: Contrastive Vision-Language Pr...

人工智能 2023-11-24 人工智能

2487阅读

AI视野：微软推自主研发AI芯片Maia100；WPS AI开启公测；OPPO发布安第斯大模型AndesGPT；DeepMind发布新模型Mirasol3B

???AI新鲜事微软正式宣布其首款人工智能芯片 Maia100 微软宣布推出首款自主研发的AI芯片Maia100，旨在训练大型语言模型，并推出基于Arm架构的通用计算芯片Cobalt100，以优化云计算工作负载。金山办公WPS AI开启公测，小米14...

大数据 2023-11-16 人工智能

951阅读

MiniGPT-5：一种基于生成vokens 的交错视觉和语言生成模型

MiniGPT-5是一种交错视觉和语言生成模型，通过整合大型语言模型和稳定扩散技术，实现了文本和图像的协调输出。该模型采用两阶段训练策略，首先进行无图像描述的多模态数据生成，然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...

AIGC 2023-10-24 人工智能

900阅读