-
百度Ernie大模型是什么?
百度的Ernie模型(Enhanced Representation through kNowledge Integration)是一个基于Transformer架构的预训练语言模型。它由百度研发,旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成...
-
浅谈AIGC的底层技术
人工智能生成内容(Artificial Intelligence Generated Content, 简称AIGC)是近年来AI技术发展的一个重要领域,它利用机器学习和自然语言处理等技术,让计算机能够自主创作文章、音乐、图像等多种类型的内容。本文将深入浅...
-
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
随着GPT-4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量。 但目前多数模型的数据处理流程严重依赖于人工筛选,不仅...
-
Stable Diffusion 使用详解(2)---- 图生图原理,操作,参数
目录 背景 图生图原理 基本原理 1. 扩散模型基础 2. 图生图的具体流程 3. 关键技术点 4. 应用实例 CLIP 原理 1.基本概念 2. 核心特点 使用及参数 随机种子 重绘幅度 图像宽高 采样方法 1. DPM(...
-
AI日报:性能超GPT-4o!Meta4050亿参数开源模型Llama3.1遭泄漏;Stability AI开源音频生成模型Stable Audio Open
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、震惊AI界!Llama 3.1...
-
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南 在人工智能领域,多模态学习正逐渐成为研究热点,它旨在融合视觉和语言信息,构建能够理解和生成跨模态内容的智能体。Visual-Chinese-LLaMA...
-
CVPR 2024 | 前沿而相对小众!几个AIGC扩散模型diffusion应用一览
1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 扩散...
-
从文字模型到世界模型!Meta新研究让AI Agent理解物理世界
LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。 现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。...
-
多个SOTA !OV-Uni3DETR:提高3D检测在类别、场景和模态之间的普遍性(清华&港大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文聚焦于3D目标检测的领域,特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中,系统旨在预测真实场景中物体的定向3D边界框和语义类别标签,这通常依赖于点云或RGB图像...
-
太全了!多模态深度学习的综述!
1.介绍 我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些...
-
AI写作的奥秘:从困惑度到爆发度的探索之旅
大家好,小发猫降重今天来聊聊AI写作的奥秘:从困惑度到爆发度的探索之旅,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI写作的奥秘:从困惑度到爆发度的探索之旅 在AI写作的领域中,困惑度和...
-
AI写作的未来:从困惑度与爆发度的视角探索
大家好,小发猫降ai今天来聊聊AI写作的未来:从困惑度与爆发度的视角探索,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: AI写作的未来:从困惑度与爆发度的视角探索...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
AI图像合成技术的新浪潮:Stable Diffusion 3与Sora构架的突破
在人工智能的黄金时代,图像合成技术正以前所未有的速度发展。从简单的图像编辑到复杂的场景生成,AI的能力已经超越了传统软件的限制,开启了创意和视觉表达的新纪元。近期,Stable Diffusion 3技术报告的流出引起了业界的广泛关注,其背后的Sora构...
-
探索AI写作的未来:从困惑度与爆发度的视角展望
大家好,小发猫降重今天来聊聊探索AI写作的未来:从困惑度与爆发度的视角展望,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 探索AI写作的未来:从困惑度与爆发度的视角展望 在人工智能飞速发展的...
-
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...
-
AI绘画:Stable-diffusion程序的突破与未来展望
随着人工智能技术的快速发展,AI绘画已经成为了一个备受关注的前沿领域。在这其中,Stable-diffusion程序作为一款优秀的AI绘画工具,以其独特的风格和强大的功能,受到了广泛的关注和赞誉。本文将对Stable-diffusion程序进行深入解析,探...
-
分享AIGC场景应用及泰迪AIGC大模型师资培训内容
什么是AIGC? AIGC是内容生产方式的进阶,实现内容和资产的再创造。AIGC(AI-Generated Content)本质上是一种内容生产方式,即人工智能自动生产内容,是基于深度学习技术,输入数据后由人工智能通过寻找规律并适当泛化从而生成内...
-
百川智能发布千亿参数大模型,中文能力超越GPT-4!
“追上ChatGPT水平,我觉得今年内可能就能够实现,但对于GPT-4或者GPT-5,我认为可能需要3年左右的时间,应该不会低于两年。”去年4月,百川智能创始人王小川当初曾这样判断自己入局大模型赛道后的进度。就在昨天,千亿参数规模的百川大模型终于来了!...
-
AIGC场景应用展望研究报告
AIGC场景应用展望研究报告 AIGC介绍 技术视角:AIGC产业技术新突破 产业视角:AIGC的产业新变革 典型企业案例 随着人工智能技术的快速发展,AIGC(AI生成内容 正在成为内容生产方式的新趋势。AIGC场景应用展望研...
-
大模型“藏毒”:“后门”触发,猝不及防!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 跟大模型会产生幻觉相比,更可怕的事情来了,最新的一项研究证明:在用户不知情的情况下,最初觉得很得力的大模型助手,将化身“间谍”,产生破坏性代码。 具体来讲,一组研究人员对LL...
-
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研...
-
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳: 就连“大笑”这种语义难理解型的,也能准确定位: 方法名为自适应双分支促进网络(ADPN),由清...
-
苹果ferret官网体验入口 Apple AI模型工具免费下载地址
Appleml-ferret是一个先进的端到端机器学习语言模型(MLLM),专门设计用于在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器,支持对细粒度和开放词汇的引用和定位。此外,ml-ferret还包含了包括约 110 万个样本的G...
-
AI绘画中CLIP文本-图像预训练模型
介绍 OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行...
-
【达摩院OpenVI】AIGC技术在图像超分上的创新应用
团队模型、论文、博文、直播合集,点击此处浏览 一、背景 近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用...
-
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。 尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答...
-
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。 最近,来自 Google DeepMind 的研究团队将多模态...
-
【多模态】4、Chinese CLIP | 专为中文图文匹配设计
文章目录 一、背景 二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸 三、效果 四、代码 4.1 推理 论文:Chinese CLIP: Contrastive Vision-Language Pr...
-
AI视野:微软推自主研发AI芯片Maia100;WPS AI开启公测;OPPO发布安第斯大模型AndesGPT;DeepMind发布新模型Mirasol3B
???AI新鲜事 微软正式宣布其首款人工智能芯片 Maia100 微软宣布推出首款自主研发的AI芯片Maia100,旨在训练大型语言模型,并推出基于Arm架构的通用计算芯片Cobalt100,以优化云计算工作负载。 金山办公WPS AI开启公测,小米14...
-
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。该模型采用两阶段训练策略,首先进行无图像描述的多模态数据生成,然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...