多模态 - AIGC资讯

人工智能与团队协作：虚拟会议的实时翻译

标题：人工智能与团队协作：虚拟会议的实时翻译——跨越语言障碍，促进全球协作在全球化日益加深的今天，企业间的国际合作已成为常态。然而，语言差异一直是影响跨国团队协作效率的关键因素之一。幸运的是，随着人工智能技术的飞速发展，特别是自然语言处理（NLP）和机器翻...

AIGC 2025-07-12 人工智能

898阅读

多模态大模型：文本、图像与语音的终极融合

标题：多模态大模型：文本、图像与语音的终极融合——开启智能交互新时代随着人工智能技术的飞速发展，我们正逐步迈入一个前所未有的智能时代。在这个时代里，信息的传递与处理不再局限于单一维度，而是向着多元化、综合化的方向迈进。多模态大模型，作为这一趋势的集大成者，...

人工智能 2025-07-10 人工智能

955阅读

多模态学习：文本、图像与语音的融合

标题：多模态学习：文本、图像与语音的融合——开启智能交互新时代在人工智能领域，多模态学习正逐渐成为推动技术进步与创新的关键力量。这一概念的核心在于整合来自不同渠道的信息——文本、图像与语音，以实现更加全面、深入的理解与交流。随着深度学习技术的飞速发展和大数...

大数据 2025-07-04 人工智能

652阅读

ai与神经科学：类脑计算的仿生学启示

标题：AI与神经科学：类脑计算的仿生学启示在21世纪的科技浪潮中，人工智能（AI）与神经科学作为两大前沿领域，正以前所未有的速度交织融合，共同探索智能的本质与未来。这一跨学科的合作不仅推动了AI技术的革新，也为神经科学的研究开辟了新的视角和方法。类脑计算，...

生成式AI 2025-07-03 人工智能

775阅读

openai的gpt-4：如何重新定义ai交互？

标题：OpenAI的GPT-4：如何重新定义AI交互的新纪元在人工智能领域，每一次技术的飞跃都预示着人机交互方式的深刻变革。近年来，OpenAI凭借其先进的自然语言处理技术和不断迭代的生成式预训练模型，引领了这一领域的革新潮流。其中，GPT-4的发布，不仅...

人工智能 2025-06-28 人工智能

1019阅读

持续学习（continual learning）：克服灾难性遗忘

在人工智能与机器学习领域，持续学习（Continual Learning），又称为终身学习或增量学习，是一个核心而复杂的问题。其核心挑战在于如何使模型在不断接收新任务或新数据的同时，保持对先前学到知识的记忆，避免“灾难性遗忘”——即模型在学习新知识的过程中...

大数据 2025-06-27 人工智能

877阅读

生成式ai：从gpt到多模态模型

标题：生成式AI：从GPT到多模态模型的演进之路在人工智能的浩瀚星空中，生成式AI如同一颗璀璨的新星，正以惊人的速度照亮着科技前行的道路。从最初的文本生成模型，到如今融合了图像、音频乃至视频等多模态内容的智能系统，生成式AI不仅深刻改变了我们的生活方式，还...

生成式AI 2025-06-27 人工智能

952阅读

数据挖掘中的可解释ai（xai）

标题：数据挖掘中的可解释AI（XAI）：开启智能决策的新篇章在数据驱动的时代，人工智能（AI）技术以其强大的数据处理能力和模式识别能力，在众多领域展现出了前所未有的价值。数据挖掘作为AI的一个重要分支，通过高级算法从海量数据中挖掘隐藏的知识和模式，为企业决...

AIGC 2025-06-23 大数据

722阅读

数据挖掘中的多模态数据融合

标题：数据挖掘中的多模态数据融合：挑战、方法与未来展望随着信息技术的飞速发展，数据呈现出爆炸性增长，且形式多样，包括但不限于文本、图像、音频、视频等，这些数据被统称为多模态数据。在数据挖掘领域，多模态数据融合成为了一个热门且至关重要的研究方向。它旨在通过整...

生成式AI 2025-06-21 大数据

623阅读

多模态数据融合在可信数据空间中的实践

标题：多模态数据融合在可信数据空间中的实践探索随着信息技术的飞速发展，数据已成为现代社会不可或缺的重要资源。在大数据时代背景下，数据呈现出多样化、复杂化的特点，其中多模态数据尤为突出。多模态数据指的是来自不同来源、具有不同表现形式（如文本、图像、音频、视频...

大数据 2025-06-15 大数据

664阅读

爬虫技术未来发展趋势预测

标题：爬虫技术：未来发展趋势的深度预测在数字化时代，信息如同血液般流淌于互联网的脉络之中，而爬虫技术作为信息获取的关键工具，其重要性不言而喻。随着技术的不断进步和应用场景的日益丰富，爬虫技术正迎来前所未有的发展机遇与挑战。以下是对爬虫技术未来发展趋势的深度...

大数据 2025-06-08 大数据

925阅读

大模型应用开发，AI 厂商开启新一轮“群雄逐鹿”？

价格战的硝烟似乎还没有平息，但 AI 厂商们的又一场战争已经开始。这一次的竞争核心是大模型应用开发。根据 IDC 报告，2023年中国大模型平台及相关应用市场规模约还仅有区区17.65亿元人民币，但伴随着行业的巨变，2024年，模型应用开发相关的产业规模...

大数据 2024-10-29 人工智能

2449阅读

拿下诺贝尔化学奖，类谷歌AlphaFold开源蛋白质大模型

本周谷歌DeepMind联合创始人兼首席执行官Demis Hassabis凭借AlphaFold系列模型拿下诺贝尔化学奖，创造了AI大模型首次拿下诺奖的历史。尤其是最新发布的AlphaFold-3在生物分子结构、蛋白-配体结构、生物复合体等方面获得了很大...

AIGC 2024-10-13 人工智能

2586阅读

RWKV-7 预览版、大量新论文...RWKV 社区 9 月动态速览

欢迎大家收看《RWKV 社区最新动态》第五期，本期内容收录了 RWKV 社区 2024 年 9 月的最新动态。 9 月动态省流版（TL;DR） RWKV 官方新闻动态 RWKV-7 发布预览版 RWKV-7 论文撰写已面向社区开放...

生成式AI 2024-10-13 人工智能

2524阅读

大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲

LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型，并且提供了丰富的训练算法，包括增量预训练、多模态指令监督微调、奖励模型训练等。 LLaMA-Factory的优势在于其简单易用的界面和强大的功能。用户可以在不编写...

大数据 2024-10-06 人工智能

1427阅读

Meta推出Llama 3.2 AI模型，支持多模态和边缘计算；OpenAI首席技术官穆拉蒂宣布离职

? AI新闻 ? Meta推出Llama 3.2 AI模型，支持多模态和边缘计算摘要：Meta于9月25日发布Llama 3.2 AI模型，具备开放性和可定制性，支持开发者实现边缘人工智能和视觉应用。该系列包含多模态视觉模型（11B和90B）及轻...

人工智能 2024-10-05 人工智能

1331阅读

Meta发布Llama 3.2，Llama 终于能看见了！

Llama家族再添新成员，多模态能力终于到来！ Meta刚刚发布了Llama 3.2模型系列，包括多模态视觉模型和小型文本模型，共计10个开放权重模型。这次更新不仅带来了期待已久的视觉能力，还为移动设备和边缘计算提供了更多选择。多模态Llam...

生成式AI 2024-10-04 人工智能

1879阅读

在矩池云使用 Llama-3.2-11B-Vision 详细指南

Llama 3.2-Vision是Meta开发的一系列多模态大型语言模型（LLMs），包含11B和90B两种规模的预训练和指令调整模型。这些模型专门优化用于视觉识别、图像推理、字幕生成和回答有关图像的一般问题。Llama 3.2-Vision模型在常见...

生成式AI 2024-10-03 人工智能

1999阅读

什么是AIGC？什么是大模型？具体有什么应用？

什么是AIGC？ AIGC，英文全称是Artificial Intelligence Generated Content，翻译成中文的大白话意思就是“人工智能生成的内容”。比如AI（Artificial Intelligence，人工智能）生成文本、图...

AIGC 2024-10-03 人工智能

1775阅读

Stable Diffusion AI算法，实现一键式后期处理与图像修复魔法

在当今数字影像时代，后期处理技术已成为将原始图像转化为视觉上令人惊叹艺术作品的点睛之笔。随着人工智能技术的飞速发展，尤其是Stable Diffusion技术在图像处理领域的应用，图片后期处理已达到前所未有的高度，为摄影师、设计师及视觉艺术爱好者提供了一...

人工智能 2024-10-03 人工智能

1589阅读

OpenAI发布实时API公测版 3家语音API合作者揭晓

10月2日消息，今天，OpenAI发布了实时 API 公开测试版，用于构建基于GPT-4o语音到语音的AI应用和智能体，所有付费的开发者都能在应用程序中构建低延迟、多模态的实时互动体验。同时，OpenAI 还公布了3家语音API合作者：LiveKit、A...

大数据 2024-10-03 人工智能

1243阅读

国内外大模型汇总：Open AI大模型、Google大模型、Microsoft大模型、文心一言大模型、通义千问大模型、字节豆包大模型、智普清言大模型

Open AI大模型特点：多模态能力：如GPT-4o，能接受文本、音频、图像作为组合输入，并生成任意形式的输出。情感识别与回应：具备情感识别能力，能根据对话者的情绪做出有感情的回应。几乎无延迟：对音频输入的响应时间极短，与人类对话相似。...

AIGC 2024-10-02 人工智能

1496阅读

【AIGC】Kolors:快手开源的文生图大模型

GitHub：GitHub - Kwai-Kolors/Kolors: Kolors Team 论文：Kolors/imgs/Kolors_paper.pdf at master · Kwai-Kolors/Kolors · GitHub comfyu...

生成式AI 2024-10-02 人工智能

1746阅读

LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

发表时间：14 Jun 2023 论文链接：https://arxiv.org/pdf/2303.16199 作者单位：Shanghai Artificial Intelligence Laboratory Motivation：最近，指令跟踪模型取...

大数据 2024-10-01 人工智能

1578阅读

大模型-AIGC

AIGC，全称 AI Generated Content（人工智能生成内容），是指使用人工智能技术生成各种类型的内容。它包括但不限于文本、图像、音频、视频等形式，利用机器学习、深度学习以及自然语言处理等技术，自动创作出符合需求的数字内容。 AIGC 的...

生成式AI 2024-09-30 人工智能

1564阅读

Meta Llama 3介绍及其关键技术

随着深度学习算法的突破和发展，语言模型已经成为连接人与机器的重要桥梁。在这一领域中，Meta的Llama 3 作为最新一代的大规模预训练模型，凭借其卓越的性能和广泛的应用前景，正逐渐成为行业内的佼佼者。 Llama 3 的研发团队继承了前代模型的技术优势...

AIGC 2024-09-30 人工智能

1777阅读

AIGC从入门到实战：借助 AI，听听照片里的人物怎么说

AIGC从入门到实战：借助 AI，听听照片里的人物怎么说作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：AIGC，人工智能生成内容，图像识别，自然语言生成，多模态交互 1....

人工智能 2024-09-30 人工智能

1253阅读

AI日报：文生图新顶流？神秘蓝莓模型横空出世；阿里妈妈开源AI图像修复模型；谷歌斥资27亿美元重聘AI专家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、神秘蓝莓模型横空出世:AI文生...

大数据 2024-09-29 人工智能

1257阅读

提示词工程学的前世今生：Generative Pre-trained Transformer 到AIGC，再到Prompt Engineering

人工智能（Artificial intelligence，AI）的演进已然变革了我们对于技术的理解以及应用方式。自最初的规则系统直至当下的深度学习，AI 在众多领域均彰显出了极为巨大的潜力。当中，生成式预训练模型（Generative Pre-traine...

AIGC 2024-09-29 人工智能

1972阅读

百度Ernie大模型是什么？

百度的Ernie模型（Enhanced Representation through kNowledge Integration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成...

人工智能 2024-09-29 人工智能

1445阅读

基于Llama构建的语音语言模型LLaMA-Omni；增强记忆的长文本建模检索方法；全功能的AI应用AnythingLLM

✨ 1: LLaMA-Omni LLaMA-Omni是基于Llama-3.1-8B-Instruct构建的语音语言模型，支持高质量低延迟的语音互动。 LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的语音语言模型...

大数据 2024-09-28 人工智能

1815阅读

与其造神，不如依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

看过剧版《三体》的读者或许都记得一个名场面:来自三体的智子封锁了人类科技，还向地球人发出了「你们是虫子」的宣告。但没有超能力的普通人史强却在蝗群漫天飞舞的麦田中喊出:「把我们人类看成是虫子的三体人，他们似乎忘了一个事实，那就是虫子从来就没有被真正地战胜过」...

生成式AI 2024-09-27 人工智能

1143阅读

AI日报：确认！三只羊录音门音频是AI克隆；美图MOKI全面开放；谷歌NotebookLM重磅上线新功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、AI音频公司确认“三只羊录音门...

人工智能 2024-09-27 人工智能

1355阅读

国内外大模型汇总（包括科大星火、文心一言、通义千问、智普清言、华为大模型）

国内外大模型汇总 1. 科大讯飞星火认知大模型主要特点：多语言能力：以中文为核心，同时支持多语言处理，能够进行跨语种的语言理解和生成。广泛的任务能力：具备内容生成、语言理解、知识问答、推理、数学计算、代码理解与生成等多种能力，能够处理复杂的自...

大数据 2024-09-27 人工智能

1763阅读

Llama 3.2来了，多模态且开源！AR眼镜黄仁勋首批体验，Quest 3S头显价格低到离谱

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕，那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相，短短数月，Ray-Ban M...

AIGC 2024-09-27 人工智能

1005阅读

大模型——LLaVA和LLaMA的介绍和区别

LLaVA和LLaMA是两个不同的模型架构，它们的设计目的和应用领域有所不同： LLaMA（Large Language Model Meta AI）简介：LLaMA是由Meta AI推出的一系列大规模语言模型（Large Language M...

生成式AI 2024-09-27 人工智能

2039阅读

AIGC落地产品（一）——AIGC+数字人

文章目录前言一、AIGC+数字人之技术分析 1. 多模态感知 2. 多维度表达 3. 自主定义 4. 外接大模型，实现产业赋能二、AIGC+数字人之落地应用 1. AIGC+数字人创作 2. AIGC+数字人赋能产...

大数据 2024-09-27 人工智能

1048阅读

每日AIGC最新进展(56)：当下最强开源图片/视频理解模型CogVLM2发布

Diffusion Models专栏文章汇总：入门与实战随着大型语言模型和多模态对齐技术的发展，视频理解模型在一般开放领域也取得了重大进展。然而，目前大多数视频理解模型使用帧平均和视频令牌压缩方法，导致时间信息的丢失和无法准确回答与时间相关的问题。...

大数据 2024-09-26 人工智能

1088阅读

具身智能机器人隐藏冠军上新：领狗进家门，多模态AI那种

具身智能领域的“癫”，已经进入next level了! 来看这段视频:人形机器人在前面跑，一群机器狗在后面追;然后人追着狗，接着狗追着人…… 最后那位机器人还有很重的「偷感」在身上。别怕，这不是进入了《恐怖游轮》or《开端》的神奇循环，而是一家国产具身...

AIGC 2024-09-26 人工智能

996阅读

AI日报：Meta发布Llama3.2模型及Orion AR眼镜；Sora迎来大升级；全新Notion AI发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、猛了!Meta震撼发布Llam...

人工智能 2024-09-26 人工智能

968阅读

五一 Llama 3 超级课堂 | LMDeploy 高效部署 Llama3 实践笔记

准备环境与模型环境配置 conda create -n lmdeploy python=3.10 conda activate lmdeploy conda install pytorch==2.1.2 torchvision==0.16.2 torc...

AIGC 2024-09-25 人工智能

1398阅读

又热闹了，OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级

今天真是AI圈久违了的热闹一天啊！昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。奥特曼想临门狙击的正是宿敌Google，更确切地说，是Google今天刚刚更新的两款升级版Gemini模型：Gemini-1.5-Pro-...

AIGC 2024-09-25 人工智能

1157阅读

2023年中国AIGC产业发展趋势与模型架构

AIGC与大模型将引领“AI产业”与“产业AI”发展 AIGC（AI-Generated Content）指利用人工智能技术（生成式AI路径）来生成内容的新型内容生产方式。2022年11月上线的 AIGC应用ChatGPT，凭借其在语义理解、文本创作、代...

AIGC 2024-09-24 人工智能

1016阅读

OpenAI开启推理算力新Scaling Law，AI PC和CPU的机会来了

OpenAI的新模型o1，可谓是开启了Scaling Law的新篇章—— 随着更多的强化学习（训练时计算）和更多的思考时间(测试时计算，o1在逻辑推理能力上已经达到了目前天花板级别。尤其是在北大给出的一项评测中，o1-mini模型的跑分比o1-prev...

大数据 2024-09-24 人工智能

944阅读

Datawhale X 魔搭 AI夏令营第四期 AIGC方向 task03笔记

模型微调模型微调文生图的工作流平台工具ComfyUI 什么是ComfyUI ComfyUI核心模块魔搭安装ComfyUI LoRA微调 Lora详解 UNet、VAE和文本编码器的协作关系如何准备一个高质量的数据集明确需求...

人工智能 2024-09-24 人工智能

1139阅读

AI日报：公众号接入腾讯元器AI智能体；字节Loopy对口型功能在即梦上线；PixVerse全新UI发布；阿里云魔搭社区上线AIGC专区

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、数字人起飞！字节Loopy对口...

大数据 2024-09-23 人工智能

1147阅读

AIGC实战之如何构建出更好的大模型RAG系统

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客...

生成式AI 2024-09-22 人工智能

1333阅读

用AI干预老年痴呆治疗！微软联合上海“600号”

快科技9月22日消息，据媒体报道，近日，微软亚洲研究院与上海市精神卫生中心（俗称600号”）展开合作，共同探索使用人工智能技术干预阿尔茨海默症的治疗方法。面对全球人口老龄化趋势，阿尔茨海默病等认知症成为重大健康挑战，目前尚无药物能完全治愈阿尔茨海默病，但...

生成式AI 2024-09-22 人工智能

893阅读

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

两个AI现场攻防，翻车了人类就在旁边“蛐蛐”。现在的AI比赛真是越来越因吹斯汀了。这不，一个拿着“花开富贵”大姨人设的Agent直接甩了个链接，对面的AI客服就开始大段大段冗长回复，几个回合都是如此。围观人类一点儿都不留情面，马上锐评: 遇到妙语...

人工智能 2024-09-22 人工智能

859阅读

大模型时代下的新一代广告系统

• 歧义词的多意图：多意图query下，基于样本生成逻辑，会偏向主意图，弱化甚至丢失次意图，导致召回问题，例如：小米（粮食or手机？），苹果（水果or手机？）； • 长尾类目冷启：由于用户点击数据的马太效应，使得大量的长尾类目没有...

大数据 2024-09-20 人工智能

991阅读