-
【AI绘画】零基础入门ComfyUI(二)快手可图Kolors大模型
大家好,我是写编程的木木。 7月6日,快手在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩 Midjourney-v6水平,支持长达256字符的文本输入,具备英文...
-
Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task02笔记
1 前言 本次是学习内容是Datawhale AI夏令营第四期-AIGC文生图方向的学习笔记。 2 AIGC简介 AIGC(Artificial Intelligence Generated Content)即人工智能...
-
史上最强开源模型Llama 3.1,媲美GPT-4o和Claude 3.5 Sonnet!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之...
-
FLUX | 超越SD3、媲美Midjourney的顶级AI绘图模型
本文包含大量AI干货 阅读完大约需要8分钟 1.引言 在过去的两年中,第一个公开发布且功能齐全的图像合成模型 Stable Diffusion 完全占据了主导地位,一大批竞争对手(PixArt Alpha/Sigma/AuraFlow)试图效仿S...
-
超越sd3!比肩Midjourney-v6?AI绘画大模型FLUX1.0详细评测与本地部署方法(附安装文件)
FLUX.1模型是什么? FLUX模型是一个开源的AI图像生成模型,由黑森林工作室研发。 堪比sd3以及Midjourney-v6 背景/backdrop 黑森林工作室(Black Forest...
-
AIGC核心剖析:NLP与生成模型的协同作用
目录 AIGC核心剖析:NLP与生成模型的协同作用 NLP的基础与挑战 生成模型的强大能力 NLP与生成模型的协同作用 1. 机器翻译 2. 文本摘要 3. 对话系统 结论 AIGC核心剖析:NLP与生成模型的协同作用 在人工智能...
-
终于来了,OpenAI测试GPT-4o高级语音模式!
OpenAI宣布开始向小部分ChatGPT Plus用户,测试GPT-4o的高级语音模式。 本次测试将主要搜集安全、功能方面的反馈,OpenAI会在8月初分享一份全面的GPT-4o评估报告。随后,还会发布视频和屏幕共享新功能。 获取测试权限的用户会收到O...
-
AI日报:Bing推生成式AI搜索功能 ;Open-Sora Plan v1.2发布;Mistral Large2突然开源;腾讯智影推智能画布功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Bing推生成式AI搜索功能...
-
AIGC从入门到实战:ChatGPT+Midjourney,绘出中国古风意境之美
作者:禅与计算机程序设计艺术 质感轻柔,语音柔和而富有感情,画面如同水墨画般缓缓展开,描绘着古代文人墨客笔下的山水画卷,带着一股穿越时空的独特韵味。这就是我们今天要探讨的主题——将 ChatGPT 和 Midjourney 的力量结合,打造一个创新的 A...
-
探索未来AI助手:揭秘国内热门大模型AIGC产品的使用体验与趋势
一:国内AIGC(人工智能生成内容)产品使用体验分析如下: 1. 腾讯元宝:腾讯元宝基于混元大模型,提供AI搜索、AI总结、AI写作、AI绘画等特色功能。用户反馈显示,腾讯元宝在信息搜索、文档总结、网页总结、AI作图等方面表现出色,尤其是在AI绘...
-
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南
探索多模态智能边界:Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南 在人工智能领域,多模态学习正逐渐成为研究热点,它旨在融合视觉和语言信息,构建能够理解和生成跨模态内容的智能体。Visual-Chinese-LLaMA...
-
SD3开源:AI绘画的新纪元,出图效果巨好,不容错过!(附教程)
大家好,我是画画的小强。 这两天,Stability AI 将史上最牛的AI绘画模型SD3开源了,真是有格局! 虽说只是中杯的20亿参数版本,但我已经很满足了,再高的版本,我这普通的16G 4070Ti Super 显卡也跑不起来… 话不多说,这...
-
文心一言和GPT-4横向对比
文心一言和GPT-4在多个方面都存在明显的差异,下面进行详细的横向对比: 首先,从产品定位和发布时间来看,文心一言是百度推出的大语言模型产品,旨在提供文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等多种能力。而GPT-4则是OpenAI在GP...
-
探索未来文本交互的利器 - Nvim-Llama:将大型语言模型引入Neovim的革命性尝试...
? 探索未来文本交互的利器 - Nvim-Llama:将大型语言模型引入Neovim的革命性尝试 项目地址:https://gitcode.com/jpmcb/nvim-llama 在快速演进的人工智能领域,即时、高效的与语言模型交互已经成为开发者的梦...
-
百度文心一言与谷歌Gemini的对比
版权声明 本文原创作者:谷哥的小弟 作者博客地址:http://blog.csdn.net/lfdfhl 本文从多角度将百度文心一言与谷歌Gemini进行对比。因为不同评测基准的侧重点和难度可能有所不同,所以本文涉及到的评测结果仅供参考。Gem...
-
Stable Diffusion模型介绍
在深度学习和人工智能领域,Stable Diffusion模型作为一项前沿技术,已经引起了广泛的关注。本文将深入探讨Stable Diffusion模型的种类、特点以及它们在不同场景下的应用。 1. CheckPoint模型 Checkpoint模型...
-
Stable Diffusion 3.0技术论文解读
前几周 AI绘画领域扔出了一颗重磅炸弹 那就是Stability AI发布了备受期待的Stable Diffusion 3.0 简称SD3 一周后 官方放出了一篇详尽的技术论文 阐述了SD3实现突破性进展的底层原理 但是同时也引发了一连串疑问...
-
开源模型穷途末路?Stability AI欠下1亿美元,四处找钱
曾经创造出Stable Diffusion系列模型的Stability AI,目前面临前所未有的财务危机。 这个曾经有10亿美元估值,却只有180名员工的明星初创公司正在考虑出售,并积极与潜在买家接触。 有知情人士表示,Stability AI曾私下联系...
-
腾讯宣布混元文生图大模型开源: Sora 同架构,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的 DiT 架构文生图开源模型...
-
重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的DiT架构文生图开源模型,支...
-
腾讯混元文生图大模型宣布开源:首个中文原生DiT架构
今日,腾讯旗下引人注目的混元文生图大模型(混元DiT)宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在Hugging Face和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。 腾讯混...
-
阿里巴巴推出通义千问2.5 号称性能超越GPT-4 Turbo
在人工智能领域,阿里巴巴再次取得重大进展,于5月9日正式发布了通义千问2.5版本。该版本在模型性能上全面超越了GPT-4Turbo,标志着阿里巴巴在AI技术发展上的又一重要里程碑。 通义千问2.5的主要提升包括: 理解能力提升9%:在文本理解方面,相较...
-
OpenAI CEO曾称 GPT-2“非常糟糕”,现在对该版本“情有独钟”
OpenAI 首席执行官 Sam Altman 近日表达了对 GPT-2语言模型的喜爱之情,尽管他此前批评了早期模型,但他对即将推出的 GPT-5充满期待。Altman 在社交平台上承认,他 “确实对 GPT-2有一种软肋”。 今年早些时候,Altman...
-
InternLM2官网体验入口 中文AI聊天机器人模型使用地址
InternLM2是一个面向中文和英文的大型多语言预训练语言模型。它具有语言理解、自然语言生成、多模式推理、代码理解等强大的能力。模型采用Transformer架构并进行海量数据的预训练,在长文本理解、对话、数学运算等多个方向上都达到了业界领先水平。该系列...
-
刚刚,Mistral AI最新磁力链放出!8x22B MoE模型,281GB解禁
【新智元导读】初创团队Mistral AI再次放出一条磁力链,281GB文件解禁了最新的8x22B MoE模型。 一条磁力链,Mistral AI又来闷声不响搞事情。 281.24GB文件中,竟是全新8x22B MOE模型! 全新MoE模型共有56层,...
-
ELLA官网体验入口 腾讯AI文本到图像语义对齐工具使用介绍
ELLA是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器,从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不...
-
Grok-1.5官网体验入口 马斯克xAI最新超长文本模型使用地址
当地时间 3 月 28 日,人工智能初创公司xAI宣布即将推出Grok-1.5模型,该模型具有长语境理解和高级推理能力。不久后,Grok-1.5将向X平台的用户和早期测试者开放。 Grok-1.5是一种先进的大型语言模型,具有出色的长文本理解和推理能力。它...
-
Stable Diffusion 商业变线与绘画大模型多场景实战讠果fx
Stable Diffusion 商业变现与绘画大模型多场景实战 扌并讠果:Ukoou·ㄷㅁΜ Stable Diffusion介绍 Stable Diffusion是2022年发布的深度学习文本到图像生成模型。 它主要用于根据文本的描述产生详细图像,尽...
-
零一万物API开放 多模态中文图表体验超越GPT-4V
近日,零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态...
-
阿里通义听悟升级推出六大 AI 助手:多语言音视频问答和思维管理
今日,阿里巴巴集团旗下通义科技发布了产品“通义听悟”的最新升级版本,新增了6项重要功能。 其中最重要的更新是推出了音视频问答助手“小悟”,它可以进行单条音视频内的自由问答,也支持跨多个音视频记录进行问题回答。此外,通义听悟还上线了一键AI改写和思维导图自动...
-
文言一心与文心一言:深度解读自然语言处理领域的两大巨头
大家好,小发猫降ai今天来聊聊文言一心与文心一言:深度解读自然语言处理领域的两大巨头,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 文言一心与文心一言:深度解读自然...
-
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。 为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研...
-
利用Discuz平台进行搜狐资讯采集的策略与实践
随着互联网信息时代的到来,网上信息资源呈现出爆炸式增长的趋势。如何高效地从这些海量的信息中提取出有价值的内容,已成为摆在众多网络媒体从业者面前的课题。在这种背景下,内容采集技术的应运而生,对于提高信息整理、分发及二次创作的效率都具有积极意义。本文以Disc...
-
Mistral Large模型官网体验入口 Mistral AI强大的最新AI免费使用地址
Mistral Large是Mistral AI团队最新推出的旗舰语言模型,具有顶级推理能力。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。该模型在常用基准测试中取得了强大的成绩,是继GPT- 4 之后全球第二大可通过API进行使用的模型。...
-
Stable Diffusion——stable diffusion基础原理详解与安装秋叶整合包进行出图测试
前言 在2022年,人工智能创作内容(AIGC)成为了AI领域的热门话题之一。在ChatGPT问世之前,AI绘画以其独特的创意和便捷的创作工具迅速走红,引起了广泛关注。随着一系列以Stable Diffusion、Midjourney、NovelAI等...
-
关于 OpenAI Sora,你所应该了解的
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI 生态领域相关的技术 - OpenAI Sora ,本文将继续聚焦在针对 OpenAI Sora 的技术进行剖析,使得大家能够了解 OpenAI Sora 实现机制以便更好地对...
-
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
当谷歌Gemini 1.5,遇上抢了它头条的「罪魁祸首」Sora会怎么样? 这两天,拿到内测资格的AI圈大佬们,纷纷给广大网友来了一波在线测试。 这不,Gabor Cselle就让Gemini 1.5去分析了那个著名的樱花雪景视频。 对此,Gemini...
-
文心一言能降重吗 GPT改写
大家好,今天来聊聊文心一言能降重吗 GPT改写,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 文心一言能降重吗 一、引言 随着人工智能技术的不断发展,越来越多的论文降重工具如小发猫伪原创、...
-
【AI绘画】用张图直观理解Stable Diffusion
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 作者****|Jay Alammar 翻译|杨婷、徐佳渝 最近,AI图像生成引人注目,它能够根据文字描述生成...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出
【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。 最近,通义千问实火。 前段时间被网友玩疯的全民舞王,让「AI科目三」频频登上热搜。 让甄嬛、慈禧、马斯克、猫主子和兵...
-
AIGC:文生图模型Stable Diffusion
1 Stable Diffusion介绍 Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,它通过LAION-5B子集大量的 512x512 图文模型进行训练,我们只要简单的输入一段文...
-
GPT与文心一言大模型的比较与展望
目录 前言 1 GPT和文心一言简介 2 GPT和文心一言的技术原理和基础架构 3 GPT和文心一言的模型规模和参数数量 4 GPT和文心一言的语言理解表现 5 展望GPT和文心一言未来的发展 5.1 技术改进 5.2 应用扩展 结语...
-
AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测
前言 “AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现的效果。”远在AI作画还没有爆火之前,深度学习就已经...
-
世界顶尖多模态大模型开源!又是零一万物,又是李开复
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。 模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。 同属Yi系列,同样具有两个版本...
-
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加...
-
如何将知识图谱与AIGC结合?京东是这么做的
一、导言 首先介绍一下京东在电商场景下 AIGC 方面的探索。 这是一个商品营销文案自动生成的全景图,自下而上首先是商品的输入信息。输入信息是异构多源的,包括商品的商详页里的图片、文本、商品的标题以及商品的知识图谱。通用的知识图谱是三元组的形式,...
-
书生·浦语2.0体验入口 AI聊天InternLM2模型在线使用地址
「InternLM2」书生·浦语2.0是一款面向中文和英文的大型多语言预训练语言模型,标志着自然语言处理技术的新时代。它不仅在语言理解和生成方面有着出色的表现,还能够进行多模式推理和代码理解。这种基于Transformer架构的模型通过海量数据的预训练,在...
-
Stable Diffusion五问
一,什么是Stable diffusion? Stable Diffusion" 是一种基于扩散模型的深度学习框架,用于生成高质量的图像。它是一种生成模型,通过模拟物理扩散过程,从随机噪声中逐步生成详细和结构化的图像。Stable Diffusion因其...