-
Stable Diffusion WebUI 1.8.0来了
上周 Stable Diffusion WebUI 发布了 1.8.0 版本,更新内容比较多,据说显存使用有了大幅的下降,这几天我也找时间把 AutoDL 镜像的版本做了个升级,有兴趣的同学可以去体验下新版本了。 这里分享下其中几个我认为比较重要的更新。...
-
每日一看大模型新闻(2024.1.12)首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%;谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途;为大模型恶补数学
1.产品发布 1.1 Luma AI:推出文生3D模型Genie 1.0 发布日期:2024.1.12 https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20 主要内...
-
【没有哪个港口是永远的停留~论文解读】stable diffusion 总结 代码&推导&网络结构
了解整个流程: 【第一部分】输入图像 x (W*H*3的RGB图像) 【第一部分】x 经过编码器 生成 (latent 空间的表示 h*w*c (具体设置多少有实验 【第二部分】 逐步加噪得到 ,和噪声标签 【第二部分】由 Unet( )...
-
生成式AI为什么受到各行业追捧?
生成式AI是人类一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。那么什么是人工智能?人工智能和机器学习之间的区别是什么? 人工智能是一门学科,是计算机科学的一个分支,研究智能代理的创建,这些智能代理是可以推理、学习和自主行动的...
-
TOXCL:用于检测和解释隐性有毒言论的统一AI框架
社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言而不是明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的毒性,还能解释为何它是有害的呢?...
-
从OpenAI出走的华人团队,将如何创造物理世界的ChatGPT时刻?
撰文丨伊风 出品 | 51CTO技术栈(微信号:blog51cto) 辛苦工作一天后,你躺在沙发上,有一个能为你递上香蕉的机器人怎么样?这听起来就像拥有一只会叼拖鞋的狗狗一样酷! RFM-1 可以!他可以听懂你的指令,在一堆食物中准确的识别香蕉并进行...
-
SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍
本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节,主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。 目录 一.【AIGC简介——以文生图为例】 1.基于生...
-
等不及公开了!最新Sora模型细节揭秘:预计峰值需要72万块H100!每月至少4200块H100!缩放定律依旧有效!
作者 | Matthias·Plappert 翻译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) OpenAI的Sora模型能够生成各种场景的极其逼真的视频,令世界惊叹不已。除了一篇公开的技术报告和TikTok上放出的酷炫视频,就...
-
音乐ChatGPT时刻来临 实测几秒钟就能生成好听的歌
快科技3月25日,近日,AI初创公司Suno震撼推出V3音乐生成模型,只需几秒,即可生成2分钟动听的音频,网友纷纷表示:音乐的ChatGPT时刻来临。 在Suno官网页面,可以看到有网友生成的音乐作品,包含有各个流派,点击相应歌曲就可试听。(Suno官网点...
-
离职谷歌的Transformer作者创业,连发3个模型(附技术报告)
去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。其中,Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you n...
-
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
文章链接:https://arxiv.org/pdf/2402.17245 模型地址: https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic 本文分享了在文本到图像生成模...
-
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来,没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外,完全公开的视频生成模型寥寥无几,大多数都是闭源的。 为了弥...
-
今日AI:Gemini Pro1.5向所有人开放;Stable Diffusion核心团队集体离职;HeyGen5.0上线视频翻译功能;剪映内测视频翻译功能
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 Gemini P...
-
AI帮写会重复吗?探索智能写作中的重复性问题
大家好,小发猫降重今天来聊聊AI帮写会重复吗?探索智能写作中的重复性问题,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI帮写会重复吗?探索智能写作中的重复性问题 随着人工智能(AI)技术...
-
AIGC狂飙对于普通人意味着什么?
AIGC 人工智能生成内容,相对更早的内容生产模式分别为专家生产内容 PGC 和用户生产内容 UGC。而随着 AIGC 出现,内容生产率变成指数级上升。那么AIGC发展对于普通人来说到底意味着什么? 先回顾一下时间轴, 2015年7月,谷歌推出 De...
-
无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么
3 月 21 日消息,AI 浪潮席卷而来,此前不少人认为“提示词工程师”会成为新兴工种,而 MindEye 的问世表明,这个岗位或许没有存在的价值了。 此前不少人认为,未来 AI 时代并不在于某个模型是否强大,而是在于人类是否能够更高效利用这些 AI...
-
端到端大一统前夕?GenAD:LLM和轨迹规划全搞定
今天汽车人和大家分享一篇自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制,并增强模型的泛化能力,从网络获取了大量数据,并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频,涵盖了世界各地具有多样化天气...
-
AI明星剧情号在YouTube爆火 猛男巨石强森也会耍赖哭泣
最近,AI技术在视频创作领域的应用越来越广泛,YouTube上出现了一些利用AI明星进行创意产出的账号。其中一位名为“ReallynotAi”的博主,发布了一系列的原创剧情视频,主角是AI版的巨石强森和施瓦辛格。 在这些视频中,我们看到了道恩·强森(Dwa...
-
AIGC元年大模型发展现状手册
零、AIGC大模型概览 AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a. LLM大模型通过深度学习和自然语...
-
OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里
3 月 18 日消息,OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO Mira Murati 在接受华尔街日报采访时却语焉不详,无法明确说明 Sora 的训练数据来源。 在采访中,记者直接询问 Mura...
-
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
本文篇幅很长,主题很多,但循序渐进,对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。 最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world...
-
一键点、万物动! 腾讯混元联合清华、港科大推出图生视频大模型“Follow Your Click”
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原...
-
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
近几个月,随着基于Stable Diffusion的相关技术发展,基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中,人像定制化是指:给定任务角色(参考图),通过提示词控制生成多样新的图像,并且图像...
-
不甘只做AI 应用工厂,字节跳动补课大模型
光锥智能获取最新独家消息,继2023年8月首发后,今年4月,字节跳动旗下的大语言模型云雀大模型即将迎来重要版本的升级更新。 八个月一次的更新频率放在大模型市场确实少见,在这样内卷的大模型中,字节显得有些另类,冲刺迅猛如百川智能,前期平均一个月发布升级一款大...
-
30天涨粉100万,AI猫猫“卖惨”成新晋流量密码
AI猫猫剧情号,火了。 当魔性洗脑的“喵喵”音乐响起,一张张以猫猫为故事主角的画面,会像设定了自动播放的PPT一样呈现在你的眼前。这样的一条视频,目前在YouTube Shorts(以下简称油管)上获得了超5000万次观看和300多万点赞。 发布视频的油管...
-
Glyph-ByT5官网体验入口 AI文本编码器与图像生成工具在线使用地址
Glyph-ByT5是一种定制的文本编码器,旨在提高文本到图像生成模型中的视觉文本渲染准确性。它通过微调字符感知的ByT5 编码器并使用精心策划的成对字形文本数据集来实现。将Glyph-ByT5 与SDXL集成后,形成了Glyph-SDXL模型,使设计图像...
-
Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?
在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI 还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。 但在文生图领域,开源模型却表现出了足够强的竞争力。 2 周前,开源模型的代表企业 Stability AI 发布了最新...
-
AIGC查重高怎么降:七大策略助力学术诚信
大家好,小发猫降重今天来聊聊AIGC查重高怎么降:七大策略助力学术诚信,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AIGC查重高怎么降:七大策略助力学术诚信 在学术研究与写作中,AIGC...
-
一文搞懂Stable Diffusion中的提示词
欢迎来到Stable Diffusion的世界,这里是AI和创意的交汇点。在这里,我们将一起探索如何通过精心设计的提示词,指引这一强大的AI工具创造出令人叹为观止的图像。无论你是技术爱好者,还是对AI艺术充满好奇的初学者,这里都有你需要的秘籍。从基础语法到...
-
Stable Diffusion 3 震撼发布,采用Sora同源技术,生成图像、视频真假难辨!
ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 ============== Stable Diffusion 3...
-
文生图的最新进展:从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning
前言 很明显,OpenAI的首个视频生成模型sora极大程度的提高了大家对文生图、文生视频的热情,也极大的扩展了大家对AIGC的想象力 第一部分(选读 一致性模型Consistency Model 注,本文第一部分最早写在23年11月份的这篇文...
-
Etna体验入口 人工智能AI视频生成模型免费在线使用地址
Etna是一款基于人工智能技术的视频生成模型,采用了Diffusion架构,并结合了时空卷积和注意力层,使其能够处理视频数据并理解时间连续性,从而生成具有时间维度的视频内容。该模型在大型视频数据集上进行训练,使用了深度学习技术策略,包括大规模训练、超参数优...
-
安装秋葉aaaki大佬的Stable-Diffusion-WebUI(一)
Stable-Diffusion-webui安装配置 前言 一、准备工作 二、下载Stable Diffusion启动器 三、安装WebUI 四、启动WebUI启动器 前言 随着人工智能技术的飞速发展,文本到图像生成已经成为一...
-
颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
DiT作为效果惊艳的Sora的核心技术之一,利用Difffusion Transfomer 将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。 然而,更大的模型规模导致训练成本飙升。 为此,来自Sea AI Lab、南开大学、昆仑万维2050...
-
不公开!不会音视频一锅出!Sora团队最新采访透露了一个训练细节
撰文&编译 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) AI视频生成模型仍然热闹不断! 上一周,Pika支持音效同步生成功能,终于实现了音频、视频“一锅出”;看国内,阿里在推出令人惊艳的EMO框架后,再发图像转视频模型...
-
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?
在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。 一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域...
-
AIGC专题:Sora是如何成功的?
今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。 (报告出品方:中泰证券) 报告共计:15页 来源:人工智能学派 Sora:大规模训练的视频生成模型,支持60s 1080p视频生成 ◼ 2024年2月15日,O...
-
Stable Diffusion简介
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。 根据维基百科的描述可以得知,Sta...
-
Pika之后又有华人创业者入局AI视频生成,融资千万美金
3月5日,两位华人创业者苗亦舒和王子宇建立的 AI 初创公司推出了搭载自研 AI 模型的视频生成工具 Haiper。 题图来源:Haiper Haiper 的两位创始人都获得了牛津大学机器学习方向的博士学位,在该领域拥有丰富的知识和实践经验。苗亦舒曾供职...
-
Stable Diffusion 解析:探寻 AI 绘画背后的科技神秘
AI 绘画发展史 在谈论 Stable Diffusion 之前,有必要先了解 AI 绘画的发展历程。 早在 2012 年,华人科学家吴恩达领导的团队训练出了当时世界上最大的深度学习网络。这个网络能够自主学习识别猫等物体,并在短短三天时间内绘制出了一...
-
使用纹理对比度检测检测AI生成的图像
在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像。 大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。 但是这篇论文“Rich an...
-
一文总结扩散模型(Diffusion Model)在时间序列中的应用
扩散模型是目前生成式AI中的最核心模块,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时,扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路,以及几篇扩散模型用于时间序列的典型工作,带你...
-
Stability AI发布3D生成模型TripoSR 不用1秒就能生成高质量3D模型
Stability AI 和 Tripo AI 昨晚联合发布了一款名为 TripoSR 的3D 生成模型。这款模型能够在不到1秒的时间内生成高质量的3D 模型,这一创新技术的推出无疑将为3D 建模领域带来革命性的变革。 TripoSR 的推理过程只需要极低...
-
央视财经推出两会AI主播,蚂蚁灵境数字人平台技术支持
还记得杭州亚运会开幕式点燃主火炬环节,让世界惊艳的“数字火炬手”吗?如今,用“同款”技术打造的AI主播在央视财经亮相了! (央视财经客户端上线两会AI主播) 今年两会,央视财经新媒体以总台央视主持人郭若天、孟湛东为原型“复刻”了AI主播——小天、小东。两...
-
Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,...
-
今日AI:多模态大模型Claude3发布;Gorq API开放申请;ChatGPT新增朗读功能;Stability AI发布SD3技术报告
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 Claude3正式...
-
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR
最近,文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮,模型的多模态能力引起广泛关注。 现在,AI 模型在 3D 内容生成方面又有了新突破。 专长于视觉内容生成的 Stability AI 继图片生成(Stable Difussion 3 上线...