-
搭建本地whisper语音识别
目录 代码仓库 编辑 选择模型 环境配置 语音识别测试 Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 代码仓库 GitHub - ope...
-
Meta Llama 3 来啦!性能算力究竟如何?
新一代大语言模型 Meta Llama 3 横空出世! 前言 就在4月19日,Meta公司推出了他们最新开源的大型语言模型(LLM Llama 3!这次的Llama 3包含了8B和70B两种不同参数规模的模型。那么作为Llama的第三代模型它...
-
好像也没那么失望!SD3玩起来,Stable Diffusion 3工作流商业及广告设计(附安装包)
今天基于SD3 base 工作流来尝试进行下广告设计,这要是一配上设计文案,视觉感就出来了。下面来看看一些效果展示~ SD3 Medium模型及ComfyUI工作流下载地址:文末领取! 1.清凉夏日——西瓜音乐会 提示词: a guitar with...
-
最强开源模型来了!一文详解 Stable Diffusion 3 Medium 特点及用法
前言 最强开源模型来了!一文详解 Stable Diffusion 3 Medium 特点及用法(附模型资源包) 大家好,我是AI绘画小33~ 备受期待的 Stable Diffusion 3(以下简称 “SD3”)终于向公众开放了,作为 Stab...
-
whisper.cpp 学习笔记
whisper.cpp whisper.cpp 学习笔记 whisper 介绍 源码下载 源码编译 支持的模型 优化/加速 生成库文件 使用 whispe.cpp 的 demo 参考文献 whisper.cpp 学习笔记...
-
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
⚡[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney 2024年6月12日,Stable Diffusion 3 Medium的开源代表了生成式 AI 发展的一个重要里程碑。 StableDiffu...
-
Stable-Diffusion 3 详细安装教程
文章目录 1、下载 ComfyUI 控制面板 1.1 如何打开ComfyUI 2、下载大模型 2.1 下载Stable-Diffusion 3 大模型 2.2 下载其它模型 3、下载 ComfyUI 汉化包 3.1 如何设置使用 4、亲身示...
-
2024最新Stable Diffusion【插件篇】:SD提示词智能生成插件教程!
前言 今天我们介绍几款可以自动生成提示词的插件。所谓智能生成提示词,就是我们只需要输入非常少量的关键字,插件就会根据关键词提示信息帮助我们生成一系列关键字或者句子作为提示词。下面来和我一起看看吧。 一. SD智能提示词工具 之前的文章中和大家分享过...
-
[AI Stability] 开源AI新利器:Stable Diffusion 3 Medium震撼发布!文本到图像再升级!
Stable Diffusion 3 Medium(SD3 开源了,我们来看下。 关键要点 Stable Diffusion 3 Medium 是 Stability AI 迄今为止最先进的文本到图像开源模型。 该模型的体积小巧,非常适合在消费级...
-
Stable Diffusion 3 开源发布可下载体验
本文来自huggingface翻译 Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT 文本到图像模型,其在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。 有关更多技术细节,请参阅研究论文。 请注意:此...
-
AI绘画Stable Diffusion到底有几个版本?超全SD历史发布版本优缺点解析
大家好,我是设计师阿威 Stable Diffusion 在推出短短两年间已经发布了多个版本,最为人熟悉的就是 Stability AI 推出的 1.5 和 SDXL。那么除此之外,还有哪些版本呢?让我们从最初 Stable Diffusion 的起源开...
-
文生图王者登场:Stable Diffusion 3 Medium正式开源
今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。 6月12日,Sta...
-
Stable Diffusion 3 文本生成图像 在线体验 原理分析
前言 本文分享使用Stable Diffusion 3实现文本生成图像,可以通过在线网页中免费使用的,也有API等方式访问。 同时结合论文和开源代码进行分析,理解其原理。 Stable Diffusion 3是Stability AI开发的最新、最先...
-
【AIGC半月报】AIGC大模型启元:2024.06(上)
AIGC大模型启元:2024.06(上) (1 ChatTTS(语音合成项目) (2 Mamba-2(大模型新架构Mamba升级) (3 GLM-4 9B(智谱开源LLM) (4 Seed-TTS(字节语音合成) (5 QWen2(阿...
-
欢迎 Stable Diffusion 3 加入 Diffusers
作为 Stability AI 的 Stable Diffusion 家族最新的模型,Stable Diffusion 3(SD3 现已登陆 Hugging Face Hub,并且可用在 ? Diffusers 中使用了。 Stable Dif...
-
Stable Diffusion 3 大模型文生图“开源英雄”笔记本部署和使用教程,轻松实现AI绘图自由
备受期待的Stable Diffusion 3(以下亦简称SD3)如期向公众开源了(Stable Diffusion 3 Medium),作为Stability AI迄今为止最先进的文本生成图像的开源大模型,SD3在图像质量、文本内容生成、复杂提示理解和资...
-
【ComfyUI】Stable Diffusion 3 加Controlnet
基于 instantX-research/diffusers_sd3_control: ? Diffusers: State-of-the-art diffusion models for image and audio generation in PyT...
-
AI绘画Stable Diffusion SDXL 最新万能大模型更新!高质量“万能”大模型筑梦工业XLV5.0来啦!!
大家好,我是向阳 关于“筑梦工业”模型,相信了解AI绘画的家人们应该并不陌生,我个人觉得是一款不错的“万能”类型的大模型。今天就给大家带来了该模型的最新版本——**Dream Tech XL | 筑梦工业XL v5.0 - 与光同尘。**该模型于5月27...
-
【小沐学AI】Python实现语音识别(faster-whisper)
文章目录 1、简介 1.1 CTranslate2 1.2 Intel MKL 1.3 cuDNN 1.4 Transformer 2、下载和安装 2.1 命令行 2.2 代码 3、模型下载 3.1 在线测试 3.1.1 tiny...
-
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
目录 一、引言 二、FFmpeg工具介绍 2.1 什么是FFmpeg 2.2 FFmpeg核心原理 2.3 FFmpeg使用示例 三、FFmpeg+Whisper二阶段法视频理解实战 3.1 FFmpeg安装 3.2 Whisper模型下载...
-
掌握Midjourney视觉艺术的关键提示词指南
在数字艺术的海洋中,Midjourney以其独特的图像生成能力脱颖而出,为艺术家和创意工作者提供了前所未有的创造自由。要真正掌握这一工具,理解并有效使用各种提示词至关重要。本文将深入探索Midjourney中的“风格关键词”、“场景关键词”、“视觉关键词”...
-
Stable Diffusion 3上线:登顶最强开源AI绘画模型,笔电手机都能跑丨大量实测
万众瞩目的Stable Diffusion 3终于正式开源了! 目前开源的是20亿参数的版本,据悉之后还会开源40亿和80亿的“大杯”与“超大杯”。 最近母公司Stability AI的坏消息连连,据传账面现金都不够支付算力服务器的租赁费。 欠债一亿...
-
AI绘画人物(头像)设计提示词大全
1、 年龄性别 age sex 中文 英文 中文 英文 幼年,男 Childhood, male 少年,女 Adolescence, female 幼年,女 Childhood, female 青年,男 Youth, male 少年,男...
-
Whisper.cpp 0基础搭建音频文件转文字(Windows下C++)
介绍 whisper.cpp是一个开源项目,它是对OpenAI的Whisper模型的C/C++移植实现。 OpenAI的Whisper是一个自动语音识别(ASR)系统,经过大量多语言和多任务的监督数据训练,能够进行多语言语音识别、语音翻译和语言识别等任...
-
Stable Diffusion 3 大模型文生图实践
windows教程2024年最新Stable Diffusion本地化部署详细攻略,手把手教程(建议收藏!! _stable diffusion 本地部署-CSDN博客 linux本地安装教程 1.前期准备工作 1)创建conda环境 cond...
-
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
目录 一、引言 二、Whisper 模型原理 2.1 模型架构 2.2 语音处理 2.3 文本处理 三、Whisper 模型实战 3.1 环境安装 3.2 模型下载 3.3 模型推理 3.4 完整代码 3.5 模型部署 四、总结...
-
AI绘画SD3已来,本地首发实测体验,含本地部署说明(内附网盘模型及ComfyUI工作流下载)
大家好,我是画画的小强 SD3已来,Stability AI 此前宣布SD3将于6月12开源20 亿参数的SD3 模型SD3 Medium,昨天它已如期而至了。 根据官方内容所了解,SD3 Medium 可以说是目前很先进的文本到图像开放模型,包含 2...
-
Stable Diffusion 3 使用指南:安装与实例详解
Stable Diffusion 3 使用指南:安装与实例详解 Stable Diffusion 3(SD 3)终于来了!作为最新版本的图像生成模型,SD 3 在功能和性能上都有了显著提升。本文将带你深入了解 SD 3 的用法和安装指导,帮助你快速上手...
-
python AI应用之win10本地部署Whisper AI(视频/语音文件自动转字幕)
首先在win10上安装配置python,参考我这个帖子,点此进入 去git官网下载windows 版,安装git! 点此进入 然后安装whisper和openai-whisper : python -m pip install --upgrad...
-
喜大普奔,AI绘画SD3终于开源了,AI绘画又添新利器!【附模型下载和安装包】
sd3终于开源了! 没错就是stablediffusion 3.0版本!这是stability迄今为止最先进最复杂图像生成模型。 这次开源的是medium版本,总共有三个型号的模型,下面我们来详细的说下sd3的功能特点以及不同型号区别、安装方法! 首...
-
Stable diffusion 3 正式开源
6月12日晚,著名开源大模型平台Stability AI正式开源了,文生图片模型Stable Diffusion 3 Medium(以下简称“SD3-M”)权重。 SD3-M有20亿参数,平均生成图片时间在2—10秒左右推理效率非常高,同时对硬件的需求...
-
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代 关键词:Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率 原...
-
微软发布Phi-3 Mini,性能媲美GPT-3.5、Llama-3,可在手机端运行
前言 微软发布了最新版的Phi系列小型语言模型(SLM - Phi-3。这个系列包括3个不同参数规模的版本:Phi-3 Mini (38亿参数 、Phi-3 Small (70亿参数 和Phi-3 Medium (140亿参数 。 Phi系列模型是微...
-
Stable Diffusion提示词篇
【视觉描述】 正面面对 straight - on 侧边视角 from side 高位视角 from above 背后视角 from behind 背后焦点 back focus 低位视角 from below 侧下 from the Side below...
-
微软大模型phi-3速览-3.7B比llama-3 8B更好?
背景 模型发布者:Microsoft 模型发布时间:2024年4月23日 发布内容:介绍了phi-3系列语言模型,包括phi-3-mini、phi-3-small和phi-3-medium。 重点关注:整体性能可与 Mixtral 8x7B...
-
Midjourney + SD 做场景图太香了
Midjourney V6 生成的图片细节逼真,堪比真实摄影。它可以解决绝大多数商业上的场景图需求。从此再也不必专门为了场景而去拍摄照片了。资料在文末获取。 可是,光有场景很难实现商业上的落地。如何把产品很自然地融入其中才是关键!这时候 Stable D...
-
Stable Diffusion 3 如何下载安装使用及性能优化
Stable Diffusion 3 Stable Diffusion 3(SD3),Stability AI最新推出的Stable Diffusion模型系列,现在可以在Hugging Face Hub上使用,并且可以与Diffusers一起使用。...
-
Stable Diffusion 3 Medium 正式开源,用户对此产品评价如何?
前两天 Stability.AI 终于开源了 Stable Diffusion 3,虽然只是中杯的 Medium 版本,没有放出当初宣布的 8B 版本[1],但也在很多方面取得了进步。本想第一时间尝鲜测试,但这几天出差在外,使用颇不方便。 正好老朋友揽睿...
-
SD3开源:AI绘画的新纪元,出图效果巨好,不容错过!(附教程)
大家好,我是画画的小强。 这两天,Stability AI 将史上最牛的AI绘画模型SD3开源了,真是有格局! 虽说只是中杯的20亿参数版本,但我已经很满足了,再高的版本,我这普通的16G 4070Ti Super 显卡也跑不起来… 话不多说,这...
-
老电脑焕发第二春,玩转 Stable Diffusion 3
几年前,我头脑一热,配置了一台顶配级消费 PC(RTX 2080 Ti GPU + i9 CPU),打算用来学习 AI。然而,起初我并没有找到合适的切入点。深度学习早期阶段,消费级显卡根本无法承担训练大模型、微调大模型,甚至连运行大模型都很吃力。结果...
-
Stable Diffusion 字体和场景结合【把四季藏在海里】
把四季藏在海里,话不多说,上教程。 一、花瓣找字 打开花瓣找下字,也可以自己做,我不会,谢谢。本文用到的字,版权归原作者所有。 白底黑字:那么就是浪花占主要部分,字就是海的效果,但是黑字会导致海很暗。 蓝底蓝字:白色浪花占主要部分,字是...
-
Whisper开源免费的语音识别:OpenAI如何用AI改变字幕制作与语音理解的未来!
OpenAI的Whisper语音识别系统的用途广泛且强大,主要包括但不限于以下几点: 会议和讲座记录转写:Whisper可以帮助学生和职场人士快速将会议、讲座或课堂的录音转换成文字稿,便于复习、整理笔记或分享内容。 视频字幕生成:对于电影和电视节...
-
ChatGPT开源的whisper音频生成字幕
1、前言 好了,那接下来看一下whisper开源库的介绍 有五种模型大小,其中四种仅支持英语,提供速度和准确性的权衡。上面便是可用模型的名称、大致的内存需求和相对速度。如果是英文版的语音,直接想转换为英文。 本来我是想直接在我...
-
Stable Diffusion的本地部署教程
以下是在Windows 10电脑上的操作步骤: 一、下载安装包 从以下夸克网盘下载地址下载安装包到本地,地址如下: 链接:https://pan.quark.cn/s/7c51556d27eb 提取码:cFdx 输入提取码之后,界面如下图:...
-
Stable Diffusion 3 真正来了
在人工智能应用领域,文生图(Text-to-Image)一直是一个重要的研究领域。通过将文本描述转换为对应的图像,广泛应用在艺术创作、广告设计、游戏开发等工作中。 在众多的文生图模型中,Stable Diffusion 因其高质量的图像生成能力、...
-
CSDN首发!Stable Diffusion 3 Medium 开源,AI 生图格局迎来巨变
就在刚刚,Stable Diffusion 3 Medium 如约而至。 几天前,Stability AI 在社交平台 X 上官宣,SD3 Medium 将在 6 月 12 日正式开源。 这一次,没有跳票,它是真的来了。 20 亿参数大小,笔记本...
-
Midjourney绘画风格关键词总结
我们初次使用AI绘图时,可能会对如何使用关键词营造画面感到迷茫,很多参数需要在提示词中设置,尤其多小白来说不是很好友。所以,掌握一些简单的语法和技巧很重要,下面我们将根据不同的风格列举常用的高质量关键词。 1. 风格关键词 Ink style ...
-
Omost - 一句话即可AI绘画,自动生成关键词,本地一键整合包
近日,ControlNet的作者推出了一个全新的项目——Omost。这个项目对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词,就可以生成非常详细并且空间表现很准确的图片。划重点,这个项目需要8G显存显卡运行,据说老显卡,比如10系可能用不了,具体...
-
AI绘画工具Stable Diffusion【模型篇】:Embedding模型
大家好,我是画画的小强。 一. Embedding模型介绍 Embedding可以理解为一堆提示词的集合。它将很多的提示词汇总到一个文件里,我们需要的时候,只需要调用这个Embedding文件,就等同于输入了很多的提示词,对用户来说非常方便。 Emb...
-
Stable Diffusion【二次元模型】:质量高细节丰富的动漫风格大模型anima_pencil-XL
今天给大家介绍的是一个动漫风格的大模型anima_pencil-XL,这个模型出自一位日本的创作者。最早的版本是V1.0.0是今年1月份才发布的,短短的2个月已经更新了5个版本,最新的版本是V2.6.0,可见作者更新版本的频率有多高。 提到anima_p...