-
音频转文本--我们选择faster-whisper
faster-whisper能用来做什么? 可以将视频文件中的音轨自动转换为文字。 所以,字幕组是要失业了么? 试试看吧,看看转化效果如何。 使用faster-whisper,最好选择python3...
-
AI绘画ComfyUI-插件-面部修复,快速入门安装使用!
大家好,我是程序员晓晓 这期给大家分享一个插件AI绘画 ComfyUI的——Impact Pack ComfyUI也是隶属于Stable Diffusion的工作流形式的AI绘画工具。如果你是新手入门AI绘画,建议你先使用Stable Diffusio...
-
喜大普奔,AI绘画SD3终于开源了,AI绘画又添新利器!【附模型下载和安装包】
sd3终于开源了! 没错就是stablediffusion 3.0版本!这是stability迄今为止最先进最复杂图像生成模型。 这次开源的是medium版本,总共有三个型号的模型,下面我们来详细的说下sd3的功能特点以及不同型号区别、安装方法! 首...
-
使用 LLaMA-Factory 实现对大模型函数调用功能
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集: 《大模型面试...
-
[AIGC] 深入理解拓扑排序
文章目录 一. 什么是拓扑排序? 二. 拓扑排序的应用 三. 拓扑排序的算法过程 四、leetcode 1. 课程表 II(LeetCode 题号:210) 2. 课程表 III(LeetCode 题号:1136) 3. 课程表 III(L...
-
通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践
Qwen2(通义千问2)是阿里云最近推出的开源大型语言模型系列,相比2月推出的Qwen1.5,Qwen2实现了整体性能的代际飞跃,大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中,Qwen2系列包含5个尺寸的预训练和指令微调模型,Qwen2-0...
-
Stable Diffusion web UI 安装、启动脚本、插件(Debian12)
一、Debian12安装 教程很多,这儿就不详细说明啦,小编使用的是“debian-12.5.0-amd64-DVD-1.iso”。 二、换源 Debian12需要先换源,才能在安装第三方包时不出现报错 。 1、备份当前镜像源 cp /etc/...
-
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代 关键词:Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率 原...
-
LlamaFactory-Ollama-Langchain大模型训练-部署一条龙
前言 近些日子,大模型火的一塌糊涂,那么现在就有义务要学习一套好用的、从 dataset --> train --> deploy 的一整套流程,好拿来装逼。话不多说,进入正题 Train 框架 目前好用的框架太多,如BELLE, C...
-
Stable Diffusion XL网络结构-超详细原创
强烈推荐先看本人的这篇 Stable Diffusion1.5网络结构-超详细原创-CSDN博客 1 Unet 1.1 详细整体结构 1.2 缩小版整体结构 以生成图像1024x1024为例,与SD1.5的3个CrossAttnDownBlo...
-
stable diffusion 1.x 模型训练概述
本文主要介绍sd发展的第一阶段版本的模型架构和一些微调训练方法,后续版本SDXL,LCM 版本再写文章继续介绍 SD 1.x 版本模型结构 autoencoder(VAE :encoder将图像压缩到latent空间,而decoder将latent解码...
-
【AIGC】HF-Mirror 使用说明(MacOS 版)
今天这篇文章主要是记录 HF-Mirror 的使用过程,官网上提供了 Linux 和 Windows 的使用方式。本人作为 MacOS 用户也将自己的使用办法记录一下,希望能够帮助到其他人。 HF-Mirror 是什么? HF-Mirror 是大神...
-
本地搭建LLaMA-Factory环境进行大模型调优
LLaMA Factory LLaMA Factory快速对大模型进行快速调优,本文看一下如何本地搭建环境并调优,本文使用 ModelScope 社区中的模型,模型在国内,下载速度非常友好。 下载最新代码 ## LLaMA Factory官方 git...
-
用AI制作历史解说视频:GPT + MidJourney + PiKa + FunSound + 剪映
1. 项目介绍 最近某站看到一个看到利用AI创作视频解说,成品画面很酷炫。对此以初学者视角进行复现,创意来源:用AI制作历史解说视频 2. 开始创作 我们参照原作者展示的内容,对古代人物屈原来生成解说视频。 2.1 故事脚本+分镜 【由GP...
-
Llama 3-V:以100倍小的模型和500美元匹敌GPT4-V视觉模型
概述 Llama3 的横空出世震惊了世界,它在几乎所有基准测试中都超越了 GPT-3.5,并在一些方面超越了 GPT-4。随后,GPT-4o 的出现凭借其多模态能力再次夺回了王座。今天,我们发布了一个改变现状的产品:Llama3-V,这是首个基于 Ll...
-
Llama 3-V: 比GPT4-V小100倍的SOTA
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的A...
-
AI绘画:实例-利用Stable Diffusion ComfyUI实现多图连接:区域化提示词与条件设置
在Stable Diffusion ComfyUI中,有一种高级技巧可以让用户通过细致的区域化提示词来控制图像的不同部分,从而实现多图连接的效果。这种方法允许艺术家在同一画布上展现多个场景,创造出富有层次和故事性的图像。以下是实现这一效果的详细步骤。 步...
-
Midjourney-功能汇总**
出图 1. 出图的三种方式 1.1 纯文本提示词 1.2 垫图出图 2. 如何批量下载所出的图 3. /setting 设置 3.1 MJ版本出图(v1-v6) 3.2 Raw 照片写实 3.3 Stylize 画面艺术程度 --s {0...
-
Stable Diffusion 3 如何下载安装使用及性能优化
Stable Diffusion 3 Stable Diffusion 3(SD3),Stability AI最新推出的Stable Diffusion模型系列,现在可以在Hugging Face Hub上使用,并且可以与Diffusers一起使用。...
-
原来Stable Diffusion是这样工作的
stable diffusion是一种潜在扩散模型,可以从文本生成人工智能图像。为什么叫做潜在扩散模型呢?这是因为与在高维图像空间中操作不同,它首先将图像压缩到潜在空间中,然后再进行操作。 在这篇文章中,我们将深入了解它到底是如何工作的,还能够知道文生图...
-
安装stable diffusion,加载模型报错:AttributeError: ‘NoneType‘ object has no attribute ‘lowvram‘ 的解决办法
Windows中安装stable diffusion流程(使用原始方法、非整合包快捷安装): 实验机器配置: OS:Win10 64bit;CPU:i5 4.1GHz 12核;内存32G;显卡NVIDIA Quadro P1000 4G显存 参考...
-
Stable Diffusion安装记录II
文章目录 前言 0 更改python路径(跳过) 1 Torch is not able to use GPU 1.1 确认显卡 1.2 安装nvdia驱动 1.3 检查CUDA 1.4更改启动脚本 2 依赖安装 2.1 pip inst...
-
SD3开源:AI绘画的新纪元,出图效果巨好,不容错过!(附教程)
大家好,我是画画的小强。 这两天,Stability AI 将史上最牛的AI绘画模型SD3开源了,真是有格局! 虽说只是中杯的20亿参数版本,但我已经很满足了,再高的版本,我这普通的16G 4070Ti Super 显卡也跑不起来… 话不多说,这...
-
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全
Stable Diffusion 一、**文生图入门与提示词基础** 采样工具介绍 1.提示词权重语法 2.负面提示词 3.参数设置 二、提示词六要素 1685612692298.png 三、通用反向提示词 四、随机种子使用示例 获取随机...
-
老电脑焕发第二春,玩转 Stable Diffusion 3
几年前,我头脑一热,配置了一台顶配级消费 PC(RTX 2080 Ti GPU + i9 CPU),打算用来学习 AI。然而,起初我并没有找到合适的切入点。深度学习早期阶段,消费级显卡根本无法承担训练大模型、微调大模型,甚至连运行大模型都很吃力。结果...
-
llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验
Chatgpt的出现给NLP领域带来了让人振奋的消息,可以很逼真的模拟人的对话,回答人们提出的问题,不过Chatgpt参数量,规模,训练代价都很昂贵。 幸运的是,出现了开源的一些相对小的模型,可以在本地或者云端部署体验, 动手体验了下Vicuna-7b...
-
Diffusion Model原理及Stable Diffusion
什么是扩散(diffusion)? 扩散一词来自非平衡热力学(non-equilibrium thermodynamics),在非平衡热力学中扩散过程指的是:“在浓度梯度的驱动下,颗粒或分子从高浓度区域移动到低浓度区域。” 什么是扩散模型(di...
-
Stable Diffusion | Gradio界面设计及API调用
Stability AI 2024年2月发布了 Stable Cascade 模型,但由于该模型较大(fp32格式的 Stage_A + Stage_B + Stage_C 模型超过20GB,ComfyUI 专用 Stage_B + Stage_C 模型也...
-
【大模型部署】在C# Winform中使用文心一言ERNIE-3.5 4K 聊天模型
【大模型部署】在C# Winform中使用文心一言ERNIE-3.5 4K 聊天模型 前言 今天来写一个简单的ernie-c#的例子,主要参考了百度智能云的例子,然后自己改了改,学习了ERNIE模型的鉴权方式,数据流的格式和简单的数据解析,实现了在...
-
部署Video-LLama遇到的坑
环境:linux,conda,python 3.10下载:下载时首先在中国直接拉去huggingface的git链接很大概率上实行不同的因为被ban了,如果想下载只能找镜像网站。镜像网站比如modelscope就非常好用,魔搭社区网速非常快!我这边使用的是...
-
ubuntu部署stable-diffusion-webui
1、下载stable-diffusion-webui 我这里使用的是阿里的oss缓存,可以直接下载 wget https://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/aigc-data/code/...
-
不管黑丝或者白丝还是想撕坏它,都可以用LoRA(Stable Diffusion进阶篇:ComfyUI 附加网络)
先来几张图 现在来教教大家怎样做出这样的图片 在学习WebUI的那些基础知识点的时候,有一个东西是每一个初学者都绕不开的大山-附加网络。 这个东西对于每一个接触Stable Diffusion的小伙伴来说就像是小学门口小卖部卖的辣条、初中课本上的涂...
-
LLaMA-Factory微调多模态大语言模型教程
本文旨在结合笔者自身的实践经历,详细介绍如何使用 LLaMA-Factory 来微调多模态大语言模型。目前仓库已支持若干流行的MLLM比如LLaVA-1.5,Yi-VL,Paligemma等。 2024.5.29 注:本文后续不再更新,如果想了解更新的特...
-
在Windows下搭建Stable Diffusion环境中途出错咋弄?
在Windows下搭建Stable Diffusion环境需要以下几个步骤: 安装Git和Anaconda 首先,确保你的计算机上已经安装了Git和Anaconda。如果没有安装,可以分别访问官方网站进行下载和安装: Git: https://git...
-
AIGC从入门到实战:AIGC 在工业领域的创新场景—合成数据集,助力机器人产品研发
1. 背景介绍 随着人工智能技术的不断发展,越来越多的企业开始将其应用于工业领域,以提高生产效率和产品质量。在机器人产品研发中,数据集是非常重要的资源,但是获取真实的数据集往往需要耗费大量的时间和成本。因此,合成数据集成为了一种备受关注的解决方案。 合...
-
用 LLama-Factory 训练和微调 LLama3,打造你的专属 AI 模型!
用 LLama-Factory 训练和微调 LLama3,打造你的专属 AI 模型! 文章目录 用 LLama-Factory 训练和微调 LLama3,打造你的专属 AI 模型! 什么是模型微调? 为什么使用 LLama-Fact...
-
基于Llama 3的最强开源医疗AI模型OpenBioLLM-Llama3,刷新榜单
项目概述 OpenBioLLM-70B是一款先进的开源生物医学大型语言模型,由Saama AI实验室基于Llama 3技术精心开发并微调。此模型专为生物医学领域设计,利用尖端技术,在多种生物医学任务中实现了最先进的性能表现。 背景: Saam...
-
国内如何申请 Midjourney API (mj接口),一次教会你
众所周知Midjourney 并未提供API接口服务,那要如何才能使用Midjourney 的接口呢?通过千搜万搜终于让我找到一个这种平台,同时支持 Mid journey proxy Plus 以及 Mid journey proxy 接口协议,基本支持...
-
Stable Diffusion本地部署教程
0.介绍与版本 1)介绍 Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员在Latent Diffusion Model的基础上于2022年8月创建并推出。其核心技术源于A...
-
Llama 3超级课堂作业笔记
文章目录 基础作业 完成 Llama 3 Web Demo 部署 环境配置 下载模型 Web Demo 部署 对话截图 使用 XTuner 完成小助手认知微调 Web Demo 部署 自我认知训练数据集准备 训练模型 推理验证 使用...
-
【学习笔记】文生图模型——Stable diffusion3.0
2.0原理才看到VAE,sd3.0就发布了,虽然还没看到源码和详解,但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型(stable diffusion≈LDMs+CLIP) 2.stable diffusion3.0模型架构图...
-
Llama 3 构建语音助手:将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成
Llama 3 构建语音助手:将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成 文章目录 Llama 3 构建语音助手:将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成 不同行...
-
笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端
选择 Llama 3 模型版本(8B,80 亿参数) 特别注意: Meta 虽然开源了 Llama 3 大模型,但是每个版本都有 Meta 的许可协议,建议大家在接受使用这些模型所需的条款之前仔细阅读。 Llama 3 模型版本有几个,我们主要关注...
-
【全网瞩目】最强文生图模型,Stable Diffusion 3技术报告解禁
12号,终于在Hugging Face上出现了 Stable Diffusion 3 Medium。没错,正如他所承诺的,最强文生图模型真的开源了。而且此次开源不仅是以SD2的比较下性能得到了更好的升级,同时也向我们展示了最前沿的DiT技术——MMDiT。...
-
深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
原文:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识 Rocky的公众号:WeThinkIn Rocky的知乎:Rocky Ding 更多AI行业干货内容欢迎关注Rocky的CSDN、知乎、公众号~ 码字不易,希望大家...
-
Llama Factory 笔记
本地环境:cuda 11.7 torch2.1.0 项目文件结构: 1. 项目文件结构: 如果利用Llama Factory 进行微调主要会用到 LLama-Factory/src 中的文件 2. src 下的目录结构 本地推理的...
-
利用Python与Whisper革新视频翻译:打造高精度字幕翻译流程。
实现流程需要使用以下的工具。 1.python,需要自行安装, 2.python的音视频处理库moviepy安装 pip install moviepy 3.Whisper语音识别,在我之前的文章中有:Whisper语音识别安装教程。 4.文字翻...
-
Stable Diffusion初体验——基于机器学习通过神经网络的强大AI平台
文章目录 前言 最新热门活动!! 平台介绍 一.创建应用 Stable Diffusion WebUI 初始化 上传模型,VAE,lora 介绍sd模型,vae,lora模型 进入应用 文生图 工作区 调参区 图生图 结语 小程序活...
-
从论文中看AI绘画
个人博客:Sekyoro的博客小屋个人网站:Proanimer的个人网站 主要看是看Diffusion Models,CLIP,ControlNet,IP-Adapter这种经典论文,尝试总结论文写作的一些方式以及图像生成模型的一些内在思想. 对于其中的数...
-
AIGC |「多模态模型」系列之OneChart:端到端图表理解信息提取模型
论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chen...