-
AIGC时代,大模型微调如何发挥最大作用?
人工智能的快速发展推动了大模型的广泛应用,它们在语言、视觉、语音等领域的应用效果已经越来越好。但是,训练一个大模型需要巨大的计算资源和时间,为了减少这种资源的浪费,微调已经成为一种流行的技术。微调是指在预训练模型的基础上,通过在小数据集上的训练来适应新的任...
-
Linux 中的机器学习:Whisper——自动语音识别系统
Whisper 是一种自动语音识别 (ASR 系统,使用从网络收集的 680000 小时多语言和多任务数据进行训练,Whisper 由深度学习和神经网络提供支持,是一种基于 PyTorch 构建的自然语言处理系统,这是免费的开源软件。 安装Whisp...
-
简单尝试:ChatGLM-6B + Stable diffusion管道连接
核心思想是: 1. 抛去算法设计方面,仅从工程角度考虑的话,Stable diffusion的潜力挖掘几乎完全受输入文字影响。 2. BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型",思路简单清晰,收益明显。LLM + Stable d...
-
使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI
Whisper AI 是一种语音识别和转录软件,它使用人工智能 (AI 将口头语言转换为书面文本。它旨在通过消除手动转录语音内容的需要来帮助个人和企业节省时间并提高工作效率。在下文中,您将学习如何使用 Whisper AI! 该软件能够识别和转...
-
快速上手midjourney绘画:个人头像篇
这段时间,AI技术发展迅猛,gpt的语言表达已经可以看出来了,而AI绘画技术也非常厉害,不需要懂得太多美术知识,只需要使用一些工具,就可以轻松地制作出个性化的图片。 今天,橘子想和大家分享一些个人头像制作的内容,你可以使用自己的照片和选择不同的风格和背景...
-
探索AIGC人工智能(Midjourney篇)(四)
文章目录 Midjourney模特换装 Midjourney制作APP图标 Midjourney网页设计 Midjourney如何生成IP盲盒 Midjourney设计儿童节海报 Midjourney制作商用矢量插画 Midjou...
-
语音识别神器 Whisper 的几个小技巧
1、前言 OpenAI开源的免费离线语音识别神器Whisper,我在安装使用后发现一些问题,于是搜了半天最终汇总了这几个主要的小技巧,希望对大家有帮助,不用满世界再搜了。 我主要用于中文的识别,所以就只说中文相关的了,我的环境是: 系统:Ubunt...
-
Stable Diffusion WebUI 图生图 DeepBooru反推提示词 结果翻车了
图生图界面,上传图片,点击“DeepBooru反推提示词” 图形界面没有反应,终端日志 Downloading: "https://github.com/AUTOMATIC1111/TorchDeepDanbooru/releases/downl...
-
【开源工具】使用Whisper提取视频、语音的字幕
这里写目录标题 一、语音转字幕操作步骤 1、下载安装包Assets\WhisperDesktop.zip[^2] 2、加载模型 2.1 下载模型 2.1.1 进入Hugging Face[^3]的仓库 2.1.2 选择需要下载的模型 2....
-
whisper 语音识别项目部署
1.安装anaconda软件 在如下网盘免费获取软件: 链接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取码:hfnd 2.使用conda命令创建python3.8环境 conda create...
-
用上这个工具包,大模型推理性能加速达40倍
英特尔® Extension for Transformer是什么? 英特尔® Extension for Transformers[1]是英特尔推出的一个创新工具包,可基于英特尔® 架构平台,尤其是第四代英特尔® 至强® 可扩展处理器(代号Sapp...
-
神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---基础篇
最近在做神经网络的研究,偶然间看到OpenAI开源出了一个多国语音转文字的模型,脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“???”和“!!!”,于是决定做一个多国语音转简体中文字幕的软件来玩一玩。 想法是这样的:通过OpenAI最新发...
-
whisper large-v3 模型文件下载链接
#源码里找到的 _MODELS = { "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d882...
-
【AI绘画】云服务器部署stable-diffusion-webui保姆级教程
1.背景 之前给大家写过Mac苹果笔记本上部署stable-diffusion-webui的教程,知乎链接:【奶奶看了也不会】AI绘画 Mac安装stable-diffusion-webui绘制AI妹子保姆级教程 但是安装过程就花了一天的时间,各种问...
-
Midjourney 文本转图片接口请求参数
Midjourney 文本转图片接口提供了多个参数来控制生成图片的风格,包括文字样式、背景颜色、字体大小、字体颜色等,下面我将详细列出完整的参数列表: 文字样式相关参数 text:需要转换成图片的文本内容,必填参数。 font_size:文本字...
-
Llama 2 来袭 - 在 Hugging Face 上玩转它
? 宝子们可以戳 阅读原文 查看文中所有的外部链接哟! 引言 今天,Meta 发布了 Llama 2,其包含了一系列最先进的开放大语言模型,我们很高兴能够将其全面集成入 Hugging Face,并全力支持其发布。Llama 2...
-
【whisper】在python中调用whisper提取字幕或翻译字幕到文本
最近在做视频处理相关的业务。其中有需要将视频提取字幕的需求,在我们实现过程中分为两步:先将音频分离,然后就用到了whisper来进行语音识别或者翻译。本文将详细介绍一下whisper的基本使用以及在python中调用whisper的两种方式。 一、...
-
openai的whisper语音识别介绍
openAI发布了chatgpt,光环一时无两。但是openAI不止有这一个项目,它的其他项目也非常值得我们去研究学习。 今天说说这个whisper项目 https://github.com/openai/whisper ta是关于语音识别的。它提出了...
-
Codewhisperer 使用评价
最近亚⻢逊推出了一款基于机器学习的 AI 编程助手 Amazon CodeWhisperer,可以实时提供代码建议。在编写代码时,它会自动根据现有的代码和注释给出建议。Amazon CodeWhisperer 与GitHub Copilot类似,主要的功能...
-
在线试用Stable Diffusion生成可爱的图片
文章目录 一、 Stable Diffusion 模型在线使用地址: 二、模型相关版本和参数配置: 三、图片生成提示词与反向提示词: 提示词1 提示词2 提示词3 提示词4 提示词5 一、 Stable Diffusion 模型...
-
神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)
上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题: 处理速度慢。 存在幻听现象,字幕准确度不太理想。 要安装比较多的环境才能运行,对一般用户不太友好。 本篇文章将逐一介绍解决...
-
要点初见:Stable Diffusion NovelAI模型优质文字Tag汇总与实践【魔咒汇总】
目前贴吧、B站上有大量Stable Diffusion的模型资源、TAG、TAG生成器分享,其中居然有不少试图靠信息差把这些开源资源卖钱的。加上目前网上相关的TAG整理贴极少,不少TAG也是以图片的形式存在,故博主打算在此专门整理一下网友们实践过的成套的“...
-
stable-diffusion领域prompt集合
有什么写实的stable diffusion模型? - 知乎试了试这个模型,感觉勉强,大佬们知道有没有更写实的模型?https://huggingface.co/CompVis/stable-diff…https://www.zhihu.com/quest...
-
whisper语音识别部署及WER评价
1.whisper部署 详细过程可以参照:? 创建项目文件夹 mkdir whisper cd whisper conda创建虚拟环境 conda create -n py310 python=3.10 -c conda-forge...
-
Stable Diffusion 本地部署教程不完全指南
ChatGPT免费体验入口网址 http://chat.xutongbao.top 参考链接: ERROR: Could not find a version that satisfies the requirement torch==...
-
[stable-diffusion-art] 指北-2 如何为sd提出好的prompt
https://stable-diffusion-art.com/how-to-come-up-with-good-prompts-for-ai-image-generation/https://stable-diffusion-art.com/how-t...
-
AI 绘画Stable Diffusion 研究(十七)SD lora 详解(上)
大家好,我是风雨无阻。本期内容: Lora的原理是什么? Lora如何下载安装? Lora如何使用? 大家还记得 AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解 这篇文章中,曾简单介绍了Lora的安装和使用吗 ?...
-
stable diffusion windows本地搭建的坑,及太乙stable diffusion中文的搭建
刚刚2小时前,我搭好了,欣喜若狂,开放端口,同事也尝试了。我的配置 16G内存,AMD卡,有gpu但是没有用。这里不说具体步骤,只说坑点。 首先就是安装gfpgan、clip、openclip问题,我参考了两篇文章,很重要 https://zhuan...
-
AI绘图提示词系列-提示词表(Stable Diffusion Prompt 设计师操作手册)
反向常用: ((nsfw ,((ugly ,(((duplicate ,((morbid ,((mutilated ,(((tranny ,(((trans ,((trannsexual ,(((mutation ,(((d...
-
利用 Amazon CodeWhisperer 激发孩子的编程兴趣
我是一个程序员,也是一个父亲。工作之余我会经常和儿子聊他们小学信息技术课学习的 Scratch 和 Kitten 这两款图形化的少儿编程工具。 我儿子有一次指着书房里显示器上显示的 Visual Studio Code 问我,“为什么我们...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
ubuntu使用whisper和funASR-语者分离-二值化
文章目录 一、选择系统 1.1 更新环境 二、安装使用whisper 2.1 创建环境 2.1 安装 2.1.1安装基础包 2.1.2安装依赖 3测试1 3测试2 语着分离 创建代码 `报错ModuleNotFoundError: N...
-
【腾讯云 HAI域探秘】浅尝一番AI绘画
前言 腾讯云高性能应用服务 HAI 是为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。 我之前也参与锅一个AI绘画的活动,是基于InsCode的,都可以在线训练大模型,开发自己的AI应用程序。 这次腾讯云提供的AI模...
-
申请GitHub学生认证,免费使用GitHub Copilot
申请GitHub学生认证 Request a discount - GitHub Education Github学生认证 + Copilot,这一篇就够了!_ziao-liu的博客-CSDN博客https://blog.csdn.net/weixin...
-
NoveAI本地环境搭建、AI作画
鉴于按照别人的教程安装过程中遇到各种问题,极其痛苦,所以还是自己也整理总结一份. 1 diffusion vs GAN 所谓扩散算法diffusion是指先将一幅画面逐步加入噪点,一直到整个画面都变成白噪声。记录这个过程,然后逆转过来给AI学习。...
-
图像相似度比较之 CLIP or DINOv2
在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界...
-
python语音识别whisper
一、背景 最近想提取一些视频的字幕,语音文案,研究了一波 二、whisper语音识别 Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。 stable-...
-
whisper.cpp在Windows VS的编译
Whisper是OpenAI开源的一款语音识别的模型,包含有英语和多国语言的模型,根据实际情况来看,其支持的90多种语言的准确率着实表现惊艳,英文甚至可以做到3%左右的误词率,官方图表显示中文的误词率大约是14%,但是实际使用的情况来看,误词率也是相当低,...
-
stable diffusion实践操作-常见lora模型介绍
系列文章目录 本文专门开一节写Lora相关的内容,在看之前,可以同步关注:stable diffusion实践操作 文章目录 系列文章目录 前言 一、什么是lora? 1.1 lora 定义 1.2 lora的基本原理 1.2 通...
-
【计算机视觉】手把手教你配置stable-diffusion-webui进行AI绘图(保姆级教程)
文章目录 一、前言 二、本地化部署的要求 三、使用的项目Stable diffusion WebUI项目 四、电脑环境配置 4.1 安装Anaconda 4.2 看版本 4.3 配置库包下载环境,加快网络速度 4.4 创建环境 4.5 激活环...
-
【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法
目录 学前视频 0.本章素材 1.图生图是什么 2.图生图能做什么 3.如何使用图生图 4.功能区域 4.1.提示词区域 4.2.图片提示词反推区域 1.CLIP反推 2.DeepBooru 反推 4.3.图片上传区域 4.4.结...
-
whisper部署与使用
介绍 whisper介绍 Whisper由OpenAI发布于2022/9/21相较于ChatGPT(2022/11/30 早了两个半月。虽然影响力无法匹敌ChatGPT,但是其内在价值仍不可忽视。 Whisper的核心功能是语音识别,对应生活中可以...
-
AIGC:使用bert_vits2实现栩栩如生的个性化语音克隆
1 VITS2模型 1.1 摘要 单阶段文本到语音模型最近被积极研究,其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展,但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2,一种单阶段的文本到语音模型,...
-
faster-whisper-webui
摘要 whisper开源之后,很多相关的衍生产品也开源了,比如faster-whisper,它是一个比whisper转录更快的技术实现,转录速度是whisper的4倍,并且占用的显存更少,占用显存是whisper的1/2。而我们这次要讲的是faster...
-
抢先微软,Google版Copilot上线!谷歌宣布给Google全家桶开放Bard功能
夕小瑶科技说 原创 作者 | 智商掉了一地、兔子酱 就在本月 5 号,Bard 和 Google Workspace 同步更新了一则新闻,宣布 Workspace 的团队用户即日起可以申请体验由 Bard 大模型驱动的生成式 AI 工具。...
-
AI绘画——Checkpoint模型Dark Sushi Mix 大颗寿司Mix
目录 版本解析 模型简介 模型特性 模型演示(多图预警) Picture One 正面tag: 负面tag: Checkpoint模型darkSushiMixMix+无Vae Checkpoint模型darkSushiMixMix+V...
-
OpenAI Whisper中文语音识别效果尝试和应用(一)
近期,OpenAI发布了Whisper语音识别模型,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。出于对自动语音识别的兴趣,本人对此进行了一些尝试,看看它对中文语音识别的效果。 本内容仅供对语音识别有兴趣或者仅仅...
-
本地部署 Whisper 及 WhisperDesktop
本地部署 Whisper 及 WhisperDesktop 1. 什么是 Whisper 2. Github 地址 3. 创建虚拟环境 4. 安装 ffmpeg 5. 部署 Whisper 6. 使用 Whisper (20230514追加 W...
-
微调Whisper语音识别模型和加速推理
前言 OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对W...
-
.Net 使用OpenAI开源语音识别模型Whisper
.Net 使用OpenAI开源语音识别模型 Whisper 前言 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音...