-
【AIGC】Diffusers:训练扩散模型
前言 无条件图像生成是扩散模型的一种流行应用,它生成的图像看起来像用于训练的数据集中的图像。通常,通过在特定数据集上微调预训练模型来获得最佳结果。你可以在HUB找到很多这样的模型,但如果你找不到你喜欢的模型,你可以随时训练自己的模型! 本教程将教您如何...
-
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...
-
奥特曼7万亿美元芯片帝国野心曝光,OpenAI日产1000亿单词欲接管全世界!
【新智元导读】Sam Altman表示,自己需要7万亿美元建起全球的芯片帝国,他已经在全球搜罗金主,包括中东土豪。 就在刚刚,Sam Altman发推表示: 如今,OpenAI每天能够创造出约1000亿字的内容,而全世界的人类每天总共能产生约100万亿字。...
-
微软开源 SliceGPT:大模型体量压缩25%左右,性能保持不变
微软和苏黎世联邦理工学院的研究人员联合开源了 SliceGPT,该技术可以极限压缩大模型的权重矩阵,将模型体量压缩25% 左右,同时保持性能不变。实验数据显示,在保持零样本任务性能的情况下,SliceGPT 成功应用于多个大型模型,如 LLAMA-270B...
-
AIGC从入门到精通
目录 1. 概述 2. 一键起飞 2.1 webui 2.2 基础用法 2.3 必装插件 2.4 Fooocus 2.5 diffusers 3 LoRA 3.1 原理 3.2 训练流程和准备 3.3 上手训练...
-
端到端纯视觉!OpenAI押注的人形机器人献艺拜年了
大过年的,OpenAI投资的人形机器人,通过最新视频拜年了(doge) 有俩人上来就表演了一个从货架取包裹,转身放进筐里: 镜头继续推进,旁边靠墙的两个机器人,在不停地将俄罗斯方块积木举起-丢下-再举起。 另一边,充好电的机器人,温柔地拔掉插销,微微半...
-
WhisperBot:整合了Mistral大型语言模型的实时语音转文本系统
项目简介 欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM 。WhisperLive 依赖于 OpenA...
-
Whisper 从0安装教程 windows
这里写自定义目录标题 Whisper 从0安装教程 windows 安装过程 安装python3.11 安装Anaconda 在Anaconda里面安装whisper 安装 ffmpeg 第一次运行whisper 检查GPU 一些弯路...
-
羊驼2:开放的基础和微调聊天模型--Llama 2论文阅读
论文地址:https://arxiv.org/pdf/2307.09288.pdfd 代码地址:GitHub - facebookresearch/llama-recipes: Examples and recipes for Llama 2 model...
-
利用python+whisper生成视频字幕文件
文章目录 前言 1.本地环境 2.安装所需要的库 3.导入相关库 4.获取指定路径下的所有视频文件 5.导入模型进行音频识别 6.将识别结果转换为srt字幕文件 7.完成代码 前言 最近在看一些网课,由于没有字幕看着非常费劲,需要...
-
深度学习系列56:使用whisper进行语音转文字
1. openai-whisper 这应该是最快的使用方式了。安装pip install -U openai-whisper,接着安装ffmpeg,随后就可以使用了。模型清单如下: 第一种方式,使用命令行: whisper japanese.wav...
-
引领AI创意教育新浪潮,瑞云AIGC实训平台解决方案来了
过去的2023年,AI(人工智能)成为了年度科技圈关键词,各行各业都在AI化,据统计,AIGC市场规模预计到2030年将达到万亿级别,这不仅是市场的趋势,更是创新的机遇。 教育行业更是如此,许多高校和职校引入了AIGC的课程,一些艺术和设计学院开始将AI...
-
Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0
最近使用pandagpt需要vicuna-7b-v0,重新过了一遍,前段时间部署了vicuna-7b-v3,还是有不少差别的,transforms和fastchat版本更新导致许多地方不匹配,出现很多错误,记录一下。 更多相关内容可见Fastchat实战...
-
如何在Linux上安装Stable Diffusion WebUI
Stable Diffusion WebUI是一个基于AUTOMATIC1111的stable-diffusion-webui仓库的项目,允许用户通过web界面轻松地生成AI驱动的图像。本文将指导您在Linux系统上完成Stable Diffusion W...
-
stable diffusion微调总结
stable diffusion微调总结 stable diffusion 模型类别: SD SD2 SDXL SDXL LCM(潜在一致性模型) SDXL Distilled SDXL Turbo 安装accelerate 通过pip...
-
实战whisper:本地化部署通用语音识别模型
前言 Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 这里呢,我将给出我的一些代码,来帮助你尽快实现【语音转文字】的服务部署...
-
Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度
概述 Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题,Stable Diffusion 采用了多种方式来加速图像生成,使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的...
-
llama/llama2论文解读
llama 摘要 llama在约1.4T的token上,训练出参数量7B到65B的模型,其模型规模如下 在仅使用开源数据集的情况下,llama-13B在多数benchmarks上与GPT-3效果相当;llama-65B也与最好的模型(Chin...
-
2023年的深度学习入门指南(19) - LLaMA 2源码解析
2023年的深度学习入门指南(19 - LLaMA 2源码解析 上一节我们学习了LLaMA 2的补全和聊天两种API的使用方法。本节我们来看看LLaMA 2的源码。 补全函数text_completion源码解析 上一节我们讲了LLaMA 2的...
-
这篇深入浅出贴 助你早日实现Stable diffusion自由
我也不想标题党,可它们就是好萌啊!看看下面这些你认识多少? 我是憨憨,一个不会画画的设计师。过去半年里,AI绘画曾经多次引爆公众讨论,网络上那些精致的二次元同人插画、堪比真人的AI穿搭博主、打破次元壁的赛博Coser……背后都有一个“幕后黑手” —— S...
-
(2023.12.6)解决部署privateGPT中,安装依赖llama-cpp-python失败。
问题描述-1(gcc编译器问题) CMake Error: CMAKE_C_COMPILER not set, after EnableLanguage CMake Error: CMAKE_CXX_COMPILER not set, after E...
-
本地运行LlaMA 2的简易指南
大家好,像LLaMA 2这样的新开源模型已经变得相当先进,并且可以免费使用。可以在商业上使用它们,也可以根据自己的数据进行微调,以开发专业版本。凭借其易用性,现在可以在自己的设备上本地运行它们。 本文将介绍如何下载所需的文件和LLaMA 2模型,以运行C...
-
27|从Midjourney开始,探索AI产品的用户体验
学到这里,这个课程终于到了尾声。过去的二十多讲里,我们围绕着文本、语音、视频、图像体验了大量的 AI 应用场景。不过在这些场景里,我们还只是通过撰写代码体验了 AI 的能力。那么,如果我们今天想通过学习到的这些知识,开发一个真正的 AI 应用,需要注意些什...
-
超详细!AI 绘画神器 Stable Diffusion 基础教程
一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。如果要在实际工作场景中应用,我更推荐 Stable Diffusi...
-
AI绘画:PhotoMaker Win11本地安装记录!
昨天介绍一个叫PhotoMaker的AI绘画开源项目。挺不错的! 通过这个项目可以快速制作特定人脸的AI绘画作品,相比传统的技术效果会好很多,效率也高很多。 今天趁热打铁,本地电脑装装看,并且记录,分享一下! 本文主要面向有一定配置基...
-
Faster-Whisper 实时识别电脑语音转文本
Faster-Whisper 实时识别电脑语音转文本 前言 项目 搭建环境 安装Faster-Whisper 下载模型 编写测试代码 运行测试代码 实时转写脚本 实时转写WebSocket服务器模式 参考 前言 以前做的智能对...
-
今天起,他是黄仁勋院士!2024美国工程院院士名单出炉,清华黄翊东等当选外籍院士
今天,2024年美国工程院新晋院士名单公布! 英伟达老黄当选,除此之外,名单中还有不少华人。 根据官方介绍,美国国家工程院选出了114名新晋院士,以及21名外籍院士。这使得美国成员总数达到2310人,外籍成员总数达332人。 当选美国国家工程院院士,...
-
抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge
现有的深度边缘检测网络通常基于包含了上下采样模块的编码器 - 解码器架构,以更好的提取多层次的特征,但这也限制了网络输出既准又细的边缘检测结果。 针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。 论文题目:DiffusionEd...
-
思科和英伟达提供云巨头 AI 基础设施替代方案
网络巨头思科与芯片制造商英伟达今日宣布,它们将合作提供集成的 AI 硬件和软件解决方案,用于数据中心。这一举措将为企业客户提供一种与云巨头提供的 AI 基础设施不同的替代选择。 目前,通过 AWS、微软 Azure 和 Google Cloud 的数据中心...
-
大语言模型之LlaMA系列- LlaMA 2及LLaMA2_chat(上)
LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。 在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外...
-
【AIGC扫盲】人工智能大模型快速入门
人工智能大模型的技术框架主要有以下几种: TensorFlow:这是一个由Google Brain团队开发的开源库,用于进行高性能数值计算,特别是用于训练和运行深度学习模型。TensorFlow提供了一种称为计算图的编程模型,它允许用户定义复杂的计算...
-
如何使用OpenAI的whisper
文章目录 一、安装ffmpeg 二、安装torch等相关组件 三、安装Whisper 四、下载模型 五、测试效果 六、cpu与gpu解码的耗时对比 参考文献 一、安装ffmpeg yum localinstall --nogpgc...
-
【4】Midjourney常用技巧
【常用技巧】 本篇主要讲述MJ的常用技巧,围绕着一些常用指令的使用方法展开。 【版本切换】 在使用MJ时,最常用的技巧之一是版本切换。你可以在输入提示后添加"--v"加上相应的数字来实现版本切换。通常我默认使用MJ 4,偶尔会使用MJ 3或Niji。...
-
【深度学习】SDXL tensorRT 推理,Stable Diffusion 转onnx,转TensorRT
文章目录 1 sdxl 转 diffusers 2 转onnx 3 转TensorRT 1 sdxl 转 diffusers juggernautXL_version6Rundiffusion.safetensors文件...
-
Centos7 部署 Stable Diffusion
参考:https://www.jianshu.com/p/ff81bb76158a 一、安装最新版 git yum install libcurl-devel curl-devel -y # 安装依赖库 yum -y install zlib-dev...
-
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身...
-
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法
优化语义分割模型常用的损失有Soft Jaccard损失,Soft Dice损失和Soft Tversky损失,但它们都和软标签不兼容,所以无法支持一些重要的训练技术(例如标签平滑,知识蒸馏,半监督学习,多标注员等)。 另一方面,语义分割常用的评价指标...
-
20240131在ubuntu20.04.6下使用whisper不同模式的比对
20240131在ubuntu20.04.6下使用whisper不同模式的比对 2024/1/31 16:07 首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】 2、请正确安装好NVIDIA最新...
-
从0开始用 PyTorch 构建完整的 NeRF
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在解释代码之前,首先对NeRF(神经辐射场)的原理与含义进行简单回顾。而NeRF论文中是这样解释NeRF算法流程的: “我们提出了一个当前最优的方法,应用于复杂场景下合成新视图的任务,具体的实现原理是...
-
LLaVA:GPT-4V(ision) 的开源替代品
LLaVA(大型语言和视觉助理)(链接::https://llava-vl.github.io/)是一个很有前途的开源生成式人工智能模型,它复制了OpenAI GPT-4在图像转换方面的一些功能。用户可以将图像添加到LLaVA聊天对话中,允许讨论这些图像...
-
20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下?
20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下? 2024/1/26 21:19 问GTX1080模式使用large该如何配置呢? 这个问题没有完成,可能需要使用使用显存更大的显卡了! 比如G...
-
秒速出图!体验 TensorRT 加速 Stable Diffusion 图像创作
TensorRT 如何加速 Stable Diffusion? 生成式 AI 图像内容生成技术近年来发展迅速,可以根据人类语言描述生成图片,在时尚、建筑、动漫、广告、游戏等领域有着广泛应用。 Stable Diffusion WebUI 是 Githu...
-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
无需GPU,手机芯片也能运行多模态模型!面壁智能发布MiniCPM,性能超过Mistral-7B!
2月1日,面壁智能发布了旗舰端侧模型 MiniCPM,它以小博大的性能超越了 Mistral-7B,并在 MT-Bench 等榜单上表现出色。 MiniCPM 是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本...
-
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布...
-
英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200
英伟达要来一笔大单了? 一出手就是16000块GPU,值5个亿,单位还是美元。 这家下了大单的公司是来自印度的Yotta,这是一家数据中心和服务器公司。 据说到2025年,Yotta将会拥有总计32000块的英伟达H100和GH200 GPU。 Yot...
-
2个人的AI公司,1个半月吸引用户40万,马斯克都来点赞
Sam Altman说:“只要有人工智能,一个人就能经营10亿美元的公司。” 当Pika以4人团队展示高超技术时就已经让人大跌眼镜。 现在有一个团队,2个人做AI初创公司,上线不到2个月就开始盈利。 据El pais报道,这家西班牙公司目前确实只有2个人,...
-
如何使用单个指令微调GPT-3.5或Llama 2
由于在各种任务中的通用性,像ChatGPT和Llama 2这样的大型语言模型(LLM 广受欢迎。然而,有些应用程序需要使用自定义数据对这些模型进行微调,以获得更好的性能。 不幸的是,针对特定应用程序对大型语言模型(LLM 进行微调通常是复杂和令人沮丧的...
-
解读顺网算力与AI,破局AIGC落地“最后一公里”
全球知名AI科学家吴恩达和李飞飞在CES 2024上预测,2024年将是AI技术继续深化的一年,将成为下一次数字或工业革命真正的变革性驱动力。吴恩达还预测了2024年AI可能的突破性进展,其中包括边缘AI。吴恩达对边缘AI寄予厚望,他认为在笔记本电脑、PC...
-
Stable Diffusion学习指南【模型篇】
模型作为机器学习后的结晶,可以说是对绘图画面影响最大的因素之一,一款好的模型即使不写提示词,出的图都会比绞尽脑汁编写咒语出的图更精美。但当我们兴致勃勃的下载了一堆模型后,往往会被一堆看不懂的文件后缀给乱花了眼,为什么模型要划分这么多类型、不同模型间有什么区...