-
LLaMA-Factory 微调训练
LLaMA-Factory 微调训练 该框架功能,标注-微调-导出-合并-部署,一整条流程都有,而且训练时消耗的gpu算力也会小一些 一,安装(推荐在linux中训练,win可以用wsl+docker) git clone https:...
-
DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
UW&UCB&Google&NVIDIA ICCV23 https://github.com/johannakarras/DreamPose?tab=readme-ov-file 问题引入 输入参考图片...
-
Sora底层技术原理:Stable Diffusion运行原理
AIGC 热潮正猛烈地席卷开来,可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度,特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性,也在逐渐改变一部分行业的生产模式。惊...
-
OpenAI API - 使用Whisper和GPT-4模型开发一个自动化会议记录生成器
前言 本文章结合官方教程给大家介绍如何利用OpenAI的Whisper和GPT-4模型来开发一个自动化会议记录生成器。这个应用程序可以转录会议音频 一 应用程序基本介绍 Whisper和GPT-4模型:Whisper是一个用于音频转录的模型,而G...
-
Spring Boot与百度AI语音识别API集成实践
本专题系统讲解了如何利用SpringBoot集成音频识别技术,涵盖了从基础配置到复杂应用的方方面面。通过本文,读者可以了解到在智能语音填单、智能语音交互、智能语音检索等场景中,音频识别技术如何有效提升人机交互效率。无论是本地存储检索,还是云服务的集成,丰...
-
【LLAMA3超级课堂-第四节】Llama 3 高效部署实践(LMDeploy 版)
开发机地址:https://studio.intern-ai.org.cn/console/instance 本文内容 环境,模型准备 LMDeploy chat LMDeploy模型量化(lite LMDeploy服务(serve 环...
-
AIGC: 4 IT从业者如何构建自己的AI知识体系
图片是我使用dall.e模型生成的图片, 提示词: 程序员系统学习OpenAI开发者平台系统学习。 我按照SCQA模型,来开始今天的内容。 S 场景 今天是2024年3月23日,我在深圳,从事IT行业,每个人从事的行业各不相同, 但是都在被AI冲...
-
一个API接口对接ChatGPT3.5/4.0,Claude3,文心一言,通义千问,智谱AI等多款AI模型,打造属于自己的AI应用
今天我要给大家介绍团队的最新项目——一个集成了ChatGPT-3.5/4.0、Claude3、文心一言、通义千问、智谱AI等多个AI模型的API模型聚合平台。仅需使用一个接口就可以对接所有AI模型 网址:https://api.atalk-ai.com...
-
百度文心一言api Python调用ERNIE-Speed-8K具体方法
ERNIE Speed是百度2024年最新发布的自研高性能大语言模型,通用能力优异,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。ERNIE-Speed-8K是模型的一个版本,本文介绍了相关API。 创建chat 调用本接口...
-
Llama3-Tutorial(Llama 3 超级课堂)作业
1.Llama 3 Web Demo 部署 cd ~ git clone https://github.com/SmartFlowAI/Llama3-Tutorial 安装 XTuner 时会自动安装其他依赖 cd ~ git clone -b...
-
Stable Diffusion文生图技术详解:从零基础到掌握CLIP模型、Unet训练和采样器迭代
文章目录 概要 Stable Diffusion 底层结构与原理 文本编码器(Text Encoder) 图片生成器(Image Generator) 那扩散过程发生了什么? stable diffusion 总体架构 主要模块分析 Un...
-
文生图——python调用stable diffusionAPI生成有趣的图像
本文将介绍如何使用Python调用Stable Diffusion API进行图像生成,实现文生图的功能。通过详细的步骤说明和示例代码,读者将能够轻松掌握这一技术,并运用它生成独特而富有创意的图像作品。无论你是编程爱好者还是设计师,都能从中获得启发和乐趣。...
-
Spring Boot3.x与阿里云人脸识别服务对接实现人脸识别
本专题致力于深入探讨如何通过SpringBoot3.x框架与OpenCV库实现高效的人脸检测和人脸识别系统。通过系统化的10篇文章,从基础概念到高级应用,结合代码示例和实战案例,逐步引导大家掌握从零开始构建完整人脸检测与识别系统的全过程。 阿里云人脸识别...
-
Springboot整合文心一言----非流式响应与流式响应(前后端)
所谓非流式响应就是直接等待百度把答案生成好之后直接返回给你,而后者这是一一种流的形式,百度一边生成答案,一边将答案进行返回,这样就是我们在使用ChatGPT中最常见的一种表现了,它回答问题的时候总是一个字一个字的出来。这两回答方式都有一定的...
-
AI绘画:使用Stable Diffusion ComfyUI进行换脸:IPAdapter FaceID全面教程
在数字艺术和媒体编辑领域,换脸技术已经成为一种流行且强大的工具。它允许创作者将一个人物的面部特征无缝地转移到另一个人物上,创造出令人信服的视觉作品。Stable Diffusion ComfyUI提供了一个高效的平台,让用户能够轻松地实现换...
-
OpenAI Whisper 语音转文本实验
为了实现语音方式与大语言模型的对话,需要使用语音识别(Voice2Text)和语音输出(Text2Voice)。感觉这项技术已比较成熟了,国内也有许多的机构开发这项技术,但是像寻找一个方便测试的技术居然还不容易。Google 墙了,微...
-
谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿
日前,谷歌2500页的内部文档被泄露,揭示了搜索——「互联网最强大的仲裁者」的运作方式。 爆料人是SparkToro的联合创始人兼CEO,他在自家网站上发表博客文章,宣称「一位匿名人士与我分享了数千页泄露的谷歌搜索API文档,SEO中的每个人都应该看到它...
-
通俗易懂的Stable Diffusion模型结构介绍
目录 SD的发展历程 SD 模型的网络结构 ClipText 文本编码器 文本向量输入Unet VAE模型 总结图 SD的发展历程 Stab...
-
ollama-python-Python快速部署Llama 3等大型语言模型最简单方法
ollama介绍 在本地启动并运行大型语言模型。运行Llama 3、Phi 3、Mistral、Gemma和其他型号。 Llama 3 Meta Llama 3 是 Meta Inc. 开发的一系列最先进的模型,提供8B和70B参数大小(预训练或...
-
Stable Diffusion AI绘画:从提示词到模型出图的全景指南
? 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】 ? 一站式轻松构建小程序、Web网站、移动应用:?注册地址 ? 基于Web端打造的:?轻量化工具创作平台 ? 想寻找共同学习交流,摸鱼划水的小伙伴,请点击【全栈技术交流群】 Stable...
-
使用文心一言进行图像内容理解
接上篇文章,这期使用文心一言图像识别API,对本地图片以及在线视频图片进行内容理解。 该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与识别,支持返回图片内多主体/文字的...
-
Stable Diffusion Web部署报错解决-Windows
项目地址:GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI 教程:GitHub-Automatic Installation on Windows 报错:...
-
图像生成模型浅析(Stable Diffusion、DALL-E、Imagen)
目录 前言 1. 速览图像生成模型 1.1 VAE 1.2 Flow-based Model 1.3 Diffusion Model 1.4 GAN 1.5 对比速览 2. Diffusion Model 3. Stable Diffusi...
-
Llama 3 实践教程(InternStudio 版)
文章目录 Llama3本地 Web Demo部署 初始环境配置 下载模型 Web Demo 部署 XTuner 微调 Llama3 个人小助手 自我认知训练数据集准备 XTuner配置文件准备 训练模型 推理验证 XTuner微调Lla...
-
AIGC系列之:DDPM原理解读(简单易懂版)
目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式 总结 本文部分内容参考文章:https://ju...
-
机器学习:K均值算法
一、基础理论 1. 欧氏距离 想象你在北京,想要知道离上海有多远,则可以直接计算这个城市(两点)间直线的距离,这就是欧氏距离。 在二维平面上,在二维平面上有两个点A(x1, y1 和B(x2, y2 ,欧氏距离为: 图片 欧氏距离衡量的是两点间的真实物理...
-
多模态预训练模型在 OPPO 端云场景的落地实践
一、端侧图文检索技术研究 1. 解决了什么问题? 首先来介绍图文检索技术。以前在手机端相册搜索照片,都是基于标签来搜索。从 CLIP 模型出现后开始做自然语言搜索。目前正在解决端侧性能、搜索效果、安全等问题。技术难度并不大,重点在于提高搜索速度。并...
-
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了
TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期...
-
Spring AI项目Open AI绘画开发指导
Spring AI项目创建 Spring AI简介 创建Spring AI项目 配置项目pom和application文件 controller接口开发 运行测试 Spring AI简介 Spring AI 是 AI 工程的应用...
-
百度文心一言(ERNIE bot)API接入Android应用
百度文心一言(ERNIE bot)API接入Android应用实践 - 拾一贰叁 - 博客园 (cnblogs.com 需要完整代码的话:https://gitee.com/liyizhe2002/we-are-speakers Preface:...
-
手把手教你用LoRA训练自己的Stable Diffusion模型
目录 写在前面 一、准备数据 二、数据打标签 三、执行训练 四、执行推理 1.LoRA推理 2.全参数推理 写在前面 Stable Diffusion大家已经很熟悉了,那么如何训练自己的sd模型呢,今天我就介绍一下用L...
-
AI绘画:利用ComfyUI进行文生图操作的完整指南
前言 ComfyUI作为一款基于Stable Diffusion的节点式操作界面,为用户提供了一个更加灵活和高效的文生图(文本生成图像)创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作,无论你是初学者还是有一定基础的用户,都能够通过本指南...
-
autodl 上 使用 LLaMA-Factory 微调 中文版 llama3
autodl 上 使用 LLaMA-Factory 微调 中文版 llama3 环境准备 创建虚拟环境 下载微调工具 LLaMA-Factory 下载 llama3-8B 开始微调 测试微调结果 模型合并后导出 vllm 加速推理...
-
你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
目录 前言 一、配置软件环境(可以跳过直接看第二部分效果图) 1.启动界面 二、解锁新功能 2.1 开源模型的获取 三、如何生成细节更加可控的内容呢? 3.1 充分利用prompt: 3.2 词不达意时,充分使用lora 3.2 使用多个lo...
-
【AIGC】本地部署通义千问 1.5 (PyTorch)
今天想分享一下 Qwen 1.5 官方用例的二次封装( huggingface 说明页也有提供源码),其实没有太多的技术含量。主要是想记录一下如何从零开始在不使用第三方工具的前提下,以纯代码的方式本地部署一套大模型,相信这对于技术人员来说还是非常有用的。...
-
[AIGC ]详解MinIO:特性,Docker部署和Spring Boot集成
MinIO是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合存储大容量非结构化的数据,如图片、视频、日志文件、备份数据、容器/虚机镜像等,而且MinIO非常轻量,只有一个单独的二进制文件。它的设...
-
实战whisper第二天:直播语音转字幕(全部代码和详细部署步骤)
直播语音实时转字幕: 基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术,它能够实时将直播中的语音内容转录成文本,甚至翻译成另一种语言。这一过程大致分为三个步骤:捕获直播音频流、语音识别(转录)以及翻译(如...
-
LLaMA-Factory微调(sft)ChatGLM3-6B保姆教程
LLaMA-Factory微调(sft)ChatGLM3-6B保姆教程 准备 1、下载 下载LLaMA-Factory 下载ChatGLM3-6B 下载ChatGLM3 windows下载CUDA ToolKit 12.1 (本人是在w...
-
运行stable-diffusion出现的问题
1、运行txt2img.py出现huggingface下载safety-cheaker问题 问题:OSError: We couldn't connect to 'https://huggingface.co' to load this model, c...
-
Hugging Face全攻略:轻松下载Llama 3模型,探索NLP的无限可能!【实操】
Hugging Face:自然语言处理的强大开源模型库 在数字化时代,自然语言处理(NLP)技术的崛起为人工智能的发展注入了新的活力。而Hugging Face,作为这一领域的佼佼者,凭借其强大的模型仓库、易用的API以及活跃的社区支持,成为无数NL...
-
AIGC实战——多模态模型DALL.E 2
AIGC实战——多模态模型DALL.E 2 0. 前言 1. 模型架构 2. 文本编码器 3. CLIP 4. 先验模型 4.1 自回归先验模型 4.2 扩散先验模型...
-
LLamaFactory:当下最容易上手的大模型微调工具
近日,国内的一款微调框架发布了自己的论文《LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models》,对他们的框架做了系统性的总结。该框架自推出后迅速出圈,现已斩获15.6k的s...
-
stable-diffusion-webui报OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘的正确解决方法
这个是个普遍问题,例如:Windows平台安装stable-diffusion-webui-1.7.0解决少工具包clip-vit-large-patch14 - 知乎 Stable Diffusion WebUI linux部署问题_oserror:...
-
Stable Diffusion Windows本地部署超详细教程(手动+自动+整合包三种方式)
一、 Stable Diffusion简介 2022年作为AIGC(Artificial Intelligence Generated Content)时代的元年,各个领域的AIGC技术都有一个迅猛的发展,给工业界、学术界、投资界甚至竞赛...
-
AI大模型探索之路-训练篇25:ChatGLM3微调实战-基于LLaMA-Factory微调改造企业级知识库
系列篇章? AI大模型探索之路-训练篇1:大语言模型微调基础认知AI大模型探索之路-训练篇2:大语言模型预训练基础认知AI大模型探索之路-训练篇3:大语言模型全景解读AI大模型探索之路-训练篇4:大语言模型训练数据集概览AI大模型探索之路-训练篇5:大...
-
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。 而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用,如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。 西湖大学的研究人员利用F...
-
使用Python探究OpenAI API
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 不妨了解可以从OpenAI享用的所有实用服务。 谁没听说过OpenAI?这家人工智能研究实验室因其著名的产品ChatGPT而改变了世界...
-
牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 随着大型语言模型(LLM)的发展,它们与3D空间数据(3D LLM)之间的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...
-
自动驾驶第一性之纯视觉静态重建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 纯视觉的标注方案,主要是利用视觉加上一些GPS、IMU和轮速计传感器的数据进行动静态标注。当然面向量产场景的话,不一定非要是纯视觉,有一些量产的车辆里面,会有像固态雷达(AT128)这样的传感器。如...
-
数据更多更好还是质量更高更好?这项研究能帮你做出选择
对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。 虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也...