-
AI绘画:利用ComfyUI进行文生图操作的完整指南
前言 ComfyUI作为一款基于Stable Diffusion的节点式操作界面,为用户提供了一个更加灵活和高效的文生图(文本生成图像)创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作,无论你是初学者还是有一定基础的用户,都能够通过本指南...
-
autodl 上 使用 LLaMA-Factory 微调 中文版 llama3
autodl 上 使用 LLaMA-Factory 微调 中文版 llama3 环境准备 创建虚拟环境 下载微调工具 LLaMA-Factory 下载 llama3-8B 开始微调 测试微调结果 模型合并后导出 vllm 加速推理...
-
你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
目录 前言 一、配置软件环境(可以跳过直接看第二部分效果图) 1.启动界面 二、解锁新功能 2.1 开源模型的获取 三、如何生成细节更加可控的内容呢? 3.1 充分利用prompt: 3.2 词不达意时,充分使用lora 3.2 使用多个lo...
-
【AIGC】本地部署通义千问 1.5 (PyTorch)
今天想分享一下 Qwen 1.5 官方用例的二次封装( huggingface 说明页也有提供源码),其实没有太多的技术含量。主要是想记录一下如何从零开始在不使用第三方工具的前提下,以纯代码的方式本地部署一套大模型,相信这对于技术人员来说还是非常有用的。...
-
[AIGC ]详解MinIO:特性,Docker部署和Spring Boot集成
MinIO是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合存储大容量非结构化的数据,如图片、视频、日志文件、备份数据、容器/虚机镜像等,而且MinIO非常轻量,只有一个单独的二进制文件。它的设...
-
实战whisper第二天:直播语音转字幕(全部代码和详细部署步骤)
直播语音实时转字幕: 基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术,它能够实时将直播中的语音内容转录成文本,甚至翻译成另一种语言。这一过程大致分为三个步骤:捕获直播音频流、语音识别(转录)以及翻译(如...
-
LLaMA-Factory微调(sft)ChatGLM3-6B保姆教程
LLaMA-Factory微调(sft)ChatGLM3-6B保姆教程 准备 1、下载 下载LLaMA-Factory 下载ChatGLM3-6B 下载ChatGLM3 windows下载CUDA ToolKit 12.1 (本人是在w...
-
运行stable-diffusion出现的问题
1、运行txt2img.py出现huggingface下载safety-cheaker问题 问题:OSError: We couldn't connect to 'https://huggingface.co' to load this model, c...
-
Hugging Face全攻略:轻松下载Llama 3模型,探索NLP的无限可能!【实操】
Hugging Face:自然语言处理的强大开源模型库 在数字化时代,自然语言处理(NLP)技术的崛起为人工智能的发展注入了新的活力。而Hugging Face,作为这一领域的佼佼者,凭借其强大的模型仓库、易用的API以及活跃的社区支持,成为无数NL...
-
AIGC实战——多模态模型DALL.E 2
AIGC实战——多模态模型DALL.E 2 0. 前言 1. 模型架构 2. 文本编码器 3. CLIP 4. 先验模型 4.1 自回归先验模型 4.2 扩散先验模型...
-
LLamaFactory:当下最容易上手的大模型微调工具
近日,国内的一款微调框架发布了自己的论文《LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models》,对他们的框架做了系统性的总结。该框架自推出后迅速出圈,现已斩获15.6k的s...
-
stable-diffusion-webui报OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘的正确解决方法
这个是个普遍问题,例如:Windows平台安装stable-diffusion-webui-1.7.0解决少工具包clip-vit-large-patch14 - 知乎 Stable Diffusion WebUI linux部署问题_oserror:...
-
Stable Diffusion Windows本地部署超详细教程(手动+自动+整合包三种方式)
一、 Stable Diffusion简介 2022年作为AIGC(Artificial Intelligence Generated Content)时代的元年,各个领域的AIGC技术都有一个迅猛的发展,给工业界、学术界、投资界甚至竞赛...
-
AI大模型探索之路-训练篇25:ChatGLM3微调实战-基于LLaMA-Factory微调改造企业级知识库
系列篇章💥 AI大模型探索之路-训练篇1:大语言模型微调基础认知AI大模型探索之路-训练篇2:大语言模型预训练基础认知AI大模型探索之路-训练篇3:大语言模型全景解读AI大模型探索之路-训练篇4:大语言模型训练数据集概览AI大模型探索之路-训练篇5:大...
-
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。 而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用,如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。 西湖大学的研究人员利用F...
-
使用Python探究OpenAI API
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 不妨了解可以从OpenAI享用的所有实用服务。 谁没听说过OpenAI?这家人工智能研究实验室因其著名的产品ChatGPT而改变了世界...
-
牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 随着大型语言模型(LLM)的发展,它们与3D空间数据(3D LLM)之间的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...
-
自动驾驶第一性之纯视觉静态重建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 纯视觉的标注方案,主要是利用视觉加上一些GPS、IMU和轮速计传感器的数据进行动静态标注。当然面向量产场景的话,不一定非要是纯视觉,有一些量产的车辆里面,会有像固态雷达(AT128)这样的传感器。如...
-
数据更多更好还是质量更高更好?这项研究能帮你做出选择
对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练,简单来说就是「规模扩展」。 虽然直接扩展模型规模看起来简单粗暴,但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法,所谓量变引起质变,这种观点也...
-
GPT-4o 17人Omni金牌团队首揭秘!清北上交中科大6位华人领衔
几天前的发布会上,OpenAI再次向全世界证明,它永远走在AI领域的最前沿。 眼看着《Her》中的Samantha在自己眼前成真,那一刻,全世界为之振奋。 就在刚刚,GPT-4o的关键团队信息,也被公布了出来。 就是这个名为「omni」的团队,发挥出了不可...
-
GPT-4o 17人Omni金牌团队首揭秘!清北上交中科大六位华人领衔
几天前的发布会上,OpenAI再次向全世界证明,它永远走在AI领域的最前沿。 眼看着《Her》中的Samantha在自己眼前成真,那一刻,全世界为之振奋。 就在刚刚,GPT-4o的关键团队信息,也被公布了出来。 就是这个名为「omni」的团队,发挥出了不...
-
AI日报:OpenAI全能模型GPT-4o发布;阿里推自动化视频剪辑神器;AI作品会侵权吗?调研结果...;零一万物开源Yi-1.5模型
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、干翻所有语音助手!OpenAI...
-
美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI
【新智元导读】为训练AI模型,纽约州立大学的一名教授Brenden Lake,竟让自己不到2岁女儿头戴相机收集数据!要知道,Meta训Llama3直接用了15万亿个token,如果Lake真能让AI模型学习人类幼崽,从有限的输入中学习,那LLM的全球数据荒...
-
扩散模型与文生视频
一、快速发展的文生视频 在当前的人工智能领域,文生视频技术有着引人注目的进展。该技术的核心任务非常明确,就是利用文本指令来控制视频内容的生成。具体而言,用户可以输入特定文本,系统则根据这段文本生成相应的视觉画面。这一过程并不局限于单一的输出,相同的文本可...
-
MindSpore强化学习:使用PPO配合环境HalfCheetah-v2进行训练
本文分享自华为云社区《MindSpore强化学习:使用PPO配合环境HalfCheetah-v2进行训练》,作者: irrational。 半猎豹(Half Cheetah)是一个基于MuJoCo的强化学习环境,由P. Wawrzyński在“A Cat...
-
还在YOLO-World?DetCLIPv3出手!性能大幅度超出一众SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 现有的开词汇目标检测器通常需要用户预设一组类别,这大大限制了它们的应用场景。在本文中,作者介绍了DetCLIPv3,这是一种高性能检测器,不仅在开词汇目标检测方面表现出色,同时还能为检测到的目标生成...
-
深入理解并掌握 Spring AI 与 Open AI 的使用方法
Spring AI,作为行业领导者,通过其强大、灵活的API和先进的功能,为各种行业提供了颠覆性的解决方案。在本专题中,我们将深入探讨Spring AI在各领域的应用示例。每个案例都将展示Spring AI如何满足特定需求,实现目标,并将这些LESSON...
-
利用Spring Boot以及Spring AI构建生成式人工智能应用
Spring AI,作为行业领导者,通过其强大、灵活的API和先进的功能,为各种行业提供了颠覆性的解决方案。在本专题中,我们将深入探讨Spring AI在各领域的应用示例,每个案例都将展示Spring AI如何满足特定需求,实现目标,并将这些LESSON...
-
对接HiveMetaStore,拥抱开源大数据
用户在使用本特性前,将需要创建Server,创建Server过程与已有Server创建过程相同 对于创建OBS server有两种方式,一种是通过永久AK、SK的方式创建。(此种方式前提是可以获取永久AK、SK,但是此种方式不安全,AK/SK直接...
-
融汇14个AI工具构建完美应用
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 上篇:融汇11款AI工具构建完美应用 如您所见,人工智能(AI)应用在近年来得到了长足的发展。从语音助手到软件开发,人工智能已在我们...
-
五种搭建LLM服务的方法和代码示例
在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。 1、Anaconda + CPU 我们首先介...
-
4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源
蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。 西湖大学的研究人员利用Fo...
-
EMNLP 2023|利用LLM合成数据训练模型有哪些坑?
大家好,我是HxShine 今天我们将介绍EMNLP2023的一篇大模型(LLMs)生成文本分类任务合成数据的文章,标题是《Synthetic Data Generation with Large Language Models for Text Cla...
-
这款Linux发行版发起AI禁令!生成代码质量堪忧!阿里也被大模型幻觉愚弄了!网友:人比生产力更重要!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) Gentoo Linux是一套通用的、快捷的、完全免费的Linux发行版,因出色的包管理系统Portage而被开发人员广为喜爱。最近,GentooLinux社区宣布:发行版将不再允...
-
部署本地的大语言模型,只需几分钟!
2023 年是 AI 高速发展的一年,除了功能强大的商用大语言模型之外,也出现了很多不错的开源大语言模型。比如,Llama2、Codellama、Mistral 和 Vicuna 等。虽然商用的大语言模型 ChatGPT、Bard 和 Claude 功...
-
新加坡国立大学 | 通过语言分割任何3D目标
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文研究了具有自由形式语言指令的开放词汇3D实例分割(OV-3DIS)。先前的作品只依赖于注释的基本类别进行训练,对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...
-
等等我还没上车!LLM赋能端到端全新范式LeGo-Drive,车速拉满
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人理解 这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹,实现了从导航指令到目标位置的端到端闭...
-
VQAScore官网体验入口 AI文本到视觉生成评估工具使用地址
VQAScore是一种新的评估指标,旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5 模型,能够在文本到图像/视频/3D生成评估中实现最佳性能,是评估和优化文本到视觉生成模型的强大工具。同时,VQAScore引入了GenAI-B...
-
多个SOTA !OV-Uni3DETR:提高3D检测在类别、场景和模态之间的普遍性(清华&港大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文聚焦于3D目标检测的领域,特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中,系统旨在预测真实场景中物体的定向3D边界框和语义类别标签,这通常依赖于点云或RGB图像...
-
陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)
陈巍:2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、...
-
ELLA官网体验入口 腾讯AI文本到图像语义对齐工具使用介绍
ELLA是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器,从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不...
-
AIGC-Stable Diffusion发展及原理总结
目录 一. AIGC介绍 1. 介绍 2. AIGC商业化方向 3. AIGC是技术集合 4. AIGC发展三要素 4.1 数据 4.2 算力 4.3 算法 4.3.1 多模态模型CLIP 4.3.2 图像生成模型 二. Stable...
-
JAVA项目接入百度文心一言文本对话功能
依赖 <dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okh...
-
Ascend C 自定义算子 Kernel Launch调用入门
本文分享自华为云社区《Ascend C 自定义算子 Kernel Launch调用入门》,作者: jackwangcumt。 1 Kernel Launch概述 根据官方说明文档的介绍,Ascend C对外开放核函数的基础调用(Kernel Lau...
-
[NLP]使用Alpaca-Lora基于llama模型进行微调教程
Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT 因此, Alpac...
-
fanuc机床使用focas协议采集数据window和Linux都支持(下载中包括所有资料和demo)
focas协议是用来采集fanuc机床的协议,通过以太网进行采集。 1. focas1/2的简明教程可以看(稍后我会把所有的资料都上传,这是我从各个地方收集到并整理的): 这个文档主要介绍了fanuc机床的ip和端口如何配置,能通讯的数据分类,和采集方...
-
北大&火山引擎夺冠!CLIC视频压缩挑战赛结果公布,中国团队表现亮眼
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。 基于深度...
-
GitHub突破1000星!上交、清华开源个性化联邦学习算法库PFLlib
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 我们在 GitHub 上开源了一个个性化联邦学习算法仓库(PFLlib),目前已经获得 1K+ 个 Star 和 200+ 个 Fork...
-
北航联合港大发布全新文本引导矢量图形合成方法SVGDreamer
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 可缩放矢量图形(Scalable Vector Graphics,SVG)是用于描述二维图型和图型应用程序的基本元素;与传统的像素图形...
-
MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址
MiniGPT4-Video是什么? MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。 点击前往MiniGPT4-Video官网体验入口 MiniGPT4-Video的主要特点...