-
震撼发布!阿里通义FunAudioLLM:重塑自然语音交互新纪元,开源引领语音处理革命!
近年来,人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式,2023这种转变在语音处理领域尤为明显。 阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
python从入门到精通:基础语法讲解
1、字面量 字面量:在代码中,被写下来的固定的值,称之为字面量。 python中常用的几种数据类型: 类型 描述 说明 数字(Number) 整数(int) 浮点数(float) 复数(complex) 布尔(bool) 整数(int)...
-
基于大模型的原神对话系统尝试
一.简介 该项目为一次大模型+游戏的尝试,成功实现了一个与原神内角色的对话系统。 演示视频:https://www.bilibili.com/video/BV1b48CeuELL github地址:https://github.com/goodlu...
-
WebLlama 项目使用教程
WebLlama 项目使用教程 webllamaLlama-3 agents that can browse the web by following instructions and talking to you项目地址:https://gitcod...
-
Datawhale X 魔搭 AI夏令营 第四期AIGC_task03笔记
工具初探一ComfyUI 认识ComfyUI ComfyUI 是"Graphical User Interface"(图形用户界面)的缩写,简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。ComfyUI 是GUI的一种,是...
-
Datewhale AI夏令营第四期 AIGC方向Task1笔记
①文生图基基础知识: ✔提示词:主体描述,细节描述,修饰词,艺术风格,艺术家 ✔Lora模型:实现对特定主题、风格或任务的精细化控制 ✔ComfyUI:模型微调、数据预处理、图像生成 ✔参考图控制:openp...
-
Stable Diffusion Web UI基础入门之常用参数
在之前的文章中我们介绍了,Stable Diffusion的基础知识和使用工具———Stable Diffusion AI入门介绍。这篇文档带大家了解一下Stable Diffusion Web UI的常用参数,在日常绘图中如何使用。 我们知道在St...
-
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己
数学大佬陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己。 他最新分享了哈佛应用数学和应用物理学教授Michael P. Brenner的一个教学方法—— 利用提示工程,让学生尝试教AI完成平时数学作业(不纳入正式考核),期末再让这些AI参加考试。...
-
基于 Llama factory 微调 Llama3.1-70B-Chinese-Chat
本文旨在探讨基于Llama factory使用LoRA(Low-Rank Adaptation)技术对Llama3.1-70B-Chinese-Chat模型进行微调的过程,重点介绍在单机多卡和多机多卡两种分布式训练环境下的实现方法。 1.环境准备...
-
记录Linux上安装LLaMA Factory v0.8.3 增量预训练/监督微调
序:SFT 和 PT 的区分 sft(Supervised Fine-Tuning,监督微调) 定义:sft是一种基于监督学习的微调方法,它使用标记好的数据(即带有输入、指令和期望输出的数据集)来进一步训练已经预训练好的模型。这种方法允许模型...
-
基于AIACC加速器快速实现Stable Diffusion生成特定物体图片
本文介绍如何使用GPU云服务器搭建Stable Diffusion模型,并基于ControlNet框架,快速生成特定物体图片。 背景信息 Stable Diffusion(简称SD)是一种AI模型,它经过训练可以逐步对随机高斯噪声进行去噪以生成所需要的...
-
llama.cppllama.cpp 是一个C++库,用于简化LLM推理的设置。它使得在本地机器上运行Qwen成为可能。该库是一个纯C/C++实现,不依赖任何外部库,并且针对x86架构提供了AVX、
llama.cpp llama.cpp - Qwen llama.cpp 是一个C++库,用于简化LLM推理的设置。它使得在本地机器上运行Qwen成为可能。该库是一个纯C/C++实现,不依赖任何外部库,并且针对x86架构提供了AVX、AVX2和AVX5...
-
Stable Diffusion模型训练:从数据准备到模型优化
Stable Diffusion模型训练:从数据准备到模型优化 开篇引入:探索创意无限的Stable Diffusion 数据集构建秘籍:打造专属训练素材 如何收集高质量图像数据? 数据预处理小技巧:清洗与标注 模型配置与训练实战:让创意流...
-
Datawhale X 魔搭 AI夏令营第四期AIGC方向笔记task3
part1:工具初探一ComfyUI应用场景探索 初识ComfyUI 什么是ComfyUI GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的...
-
一文看懂llama2(原理&模型&训练)
一文看懂Llama2(原理&模型&训练) 一、引言 Llama2是Meta(原Facebook AI)最新开源的大型语言模型,它基于Transformer架构进行了多项优化和改进,旨在提供更高效、更准确的自然语言处理能力。Llama2...
-
服务器部署llama3 并利用LLaMA-Factory实现微调
llama3的编译环境要求: 需要的软件,硬件资源: python=3.11 pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.2 第一步下载需要的pytho...
-
【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起
前不久,Meta开源了LLaMA 3.1 405B【1】,模型扩展了上下文长度至 128K,支持八种语言,效果非常惊艳,是首个在通用知识、可操控性、数学、工具使用和多语言翻译方面能够与最先进闭源 AI 模型媲美的公开可用模型,已经赶上截至目...
-
Meta最新SAM2模型开源直接封神
2024年7月29日,Meta在官网发布SAM2开源消息:segment-anything-2 开源地址:https://github.com/facebookresearch/segment-anything-2 paper:sam-2-seg...
-
PonyXL 图像生成指南
为每个模型逐一编写描述变得越来越烦人。因为我的设置,即提示语写作风格、提示语本身等,正在不断变化,最佳设置始终保留在我最新的模型中,而这些设置对于那些将旧模型视为新的人来说就像宇宙中的一颗原子。这就是为什么我将编写一篇指导文章,并将此文章的链接提供给我的模...
-
一周打完1000场官司,中科院发布首个AI法庭AgentCourt
在人工智能重塑各个行业的今天,法律界也迎来了前所未有的变革。传统的法律实践面临着效率低下、成本高昂等挑战,而AI技术的出现为解决这些问题提供了新的可能。 从最初斯坦福小镇火遍全网,25个由大语言模型(LLMs)驱动的智能体生活交友,打开了多Agent新视角...
-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
DataWhaleX魔搭夏令营第四期AIGC方向task01笔记
从零入门AI生图原理&实践是Datawhale AI 夏令营(第四期)“AIGC”方向的学习活动,基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。 在task01中,我们主要在魔搭社区搭建PAI实例并体验一下baselin...
-
AIGC大模型产品经理高频面试大揭秘‼️
近期有十几个学生在面试大模型产品经理(薪资还可以,详情见下图),根据他们面试(包括1-4面)中出现高频大于3次的问题汇总如下,一共32道题目(有答案)。 29.讲讲T5和Bart的区别,讲讲Bart的DAE任务 T5(Text-to-Text Tr...
-
DataWhale多模态赛事Task1
赛事链接:https://tianchi.aliyun.com/competition/entrance/532251/introduction?spm=a2c22.12281925.0.0.2f307137p8qZmp 赛事描述:在当下大数据、大模型时...
-
AIGC-视频生成-AnimateDiff-基于T2I模型的动态生成论文详细解读
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 代码:https://github.com/guoyww/a...
-
从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化
在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形...
-
探索Llama 3.1 : 405B参数模型:部署、硬件配置、测试与训练的心得
引言 随着人工智能技术的快速发展,大规模语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著的突破。MetaAI最新发布的Llama 3.1 : 405B参数模型,凭借其庞大的参数规模和先进的架构,展...
-
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task3笔记
①初识ComfyUI 1.GUI是“图形用户界面”(Graphical User Interface)的缩写。它是一种使用图形元素如图标、按钮和窗口等来帮助用户与软件或操作系统进行交互的用户界面类型。通过GUI,用户可...
-
【AIGC】训练数据入库(Milvus)
之前的文章有写如何获取数据、如何补充数据,也有说如何对数据进行清洗、如何使用结构化数据进行训练。但好像没有说如何将训练数据“入库”。这里说的入库不是指 MySQL 数据库,而是指向量检索库 Milvus。 众所周知,人工智能多用向量数据进行训练。数据先做...
-
异常检测算法在可观测性平台的落地和实践|得物技术
一、背景 在稳定性保证中,重要的一个环节就是故障管理体系建设,故障管理体系的四大核心功能------故障发现、故障触达、故障定位和故障恢复,其中故障发现作为故障管理的第一步至关重要,包含了指标预测、异常检测和故障预测等方面,主要目标是能及时、准确地发现故...
-
Datawhale X 魔搭 AI夏令营 第四期--AIGC文生图 task2笔记
先上图看连环画成果 一直有个篮球总冠军,根据通义千问的文生图对话式生成8个连贯的文生图故事。通过生成的故事内容生成了下面的图片 男主正在练习打篮球 动漫风,连环画,一个黑色高个子帅气男生,穿着红色篮球服,正在篮球训练场上,练习投篮,专注地重复...
-
NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4
在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而...
-
Datawhale X 魔搭 AI夏令营 第四期-AIGC文生图 Task2学习和实际操作日记
Task2是Task1代码的精讲,俗话说得好,授人以鱼不如授人以渔~代码的详细解读,可以帮我们理解大模型的代码编写原理,说不定之后自己可以开发出一款AI应用(梦想还是要有的!) 第一部分,从整体拆分Task1代码 我们编写代码,是使用...
-
VAD-LLaMA:基于大语言模型的视频异常检测和解释(Video Anomaly Detection and Explanation via Large Language Models)
文章目录 问题 方法 整体架构 VE and Feature Extraction Long-Term Context (LTC Module Feature Adaptor LLaMA 训练 流程图 第一阶段:训练VADor 第二阶段...
-
AIGC大模型实践总结(非常详细)零基础入门到精通,收藏这一篇就够了
大模型浪潮席卷全球,在各行各业中的重要性愈发凸显,呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾,同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制,文章中可能...
-
LORA模型在Stable Diffusion中的注意力机制优化
LORA模型在Stable Diffusion中的注意力机制优化 引言 1.1 Stable Diffusion在生成模型领域的地位和作用 1.2 介绍LORA模型及其在微调预训练模型时的效率和灵活性 1.3 强调注意力机制在LORA模型优化...
-
Datawhale X 魔搭 AI夏令营 - AIGC文生图方向Task2笔记
今天做的是AIGC文生图方向的 task 2 ,回顾一下 task 2 step 0 : Task 2 学习规划 step 1 : 认识通义千问 (使用通义千问大语言模型学习如何借助AI智能助手帮我们阅读代码) 链接:点击直达 1...
-
OS-Copilot:自学习的通用计算机智能体
人工智能咨询培训老师叶梓 转载标明出处 现有的计算机智能体大多局限于特定应用或领域,难以应对多样化和不断变化的计算机操作需求。这种局限性不仅限制了智能体的实用性,也阻碍了其在更广泛场景中的应用潜力。为了突破这一瓶颈,研究者们一直在探索如何构建能够处理...
-
Datawhale X 魔搭 AI夏令营 Task1
Datawhale X 魔搭 AI夏令营 Task1 赛事解读 AI文生图相关概念 可图模型及微调简介 魔搭零代码生图、微调工具介绍 魔搭AI生图相关应用介绍 DataWhale开源组织网站主页:Datawhale DataWhaleAI夏令营第...
-
Datawhale X 魔搭 AI夏令营-AIGC Task 02 精读代码,实战进阶 --笔记
前言 Task 01 通过预训练模型的调用,在baseline上跑通模型,实现内容→图片。即,根据prompt中输入的文本描述,模型生成对应的图片。Task 02 深入学习。 目录 一、AI生图技术 1.1 基础点 1.2 技术难点 1.3...
-
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!
论文链接:https://arxiv.org/pdf/2311.16445 代码链接:https://github.com/YichaoCai1/CLAP 亮点直击 解耦潜在内容和风格因素:本文提出了一种通过对比学习和数据增强,从因果角度微...
-
Code Llama使用手册
Code Llama 是 Llama 2 的一系列最先进的开放访问版本,专门用于代码任务,我们很高兴发布与 Hugging Face 生态系统的集成! Code Llama 已使用与 Llama 2 相同的宽松社区许可证发布,并且可用于商业用途。 今天,...
-
Llama 3.1论文中文对照翻译
The Llama 3 Herd of Models 模型群 Llama 3 Llama Team, Al @ Meta 1...
-
Datawhale X 魔搭 AI夏令营 AIGC人物风格赛
工具初探一ComfyUI应用场景探索 什么是ComfyUI GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GU...
-
LLaMA Factory微调Llama3模型
LLaMA Factory是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架。 ?GPU推荐使用24GB显存的A10(ecs.gn7i-c8g1.2xlar...
-
Datawhale X 魔搭 AI夏令营第四期 | AIGC文生图——进阶上分 实战优化 Task3笔记
Hi,大家好,我是半亩花海。在上一个任务中,我们逐行精读baseline,掌握了利用AI工具提升学习效率,并制作了话剧连环画,初步了解Secpter WebUI。今天,我们将深入探讨微调的基本原理及其参数,旨在优化效果。同时,介绍文生图工作流平台Comfy...
-
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记
探探前沿:了解一下 AI生图技术 的能力&局限 今天我们的任务是对baseline的代码有一个更加细致的理解,然后我们会学习如何借助AI来提升我们的自学习能力,从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔,你可以...
-
Datawhale X 魔搭 AI夏令营-AIGC方向-LoRA学习笔记
LoRA(Low-Rank Adaptation)是一种用于优化大规模预训练模型的微调技术,特别适用于在资源有限的情况下,对模型进行高效且低成本的微调。LoRA的核心思想是通过低秩分解方法,仅微调模型的少数参数,从而显著减少计算成本和内存占用。 1. 背...
-
Datawhale X 魔搭 AI夏令营-AIGC文生图方向 Task02
1.AI生图的能力&局限: 如果我说这是一张AI生成的图片,你能相信吗? 然而幸运又不幸的是它确实是AI生成的。 很难想象在短短几年内,AI生图的能力已经像指数爆炸一样增长。一年前,AI还因为拙劣的画“手”能力被看轻,也因为当时这个情况,...