fine-tuning 第3页 - AIGC资讯

Hugging News #0814: Llama 2 学习资源大汇总

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣...

生成式AI 2023-12-13 人工智能

855阅读

技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca Introduction Chinese LLaMA Chinese Alpaca Lora-Fin...

大数据 2023-12-12 人工智能

844阅读

自动驾驶大模型论文调研与简述

最近关于大模型(LLMs, VLM 与自动驾驶相关文献调研与汇总：适合用于什么任务？答：目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。大家都怎么做的？对于规控任务，LLM型基本是调用+Prompt设计，集中在输入和输出设计...

生成式AI 2023-12-08 人工智能

1136阅读

国内AI顶会CPAL论文录用结果放出！共计30篇Oral和60篇Spotlight

大家可能还记得，今年五月份公布的，将由国内大佬马毅和沈向洋牵头办的全新首届AI学术会议CPAL。这里我们再介绍一下CPAL到底是个什么会，以防有的读者时间太久有遗忘—— CPAL（Conference on Parsimony and Learning...

生成式AI 2023-12-07 人工智能

1129阅读

【极客技术】真假GPT-4？微调 Llama 2 以替代 GPT-3.5/4 已然可行！

近日小编在使用最新版GPT-4-Turbo模型（主要特点是支持128k输入和知识库截止日期是2023年4月）时，发现不同商家提供的模型回复出现不一致的情况，尤其是模型均承认自己知识库达到2023年4月，但当我们细问时，Fake GPT4-Turbo（暂且这...

人工智能 2023-12-05 人工智能

909阅读

微调语言大模型选LoRA还是全参数？基于LLaMA 2深度分析

本文对比了全参数微调和LoRA，并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型，这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡，而这...

AIGC 2023-12-05 人工智能

1038阅读

使用您自己的计算机训练 Stable Diffusion 和 Bloom (175B) 等模型

在我们最近的几篇文章中，我们一直在提到围绕大型语言和生成 AI 模型的炒作，以及如何减少推理和训练时间。随着我们的用户开始使用这些模型并对其进行微调，他们自然希望微调和部署包含数千亿参数的模型，以提高其特定用例的性能。通常，这是一项要求非常高的任务，需...

生成式AI 2023-12-04 人工智能

808阅读

聊一聊大模型 | 京东云技术团队

事情还得从ChatGPT说起。 2022年12月OpenAI发布了自然语言生成模型ChatGPT，一个可以基于用户输入文本自动生成回答的人工智能体。它有着赶超人类的自然对话程度以及逆天的学识。一时间引爆了整个人工智能界，各大巨头也纷纷跟进发布了自家的大模...

生成式AI 2023-11-30 人工智能

827阅读

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

文章目录一、背景二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择三、效果四、思考论文：Learning Transferabl...

AIGC 2023-11-27 人工智能

2287阅读

Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

文章目录 Llama 2: Open Foundation and Fine-Tuned Chat Models 1.简介 2.预训练 2.1 预训练数据 2.2 训练详情 2.3 LLAMA 2 预训练模型评估 3. 微调 3.1 s...

AIGC 2023-11-27 人工智能

1554阅读

使用QLoRA对Llama 2进行微调的详细笔记

使用QLoRA对Llama 2进行微调是我们常用的一个方法，但是在微调时会遇到各种各样的问题，所以在本文中，将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的，大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。导入库...

生成式AI 2023-11-25 人工智能

808阅读

LLaMA-2论文阅读

1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍，从2K变为了4K 训练的总token数从1.0T/1.4T增加为2.0T(...

生成式AI 2023-11-24 人工智能

1180阅读

OSError: CompVis/stable-diffusion-v1-4 does not appear to have a file named config.json

最近刚开始研究Stable Diffusion model 想尝试一下fine-tuning任务。在本地加载模型后，爆显存了。。。于是不得已，在云平台租用服务器来进行训练。创建服务器实例时，我直接选的的平台提供的算法镜像，这样可以免去配环境之苦：...

生成式AI 2023-11-23 人工智能

969阅读

LLaMA 2: Open Foundation and Fine-Tuned Chat Models

LLaMA 2: Open Foundation and Fine-Tuned Chat Models Pre-training Fine-tuning Reward model RLHF 参考 Pre-training 数据层面...

大数据 2023-11-23 人工智能

849阅读

【文心一言 vs. 通义千文】一言对千问：自百度之后，阿里终于还是出手了——通义千问

通义千问： https://tongyi.aliyun.com/通义千问https://tongyi.aliyun.com/ 目录通义千问：达摩院 GPT-30B 模型复现 GPT-3 模型介绍 GPT3中文30B参数量文本生...

人工智能 2023-11-22 人工智能

1131阅读

基于llama模型进行增量预训练

目录 1、llama模型转换(pytorch格式转换为HuggingFace格式 1.1、拉取Chinese-LLaMA-Alpaca项目 1.2、准备文件夹 1.3、下载llama官方原始模型 1.4、移动文件到指定位置 1.5、执行转换脚...

生成式AI 2023-11-21 人工智能

1307阅读

大语言模型之七- Llama-2单GPU微调SFT

（T4 16G）模型预训练colab脚本在github主页面。详见Finetuning_LLama_2_0_on_Colab_with_1_GPU.ipynb 在上一篇博客提到两种改进预训练模型性能的方法Retrieval-Augmented Gener...

人工智能 2023-11-21 人工智能

1045阅读

LLaMA长度外推高性价比trick：线性插值法及相关改进源码阅读及相关记录

前言最近，开源了可商用的llama2，支持长度相比llama1的1024，拓展到了4096长度，然而，相比GPT-4、Claude-2等支持的长度，llama的长度外推显得尤为重要，本文记录了三种网络开源的RoPE改进方式及相关源码的阅读。关于长...

生成式AI 2023-11-19 人工智能

1158阅读

Copilot是GPT的理想应用模式吗？

自OpenAI发布ChatGPT以来，LLM持续火热，各大公司纷纷入场。但近一段时间以来，我观测到的LLM应用场景，基本都是Copilot的形式，即以对话为基础的辅助应用。尽管体验起来十分的高大上，但我能明确感受到，这种Copilot的形式并不解决当前的诉...

生成式AI 2023-11-19 人工智能

1063阅读

AIGC：【LLM（一）】——LoRA微调加速技术

文章目录一.微调方法 1.1 Instruct微调 1.2 LoRA微调二.LoRA原理三.LoRA使用一.微调方法 Instruct微调和LoRA微调是两种不同的技术。 1.1 Instruct微调 Instr...

AIGC 2023-11-19 人工智能

1691阅读

LLaMA-7B微调记录

Alpaca（https://github.com/tatsu-lab/stanford_alpaca）在70亿参数的LLaMA-7B上进行微调，通过52k指令数据（https://github.com/tatsu-lab/stanford_alpaca/...

大数据 2023-11-17 人工智能

1117阅读

足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼（Stanford Alpaca 7B），Stanford Alpaca 是在 LLaMA 整个模型上微调，即对预训练模型中的所有参数都进行微调（full fine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效...

生成式AI 2023-11-16 人工智能

789阅读

LLaMA微调记录

本文基于开源代码https://github.com/Lightning-AI/lit-llama/tree/main执行微调其他参考链接： Accelerating LLaMA with Fabric: A Comprehensive Guide...

大数据 2023-11-14 人工智能

994阅读

语言作“纽带”，拳打脚踢各模态，超越Imagebind

北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说，研究人员提出了一个叫做LanguageBind的多模态预训练框架。用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法...

生成式AI 2023-11-13 人工智能

847阅读

Text-to-SQL小白入门（五）开源最强代码大模型Code Llama

摘要本文介绍了Code Llama大模型的基本概括，包含了论文的摘要、结果、结论以及核心方法，对于了解和实践Code Llama有一定帮助。论文概述上一篇介绍了指令进化大模型WizardLM，留了一个坑，补上Code Llama论文学习，...

大数据 2023-11-12 人工智能

1112阅读

【网安AIGC专题10.11】2 ILF利用人类编写的自然语言反馈来训练代码生成模型：自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model

Improving Code Generation by Training with Natural Language Feedback 写在最前面主要工作启发背景介绍应用现有工作的不足 Motivation动机方法 ILF...

大数据 2023-11-12 人工智能

1071阅读

大语言模型之十五-预训练和监督微调中文LLama-2

这篇博客是继《大语言模型之十二 SentencePiece扩充LLama2中文词汇》、《大语言模型之十三 LLama2中文推理》和《大语言模型之十四-PEFT的LoRA》前面博客演示了中文词汇的扩充以及给予LoRA方法的预训练模型参数合并，并没有给出Lo...

大数据 2023-11-12 人工智能

1396阅读

大模型之Bloom&LLAMA----SFT(模型微调)

0. 简介随着chatgpt的爆火，最近也有很多大模型在不断地出现，比如说Bloom系列以及以LLAMA为基础的ziya和baichuan。这些模型相较于chatglm来说，更加具有发展前景，因为其是完全可商用，并可以不断迭代更新的。最近作者在跟着h...

大数据 2023-11-10 人工智能

901阅读

在亚马逊云科技Amazon SageMaker上进行Stable Diffusion模型训练和推理

Stable Diffusion Quick Kit是一个基于亚马逊云科技Amazon SageMaker进行Stable Diffusion模型快速部署的工具包，包括了一组示例代码、服务部署脚本、前端UI，可以帮助可以快速部署一套Stable Diff...

生成式AI 2023-11-10 人工智能

994阅读

万字长文解读Stable Diffusion的核心插件—ControlNet

目录一、介绍二、使用方法三、ControlNet结构 1.整体结构 2.ControlLDM 3.Timestep Embedding 4.HintBlock 5.ResBlock 6.SpatialTransformer 7.S...

人工智能 2023-11-08 人工智能

2101阅读

大型语言模型（LLM）技术精要，不看亏了

哈喽，大家好。今天分享一篇知乎高赞文章，作者是张俊林老师。图片读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型（LLM）...

AIGC 2023-11-06 人工智能

976阅读

图模型也要大？清华朱文武团队有这样一些观点

在大模型时代，图机器学习面临什么样的机遇和挑战？是否存在，并该如何发展图的大模型？针对这一问题，清华大学朱文武教授团队首次提出图大模型（Large Graph Model）概念，系统总结并梳理了图大模型相关的概念、挑战和应用；进一步围绕动态性和可解释性，...

AIGC 2023-10-31 人工智能

992阅读