并行训练 - AIGC资讯

大数据最新大模型学习路线与建议_大模型学习路径

1 既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后...

生成式AI 2024-07-29 人工智能

1196阅读

第43篇：实现企业级大型AIGC项目：模型并行与分布式训练

在构建企业级大型AIGC（人工智能生成内容）项目时，模型并行与分布式训练是提升计算效率和处理能力的关键技术。随着模型规模和数据量的不断增长，单台设备的计算能力往往无法满足需求。因此，利用多台设备进行并行计算和分布式训练成为了必然选择。本文将深入讲解模型并行...

人工智能 2024-07-27 人工智能

688阅读

Stable diffusion文生图大模型——隐扩散模型原理解析

1、前言本篇文章，我们将讲这些年非常流行的文生图大模型——Stable Diffusion。该模型也不难，甚至说很简单。创新点也相对较少，如果你学会了我以前的文章讲过的模型，学习这个也自然水到渠成！参考论文：High-Resolution Ima...

AIGC 2024-06-11 人工智能

1056阅读

LightGBM实战+随机搜索调参：准确率96.67%

大家好，我是Peter~ 今天给大家分享一下树模型的经典算法：LightGBM，介绍算法产生的背景、原理和特点，最后提供一个基于LightGBM和随机搜索调优的案例。 LightGBM算法在机器学习领域，梯度提升机（Gradient Boosting...

大数据 2024-06-06 人工智能

940阅读

LightGBM算法背景、原理、特点+Python实战案例

大家好，我是Peter~ 今天给大家分享一下树模型的经典算法：LightGBM，介绍算法产生的背景、原理和特点，最后提供一个基于LightGBM和随机搜索调优的案例。 LightGBM算法在机器学习领域，梯度提升机（Gradient Boosting...

大数据 2024-05-29 人工智能

1003阅读

“数字中国”前瞻：谁是AI大模型时代的驯龙高手？

大模型圈最近都在讨论一个议题:GPT-4o为什么要免费? 一个可见的事实是，ChatGPT的版本迭代速度在放缓。这预示着大模型行业进入平台期，向上攀登变得越来越困难。在这样的背景下GPT-4o宣布免费，说白了就是想用好先发优势，尽快训练出更加强大的模型能力...

人工智能 2024-05-28 人工智能

660阅读

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

本文经计算机视觉研究院公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源：https://github.com/LeapLabTHU/EfficientTrain 会议...

生成式AI 2024-05-23 人工智能

644阅读

理论+实践，带你了解分布式训练

本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练（Distributed Training）系统来解决...

AIGC 2024-05-09 人工智能

841阅读

揭秘Baichuan 3超越GPT-4的中文实力！文心一言、GLM 4.0也甘拜下风？全方位对比测试大揭秘！

AI界的焦点再度聚集！1月29日，百川智能推出了超千亿参数的大语言模型Baichuan 3，瞬间在科技圈点燃了热情。不同于其他模型，Baichuan 3在中文各项评测中都有惊艳表现，甚至在任务上超越了GPT-4，成为了新的领头羊。 Baichuan 3不...

大数据 2024-03-25 人工智能

696阅读

大模型的DenseNet时刻！DenseMamba：精度显著提升

本文经自动驾驶之心公众号授权转载，转载请联系出处。随着 ChatGPT 的突破性进展，大型语言模型（LLMs）迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年，人们目睹了 LLaMA、ChatGLM 等模型...

人工智能 2024-03-14 人工智能

757阅读

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

随着 ChatGPT 的突破性进展，大型语言模型（LLMs）迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年，人们目睹了 LLaMA、ChatGLM 等模型的诞生，它们基于 Transformer 架构，采用多...

生成式AI 2024-03-11 人工智能

721阅读

LLMs之Llama2 70B：使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略

LLMs之Llama2 70B：使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略目录使用 PyTorch FSDP 微调 Llama 2 70B 引言 FSDP 工作流使用的硬件微调 LLa...

生成式AI 2024-02-16 人工智能

1659阅读

【AIGC扫盲】人工智能大模型快速入门

人工智能大模型的技术框架主要有以下几种： TensorFlow：这是一个由Google Brain团队开发的开源库，用于进行高性能数值计算，特别是用于训练和运行深度学习模型。TensorFlow提供了一种称为计算图的编程模型，它允许用户定义复杂的计算...

生成式AI 2024-02-07 人工智能

785阅读

百度交了份“大”作业：文心一言用户破1亿，累计37亿字文本创作，能力再升32%！...

金磊发自凹非寺量子位 | 公众号 QbitAI 今年国产大模型的最后一声枪响，属于百度：发布仅2个月，文心大模型4.0，能力又提升了32%。文心一言用户规模超过1个亿！这便是在深度学习“春晚”——WAV...

生成式AI 2024-01-31 人工智能

763阅读

百川智能发布千亿参数大模型，中文能力超越GPT-4！

“追上ChatGPT水平，我觉得今年内可能就能够实现，但对于GPT-4或者GPT-5，我认为可能需要3年左右的时间，应该不会低于两年。”去年4月，百川智能创始人王小川当初曾这样判断自己入局大模型赛道后的进度。就在昨天，千亿参数规模的百川大模型终于来了！...

AIGC 2024-01-30 人工智能

740阅读

Baichuan 3体验入口百川智能超千亿参数大语言AI模型在线使用地址

Baichuan 3是一款卓越的语言模型，拥有超过千亿的参数规模。在多个权威通用能力评测中，Baichuan3 展现出色，特别在中文任务上超越了GPT-4。它在自然语言处理、代码生成、医疗任务等领域表现出色，采用了多项创新技术手段提升模型能力，包括动态数据...

AIGC 2024-01-30 人工智能

768阅读

百川智能发布大模型Baichuan3 称中文评测超越GPT-4

百川智能于 1 月 29 日推出了拥有超过千亿参数的大型语言模型Baichuan 3。该模型在多个公认的通用能力评估，如CMMLU、GAOKAO和AGI-Eval等，都展示了卓越的表现，特别是在中文任务上更是超过了GPT- 4 的水平。同时，该模型在数学和...

AIGC 2024-01-29 人工智能

687阅读

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 C...

大数据 2024-01-15 人工智能

710阅读

Meta与微软联手推出开源大型语言模型Llama 2；程序员如何优雅地做副业

? AI新闻 ? Meta与微软联手推出开源大型语言模型Llama 2 摘要：Meta和微软近期合作发布了名为Llama 2的开源大型语言模型。该模型旨在帮助开发者和组织构建生成式人工智能工具和体验。Azure客户可以更轻松、安全地在Azure平台...

AIGC 2024-01-02 人工智能

766阅读

文心一言“拜师”了！金灿荣、王先进等成为首批“文心导师”

12月28日，由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT+深度学习开发者大会2023在北京召开。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰现场公布了飞桨文心五载十届最新生态成果，文心一言最新用户规模破1亿，截至12月...

生成式AI 2023-12-30 人工智能

748阅读

用户规模破亿！基于文心一言的创新应用已超4000个

?‍♂️ 个人主页：@艾派森的个人主页 ✍?作者简介：Python学习者 ? 希望大家多多支持，我们一起进步！? 如果文章对你有帮助的话，欢迎评论 ?点赞?? 收藏 ?加关注+ 12月28日，由深度学习技术及应用国家工程研究中...

人工智能 2023-12-30 人工智能

749阅读

谁能撼动Transformer统治地位？Mamba作者谈LLM未来架构

在大模型领域，一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究，其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，Mamba-3B 模...

人工智能 2023-12-29 人工智能

877阅读

挑战Transformer的Mamba是什么来头？作者博士论文理清SSM进化路径

在大模型领域，Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显，比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷，研究者们开发出了很多...

生成式AI 2023-12-25 人工智能

946阅读

GPT系列训练与部署——GPT2环境配置与模型训练

本文为博主原创文章，未经博主允许不得转载。本文为专栏《Python从零开始进行AIGC大模型训练与推理》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/13...

大数据 2023-12-24 人工智能

819阅读

关于生成式语言大模型的一些工程思考 paddlenlp & chatglm & llama

生成式语言大模型，随着chatgpt的爆火，市场上涌现出一批高质量的生成式语言大模型的项目。近期百度飞桨自然语言处理项目paddlenlp发布了2.6版本。更新了以下特性：全面支持主流开源大模型Bloom, ChatGLM, GLM, Llama, OPT...

生成式AI 2023-12-22 人工智能

791阅读

720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑

「Qwen-72B 模型将于 11 月 30 日发布。」前几天，X 平台上的一位网友发布了这样一则消息，消息来源是一段对话。他还说，「如果（新模型）像他们的 14B 模型一样，那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话...

大数据 2023-12-01 人工智能

787阅读

微软亚洲研究院韦福如：人工智能基础创新的第二增长曲线

从人工智能的发展历程来看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性，并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。然而，人工智能的科研...

AIGC 2023-12-01 人工智能

785阅读

文心一言最新重磅发布！

8月16日，由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会2023举办。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰以《大语言模型为通用人工智能带来曙光》为题，阐述了大语言模型具备理解、生成、逻辑、记忆四...

生成式AI 2023-11-28 人工智能

700阅读

ChatGPT 使用到的机器学习技术

作者 | Bright Liao 在《程序员眼中的 ChatGPT》一文中，我们聊到了开发人员对于ChatGPT的认知。本文来聊一聊ChatGPT用到的机器学习技术。机器学习技术的发展要聊ChatGPT用到的机器学习技术，我们不得不回顾一下机器学...

生成式AI 2023-11-22 人工智能

725阅读

QPS提升近10倍！解读飞桨加持下的文心一言满月成绩单

近期，一直犹抱琵琶半遮面的国内各路AI相关厂商，扎堆发布大模型。一时间，百“模”大战，鱼龙混杂。此前，作为全球第一个正式发布大模型的大厂，百度文心一言的一举一动，成为业界关注的焦点。就在4月19日，时隔文心一言发布1个月又3天，一张“百度飞桨对文心...

AIGC 2023-11-21 人工智能

726阅读

MoE：LLM终身学习的可能性

性质说明知识记忆（knowledge retention） √ LLM预训练后，具备世界知识，小规模finetune不易对LLM造成遗忘灾难。但大规模数据续训会造成。前向迁移（forward...

大数据 2023-11-08 人工智能

786阅读

如何高效训练？综述汇总：大型深度学习训练的并行分布式系统

本文经自动驾驶之心公众号授权转载，转载请联系出处。 23年1月论文“Systems for Parallel and Distributed Large-Model Deep Learning Training“，来自UCSD。深度学习（DL）已经...

AIGC 2023-11-08 人工智能

716阅读

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

强化学习(RL 是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。 RL代理通常使用马尔可夫决策过程(MDP ...

AIGC 2023-10-31 人工智能

861阅读

度小满自动机器学习平台实践

一、机器学习平台首先介绍一下度小满机器学习平台的背景、发展过程以及现状。 1、业务场景度小满是一家金融科技公司，公司内部的业务场景主要分为三个方面：智能风控：涉及关系数据挖掘、文本数据挖掘、情感分析等 NLP 技术，及人脸识别等 CV 技术。...

人工智能 2023-10-23 人工智能

917阅读