-
详解各种LLM系列|LLaMA 2模型架构、 预训练、SFT内容详解 (PART1)
作者 | Sunnyyyyy 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/670002922 大家好,这里是 NewBeeNLP。之前我们分享了详解各种LLM系列|...
-
Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练
大神Karpathy已经不满足于用C语言造Llama了! 他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。 挑战成功本身并不意外,但是只花费20美元、90分钟完成训练,Loss和评测还超越原版,就!有!点!过!分!了!。 不仅如此,...
-
通俗易懂的Stable Diffusion模型结构介绍
目录 SD的发展历程 SD 模型的网络结构 ClipText 文本编码器 文本向量输入Unet VAE模型 总结图 SD的发展历程 Stab...
-
马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B
如今,想训个SOTA的大模型,不仅缺数据和算力,甚至连电都不够用了。 最近马斯克就公开表示,因为苦于买不到足够的芯片,xAI只能推迟Gork 2的训练和发布。 Grok 3及更高版本,甚至需要10万个H100,按每台H100售价3万美元来算,仅芯片就要花...
-
自动驾驶系统架构转变思考
本文经自动驾驶之心公众号授权转载,转载请联系出处。 自动驾驶系统架构转变思考 从事辅助驾驶系统架构一段时间后,感觉到了疲惫和无力感,更加深刻的理解到道德经,道生于有,有生于无,有无相生,难易相承,.....是以圣人处无为之事,行不言之教,万物作焉而不辞...
-
Meta的 Llama-3 在线使用与下载
前言 2024年4月19日,全球社交巨头Meta在他们的官网,正式发布了开源大模型 Llama-3 !! 该版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码 - 包括 8B 到 70B 参数! 简介 Llama 3 在 2...
-
传统图像处理岗切换AIGC方向分享
引言 传统图像岗转AIGC,经过半个月学习,了解文生图模型Stable Diffusion SD所依赖的模块及算法流程,了解ControlNet算法流程,成功部署云端WebUI,进行阶段性总结。 了解一个新领域或新技术,首先了解基础概念,才能有效阅...
-
马斯克xAI估值240亿美元,LeCun隔空开怼,竟上升到人身攻击!
昨日,AI领域两位重量级人物Yann LeCun和Elon Musk就人工智能的安全性和监管问题在社交媒体上「隔空交锋」。 人工智能先驱LeCun在X上表达了他对正在进行的人工智能监管的看法。 LeCun认为,现在担心人工智能带来「生存风险」还为时过早,...
-
实战whisper语音识别第一天,部署服务器,可远程访问,实时语音转文字(全部代码和详细部署步骤)
Whisper是OpenAI于2022年发布的一个开源深度学习模型,专门用于语音识别任务。它能够将音频转换成文字,支持多种语言的识别,包括但不限于英语、中文、西班牙语等。Whisper模型的特点是它在多种不同的音频条件下(如不同的背景噪声水平、说话者的口音...
-
AIGC实践|用AI工具打造动态有声绘本
前言: 在深入体验了WHEE的强大基础功能之后,我们不仅掌握了如何绘制出梦幻般的图像,还学会了如何打造独具特色的风格模型。学会这些技能后,可以转化为许多创意实践成果,比如创作一本儿童故事绘本。 本文将向你展示如何运用WHEE及其他AI工具,创作出一本充...
-
智慧建筑:基于YOLOv7的建筑外墙缺陷检测
01 前景概要 现有的基于深度学习的方法在识别速度和模型复杂性方面面临一些挑战。为了保证建筑外墙缺陷检测的准确性和速度,我们研究了了一种改进的YOLOv7方法BFD-YOLO。首先,将YOLOv7中原有的ELAN模块替换为轻量级的MobileOne模块,...
-
解读注意力机制原理,教你使用Python实现深度学习模型
本文分享自华为云社区《使用Python实现深度学习模型:注意力机制(Attention)》,作者:Echo_Wish。 在深度学习的世界里,注意力机制(Attention Mechanism)是一种强大的技术,被广泛应用于自然语言处理(NLP)和计算机视...
-
可解释性人工智能:解释复杂的AI/ML模型
译者 | 李睿 审校 | 重楼 人工智能(AI 和机器学习(ML 模型如今变得越来越复杂,这些模型产生的输出是黑盒——无法向利益相关者解释。可解释性人工智能(XAI)旨在通过让利益相关者理解这些模型的工作方式来解决这一问题,确保他们理解这些模型实际上是如...
-
YOLOv10来啦!真正实时端到端目标检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 过去几年里,YOLOs因在计算成本和检测性能之间实现有效平衡而成为实时目标检测领域的主流范式。研究人员针对YOLOs的结构设计、优化目标、数据增强策略等进行了深入探索,并取得了显著进展。然而,对非极大...
-
DiffMap:首个利用LDM来增强高精地图构建的网络
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文标题: DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model 论文作者: Peijin Jia, Tuo...
-
手撕Llama3第1层: 从零开始实现llama3
一、Llama3的架构在本系列文章中,我们从头开始实现llama3。 Llama3的整体架构: 图片 Llama3的模型参数: 让我们来看看这些参数在LlaMa 3模型中的实际数值。 图片 [1] 上下文窗口(context-window)在实例化Lla...
-
Meta LlaMA 3模型深度解析
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 拉玛的故事 “在安第斯山脉崎岖的山区,生活着三种非常美丽的生物——里约、洛基和塞拉。它们有着光泽的皮毛和闪闪发光的眼睛,是力量和韧性的...
-
Llama大型语言模型原理详解
Llama大型语言模型是一种基于深度学习的自然语言处理模型,它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理,包括其结构、训练过程以及工作机制,帮助读者深入理解这一先进的模型。 一、模型结构 Llama模型...
-
Shortened LLaMA:针对大语言模型的简单深度剪枝法
? CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 论文标题 & 发表会议:Shortened LLaMA: A Simple Depth Pruning for Large Language Model...
-
AI绘画之网上大火的 “隐藏字” 效果怎么制作?只需 5 步教会你!
大家好,我是灵魂画师向阳 一、什么是“隐藏字”? 废话不多说,上图! 我不说,你能看出来这张图片有字吗? 很多人可能觉得不可思议,这张图哪来的字啊?就一张正常的图而已。而有些人可能依稀觉得是有文字的,但是又说不出来到底是什么。 让我们换种...
-
Llama模型下载
最近llama模型下载的方式又又变了,所以今天简单更新一篇文章,关于下载的,首先上官网,不管在哪里下载你都要去官网登记一下信息:https://llama.meta.com/llama2 然后会出现下面的信息登记网页: 我这里因为待业所以or...
-
阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B!
本文原文来自DataLearnerAI官方网站:阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B! | 数据学习者官方网站(Datalearner https://www...
-
Llama 3大模型发布!快速体验推理及微调
Meta,一家全球知名的科技和社交媒体巨头,在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。 据了解,Llama-3模型提供了两种不同参数规模的版本,分别是80亿参数和700亿参数。这两种版本分别针...
-
CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路...
1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder 超分辨率(SR)和图像生成是计算...
-
知识分享系列五:大模型与AIGC
大模型(LLM,Large Language Mode)是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的深度学习模型。大模型主要用于进行自然语言相关任务,给模型一些文本输入,它能返回相应的输出,完成的具体任务包括生成、分类、总结、改写...
-
「AIGC」AIGC技术入门
人工智能(AI)领域的多个重要概念和实践。 一、思考问题 什么是AI? 什么是AIGC? 什么是AGI? 什么是模型? 什么是大模型(LLM ,什么是小模型? 什么是提示词工程?如何写提示词 什么是神经网络? 召回率是什么含义?...
-
LLaMA-Factory参数的解答(命令,单卡,预训练)
前面这个写过,但觉得写的不是很好,这次是参考命令运行脚本,讲解各个参数含义。后续尽可能会更新,可以关注一下专栏!! *这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数解读不对或者有补充的请请反馈!谢谢(后续该文章可能会持续更新) * LLaMA...
-
CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向
风格迁移 1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations 基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,...
-
基于分层自监督学习将视觉Transformer扩展到千兆像素图像
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 Vision Transformers (ViT 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1 概括 对于计算病...
-
[从0开始AIGC][Transformer相关]:Transformer中的激活函数:Relu、GELU、GLU、Swish
[从0开始AIGC][Transformer相关]:Transformer中的激活函数 文章目录 [从0开始AIGC][Transformer相关]:Transformer中的激活函数 1. FFN 块 计算公式? 2. GeLU 计...
-
PVTransformer: 可扩展3D检测的点到体素Transformer
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接:https://arxiv.org...
-
探索Llama 3模型在地理行业的应用
Llama 3模型简介 Llama 3模型是基于最新的神经网络架构设计而成,它融合了Transformer和图像注意力机制,能够同时处理自然语言和图像输入,实现跨模态信息的融合和理解。这使得Llama 3模型在地理信息处理和分析方面有着独特的优势...
-
AIGC-controlnet代码详细解读
hugging face 社区diffusers官方代码:stable_diffusion/controlnetcontrolnet.ipynb 原始代码的解读可以看看这个博主的:万字长文解读Stable Diffusion的核心插件—ControlNet...
-
论坛主题采集与发布的艺术
在互联网的世界中,论坛一直都扮演着重要的角色,它不仅为网友提供一个交流和信息分享的平台,更是一个汇聚各种观点、见解的热闹市集。论坛的活力很大程度上来源于其不断更新的主题,那么,如何高效地采集并发布引人注目的主题,就成了论坛运营中不可或缺的一环。本文将深入探...
-
CVPR 2024|多模态场景感知,小红书高保真人体运动预测方法来了!
设想一下,你在家中准备起身,前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统,已经预测出你的行动路线(路线通畅,避开桌椅障碍物)。当你接近橱柜时,系统已经理解了你的意图,柜门在你达到之前就已自动打开,无需手动操作。 视频中,左边为 3D 场景...
-
250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞
Llama系列作为为数不多的优质开源LLM,一直受到开发者们的追捧。在Hugging Face社区的文本生成模型中,几乎是「霸榜」的存在。 就在520这天,一位名叫Nishant Aklecha的开发者在推特上宣布了自己的一个开源项目,名为「从头开始实...
-
KubeAI大模型推理加速实践|得物技术
除了上面提到的技术外,提高大模型推理速度的还有大模型的量化技术等,这里先不探讨,后面有机会,我们会单独发文章来介绍。 二、大模型发展面临的挑战 未来大模型的参数量肯定会越来越大,这也是大模型的发展趋势,对推理加速的要求会越来越高。 OpenAI在其论...
-
Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。 此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。 十几个小...
-
HuggingFace教你怎样做出SOTA视觉模型
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。 其他从业者在震撼之余,也再次开始思考怎么追赶这些超级模型了。 刚好在这时,HuggingFace和法国索邦大学的一篇论文,总结出了构建视觉大模型的关键经验,给开发者指明了一...
-
Llama-3的竞争对手来了——可运行在iPhone上的小体量高性能LLM模型Phi-3
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 熟悉我的文章的读者可能还记得我以前报道《课本就是你所需要的一切》(https://medium.com/@mgunton7/th...
-
MIT等惊人发现:全世界AI已学会欺骗人类!背刺人类盟友,佯攻击败99.8%玩家
【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。 AI教父Hinton的担心,不是没有道理。 他曾多次拉响警报,「如果不采取行...
-
OpenAI 推出 Mac 版 ChatGPT 应用,今年晚些时候推出 Windows 版
IT之家 5 月 14 日消息,OpenAI 终于推出了 ChatGPT 桌面版应用程序,该公司在官方公告中表示:“从今天开始,我们将首先向 Plus 用户推出 macOS 应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出 Wind...
-
OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o:语音对话更流畅,免费提供
IT之家 5 月 14 日消息,OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o,该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。最让人惊喜的是,GPT-4o 将免费提供给所有用户使用。 OpenAI 首席技术官穆里・穆...
-
人类成功实现「蓝牙上天」!接收来自600公里外太空信号
600公里!人类成功实现「蓝牙上天」,接收来自太空的信号。 以往认知中,蓝牙只是基于短距离的通信,但现在竟能直接连接卫星。这600公里相当于从伦敦到巴黎、从纽约到波士顿的距离。 这一壮举背后,是一家名为Hubble Network(后面简称Hubble)...
-
思维链不存在了?纽约大学最新研究:推理步骤可省略
红极一时的思维链技术,可能要被推翻了! 还在惊讶于大模型居然能够利用思维链分步骤思考? 还在苦于不会写思维链提示词? 来自纽约大学的研究人员表示:「没关系的,都一样」, 推理步骤不重要,不想写提示词也可以不写,用省略号代替就行了。 论文地址:https...
-
只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。 为了回答这一问题,来自斯坦福的研究者在博客《GPUs Go Brrr》中给出了答案。 图片 博客地址:https://haz...
-
美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI
【新智元导读】为训练AI模型,纽约州立大学的一名教授Brenden Lake,竟让自己不到2岁女儿头戴相机收集数据!要知道,Meta训Llama3直接用了15万亿个token,如果Lake真能让AI模型学习人类幼崽,从有限的输入中学习,那LLM的全球数据荒...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
超越ORB-SLAM3!SL-SLAM:低光、严重抖动和弱纹理场景全搞定
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低...
-
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。 众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由...