-
生成型人工智能优化框架研究
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 生成类似人类的文本和语音曾经只有在科幻小说中才成为可能。但是,GPT-3和PaLM等大型语言模型(LLM)的快速发展...
-
小白也能微调大模型:LLaMA-Factory使用心得
大模型火了之后,相信不少人都在尝试将预训练大模型应用到自己的场景上,希望得到一个垂类专家,而不是通用大模型。 目前的思路,一是RAG(retrieval augmented generation ,在模型的输入prompt中加入尽可能多的“目标领域”的相...
-
论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models
导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/abs/2307.09288 1 引言 大型语言...
-
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了! 来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型: 论文...
-
【讲解下如何Stable Diffusion本地部署】
🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 目录 🎥前言 🎥前提条件 🎥步骤...
-
AIGC在广告创意上的实践
1 引言 1.1 背景 随着抖音、小红书等新媒体的快速崛起,新媒体广告需求日益增大。而新媒体广告投放的图片和文案创意占用了运营工作者大量的精力和时间。文案、图片、视频广告创意制作难度大、效率低、成本高、周期长的问题日益凸显。如何快速的完成广告创意,...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调 文章原始地址:https://onlyar.site/2024/01/14/NLP-LLaMA-Factory-web-tuning/ 引言 大语...
-
OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!
4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。 这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
llama-factory简介
llamafactory是什么,能干什么 LLaMA-Factory 是一个易于使用的大规模语言模型(Large Language Model, LLM)微调框架,它支持多种模型,包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen ...
-
AIGC批量图生成的一些思考
从技术到先进生产力,从先进装备到作战能力,中间隔了一道GAP。现在AI技术进展很快,开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元,为业务带来实际的价值是我们必须要解决的一个问题。 消费侧技术点 中文clip: 这...
-
【AI】在本地 Docker 环境中搭建使用 Hugging Face 托管的 Llama 模型
目录 Hugging Face 和 LLMs 简介 利用 Docker 进行 ML 格式的类型 请求 Llama 模型访问 创建 Hugging Face 令牌 设...
-
Stable Diffusion中的Embeddings
什么是Embeddings? Embeddings是一种数学技术,它允许我们将复杂的数据(如文本或图像)转换为数值向量。这些向量是高维空间中的点,可以捕捉数据的关键特征和属性。在文本处理中,例如,embeddings可以捕捉单词或短语...
-
AIGC学习笔记——DALL-E2详解+测试
它主要包括三个部分:CLIP,先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALL·E2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客) 论文地址:https...
-
Transformer引领AI百花齐放:从算法创新到产业应用,一文读懂人工智能的未来
一、引言 近年来,人工智能技术取得了举世瞩目的成果,其中,自然语言处理(NLP)和计算机视觉等领域的研究尤为突出。在这些领域,一种名为Transformer的模型逐渐成为研究热点,以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...
-
【保姆级讲解如何Stable Diffusion本地部署】
🌈个人主页:程序员不想敲代码啊🌈 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家🏆 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! Stable Diffusion本地部...
-
腾讯开源视频生成新工具,论文还没发先上代码的那种
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 先上代码再发论文,腾讯新开源文生视频工具火了。 名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。 老规矩,先看...
-
大模型创业淘汰潮开始了:这是第一个估值 10 亿美元的祭品
风雨飘摇中的Stability AI还能走多远? 近期,AI 绘画神器 Stable Diffusion 背后的开发公司 Stability AI 发生一系列变动,包括 CEO Emad Mostaque 在内的多名核心高管、技术人员离职,公司面临现金流危...
-
llama笔记:官方示例解析 example_chat_completion.py
1 导入库 from typing import List, Optional ''' 从typing模块中导入List和Optional。 typing模块用于提供类型注解的支持,以帮助明确函数预期接收和返回的数据类型。 List用于指定列表...
-
集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder
Stability AI又有新动作!程序员又有危机了? 3月26日,Stability AI推出了先进的代码语言模型Stable Code Instruct 3B,该模型是在Stable Code 3B的基础上进行指令调优的Code LM。 Stab...
-
全面综述!大模型到底微调个啥?或者说技术含量到底有多大?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大型模型代表了多个应用领域的突破性进展,能够在各种任务中取得显著成就。然而,它们前所未有的规模带来了巨大的计算成本。这些模型通常由数十亿个参数组成,需要大量的计算资源才...
-
20款AI绘画生图软件的优缺点对比
以下是20款AI生图软件的对比。 DeepArt: 优点:使用深度学习算法生成艺术风格的图像,效果独特。 缺点:生成图像的时间可能较长,需要等待。 DALL-E: 优点:由OpenAI开发的模型,能够根据文本描述生成图像。 缺点:目前...
-
如何修改大模型的位置编码 --以LLama为例
最近在看RoPE相关内容,一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型,已经训练好了,但是怎么修改已经训练好的模型位置编码。查了以下相关代码,记录一下。原理这里就不细讲了,贴几个相关博客。十分钟读懂旋转编码(RoPE)Tran...
-
微软、OpenAI投资1000亿美元,打造“Stargate”超级计算机
3月30日,著名科技媒体the information独家消息,微软、OpenAI正在开发一个数据中心项目,包含一台名为“Stargate”超级计算机将配备数百万个AI专用芯片,主要为OpenAI的研发、产品提供服务。 据一位曾与OpenAI联合创始人兼首...
-
LLaMA-Factory参数的解答
打开LLaMA-Factory的web页面会有一堆参数 ,但不知道怎么选,选哪个,这个文章详细解读一下,每个参数到底是什么含义这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数不对请反馈一下,或者有补充的也可以!谢谢(后续该文章可能会持续更新)...
-
AI绘画Imagen大力出奇迹生成图像
AI绘画Imagen大力出奇迹生成图像 介绍 Imagen是一个文本到图像的扩散模型,由Google大脑团队研究所开发。 Imagen通过创新的设计,摈弃了需要预训练视觉-语言模型的繁琐步骤,直接采用了T5等大规模语言模型作为文...
-
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
大佬出走后,第一个模型来了! 就在今天,Stability AI官宣了新的代码模型Stable Code Instruct 3B。 图片 要说Stability也是真的很神奇,首席执行官辞职了,Stable Diffusion其中几位作者也离开了,投资公...
-
知乎AI革命:智能搜索与实时问答的融合
在生成式人工智能(Generative AI)的信息技术跃迁背景下,如何看待知乎当下和未来,有三个基本的视角: 它是大语言模型预训练中文语料最重要来源之一,例如最近现象级的大模型聊天应用Kimi Chat,就以知乎为重要的训练资料来源(甚至是80%以上的...
-
金融新质生产力创新论坛在京召开 发布全国首部《金融大模型》著作
近年来,以大模型为代表的人工智能技术进一步深刻提升数字金融新范式。2024年政府工作报告提出,要大力推进现代化产业体系建设,加快发展新质生产力,“人工智能+”被首次写入政府工作报告。可以显见,随着AI产业全面提升至国家战略高度,新一轮科技革命和产业革命将...
-
开源AI到底是什么?业界:超出开源软件范畴,需要重新界定
最近AI圈突然流行起开源概念。Meta承诺将会打造开源AI,马斯克起诉OpenAI,说它缺少开源模型。与此同时,一批科技领袖和科技企业纷纷为开源概念呐喊。不过科技界碰到一个难以解决的根本问题:它们对“开源AI”的概念无法达成共识。 照字面意思,开源A...
-
大型语言模型如何教会自己遵循人类指令?
译者 | 李睿 审校 | 重楼 如今,人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ,也就是让大型语言模型教会自己遵循人类指令。 指令微调(IFT ...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...
-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
开源大模型DBRX:1320亿参数,比Llama2-70B快1倍
大数据公司Databricks最近发布了一款名为DBRX的MoE大模型,引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型,成为了新的开源之王。这款模型的总参数量达到了1320亿,但每次激活只有360亿参数,并且其生成速...
-
铁了心要打败OpenAI!坚信开源打败闭源!这家知名数据厂商4个月打造最强开源大模型!性能超越Claude3,速度是羊驼2倍
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 大模型领域,迭代的速度简直要以天计算。昨天,大家还在热议Claude3超大杯版Opus在Elo Rating榜单上取代GPT4-Turbo-1106成为了新王。今天大家又发现开源...
-
新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍
“最强”开源大模型之争,又有新王入局: 大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称: 它在基准测试中击败了此前所有开源模型。 包括同为混合专家模型的Grok-1和Mixtral。 新王搅局,迅速引发了开源社区的热议。 毕竟,仅...
-
探秘Copilot Clone: 智能代码助手的开源新秀
探秘Copilot Clone: 智能代码助手的开源新秀 项目地址:https://gitcode.com/hieunc229/copilot-clone 在当今的软件开发世界中,效率和生产力是每个开发者关注的核心。GitHub 的 Copilot...
-
文心一言指令词宝典之职场效率篇
作者:哈哥撩编程(视频号、抖音、公众号同名) 新星计划·全栈领域优秀创作者 博客专家·全国博客之星第四名 超级个体·COC上海社区主理人 特约讲师·谷歌亚马逊演讲嘉宾 科技博主·极星会首批签约作者 🏆 推荐专栏: 🏅 程序员:...
-
llama factory学习笔记
模型 模型名 模型大小 默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - BLOOM...
-
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
广阔的战场,风暴兵在奔跑…… prompt:Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成...
-
今年,中国AI大模型产业发展看这些
现在的人工智能,已不是「可以用」,而是「非常好用」了。 上个星期,谷歌与李世石一次久违的对话,唤起了人们的回忆: 仔细想来,自2016年 AlphaGo 在围棋上打败人类起已过去八年。如今人工智能技术的发展却丝毫没有减速,正在给我们创造更大的震撼。 生成式...
-
Stable Diffusion生成式扩散模型代码实现原理
Stable Diffusion可以使用PyTorch或TensorFlow等深度学习框架来实现。这些框架提供了一系列的工具和函数,使得开发者可以更方便地构建、训练和部署深度学习模型。因此可以使用PyTorch或TensorFlow来实现Stable Di...
-
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...
-
近屿智能成功完成A轮融资,打造独家AIGC工程师与产品经理学习路径图引发热议
近屿智能OJAC的发展历程与行业实力 在2024年1月,上海近屿智能科技有限公司(简称近屿智能)宣布成功完成A轮融资。智望资本作为领头投资者,金沙江创投也参与了增资。这一里程碑事件不仅突显了近屿智能在人力资源技术领域的领先地位,也显示了投资者对其技术实力...
-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...
-
Stability AI开源3B代码生成模型:可补全,还能Debug
本周一,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。 Stable Code Instruct 3B 是一个基于 Stable Code 3B 的指令调整编码语言模型(Code LM)。给出自然语言...
-
中国工程院院士唐志共:AI破解传统气动外形设计难题 实现高效多样化创新
3月25日消息(赵婷婷)日前,在“昇思人工智能框架峰会2024”上,中国科学院院士、中国空气动力学会理事长唐志共表示,近年来,随着人工智能技术的高速发展,人工智能与科学计算的融合不断迸发出新的火花,形成AI的新范式。这种范式以物理驱动、物理+数据融...
-
继电动汽车之后,下一次汽车转型是否已经发生?
随着从内燃机汽车向电动汽车的转变从未消失,停在街边的汽车连接充电线如何迅速成为一种常见景象。而且似乎一些汽车制造商已经度过了过渡阶段。汽车数字化和计算机化是另一个重大转变,它拥有约1亿行代码和1,000多个半导体芯片,而且这一趋势还在持续增长。据估计,...