-
抱抱脸Open了OpenAI的秘密武器,网易参与复现
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。 来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。 最终成功展示...
-
VAR官网体验入口 自回归式AI视觉生成工具使用地址
VAR是一种新的视觉自回归建模方法,能够超越扩散模型,实现更高效的图像生成。它建立了视觉生成的幂律scaling laws,并具备零shots的泛化能力。VAR提供了一系列不同规模的预训练模型,供用户探索和使用。 点击前往VAR官网体验入口 谁可以从VA...
-
《AI星河》VR技术助力孤独症干预与康复 招募孤独症机构限时体验!
医学中,孤独症被定义为一种始于儿童早期,以社交与交流障碍、刻板行为和狭隘兴趣为核心症状的神经发育障碍性疾病。 据统计,我国孤独症儿童的患病率约为1%,这意味着每100个孩子中可能就有1个患有孤独症,且男童患病比例远高于女童,约为4:1。其中14岁以下的儿童...
-
[NLP]使用Alpaca-Lora基于llama模型进行微调教程
Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT 因此, Alpac...
-
FouriScale官网体验入口 高分辨率图像AI生成工具使用方法教程指南
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导,这个工具成功平衡了生成图像的结构完整性和保真度...
-
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和...
-
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确...
-
谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型
在文档处理中,特别是在视觉丰富的文档(VRDs)中,高效信息提取(IE 的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然...
-
MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址
MiniGPT4-Video是什么? MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。 点击前往MiniGPT4-Video官网体验入口 MiniGPT4-Video的主要特点...
-
太全了!多模态深度学习的综述!
1.介绍 我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些...
-
大模型存储实践:性能、成本与多云
大模型应用领域的迅猛发展,也推动着基础技术领域持续探索和进步。文件存储服务在 AI 基础设施中成为不可或缺的重要部分。 在过去 18 个月的时间里,JuiceFS 团队与 MiniMax,阶跃星辰,智谱 AI,面壁智能,零一万物等大模型团队展开了交流与合...
-
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先...
-
斯坦福团队大模型Octopus v2火了:手机就能运行 准确性超越GPT-4
近日,斯坦福大学研究人员发布的 Octopus v2模型引起了开发者社区的极大关注,其20亿参数的模型一夜下载量超过2k。 这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行,并在准确性和延迟方面表现超越了 GPT-4,同时将上下文长度减少了95%。...
-
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
30个方向130篇!CVPR 2023最全AIGC论文 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2...
-
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。 在语义表示上,文本嵌入模型将文本转换为高...
-
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火
斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型,这款模型以其在端侧设备上的强大运行能力而受到广泛关注。 Octopusv2是一款拥有20亿参数的开源语言模型,专为在Android设备上运行而设计,同时也适用于汽车、个人电脑等其他...
-
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
引言 今天带来经典论文 LLaMA: Open and Efficient Foundation Language Models 的笔记,论文标题翻译过来就是 LLaMA:开放和高效的基础语言模型。 LLaMA提供了不可多得的大模型开发思路,为很多国...
-
生成型人工智能优化框架研究
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 生成类似人类的文本和语音曾经只有在科幻小说中才成为可能。但是,GPT-3和PaLM等大型语言模型(LLM)的快速发展...
-
小白也能微调大模型:LLaMA-Factory使用心得
大模型火了之后,相信不少人都在尝试将预训练大模型应用到自己的场景上,希望得到一个垂类专家,而不是通用大模型。 目前的思路,一是RAG(retrieval augmented generation ,在模型的输入prompt中加入尽可能多的“目标领域”的相...
-
论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models
导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/abs/2307.09288 1 引言 大型语言...
-
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了! 来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型: 论文...
-
【讲解下如何Stable Diffusion本地部署】
🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 目录 🎥前言 🎥前提条件 🎥步骤...
-
AIGC在广告创意上的实践
1 引言 1.1 背景 随着抖音、小红书等新媒体的快速崛起,新媒体广告需求日益增大。而新媒体广告投放的图片和文案创意占用了运营工作者大量的精力和时间。文案、图片、视频广告创意制作难度大、效率低、成本高、周期长的问题日益凸显。如何快速的完成广告创意,...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调 文章原始地址:https://onlyar.site/2024/01/14/NLP-LLaMA-Factory-web-tuning/ 引言 大语...
-
OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!
4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。 这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
llama-factory简介
llamafactory是什么,能干什么 LLaMA-Factory 是一个易于使用的大规模语言模型(Large Language Model, LLM)微调框架,它支持多种模型,包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen ...
-
AIGC批量图生成的一些思考
从技术到先进生产力,从先进装备到作战能力,中间隔了一道GAP。现在AI技术进展很快,开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元,为业务带来实际的价值是我们必须要解决的一个问题。 消费侧技术点 中文clip: 这...
-
【AI】在本地 Docker 环境中搭建使用 Hugging Face 托管的 Llama 模型
目录 Hugging Face 和 LLMs 简介 利用 Docker 进行 ML 格式的类型 请求 Llama 模型访问 创建 Hugging Face 令牌 设...
-
Stable Diffusion中的Embeddings
什么是Embeddings? Embeddings是一种数学技术,它允许我们将复杂的数据(如文本或图像)转换为数值向量。这些向量是高维空间中的点,可以捕捉数据的关键特征和属性。在文本处理中,例如,embeddings可以捕捉单词或短语...
-
AIGC学习笔记——DALL-E2详解+测试
它主要包括三个部分:CLIP,先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALL·E2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客) 论文地址:https...
-
Transformer引领AI百花齐放:从算法创新到产业应用,一文读懂人工智能的未来
一、引言 近年来,人工智能技术取得了举世瞩目的成果,其中,自然语言处理(NLP)和计算机视觉等领域的研究尤为突出。在这些领域,一种名为Transformer的模型逐渐成为研究热点,以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...
-
【保姆级讲解如何Stable Diffusion本地部署】
🌈个人主页:程序员不想敲代码啊🌈 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家🏆 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! Stable Diffusion本地部...
-
腾讯开源视频生成新工具,论文还没发先上代码的那种
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 先上代码再发论文,腾讯新开源文生视频工具火了。 名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。 老规矩,先看...
-
大模型创业淘汰潮开始了:这是第一个估值 10 亿美元的祭品
风雨飘摇中的Stability AI还能走多远? 近期,AI 绘画神器 Stable Diffusion 背后的开发公司 Stability AI 发生一系列变动,包括 CEO Emad Mostaque 在内的多名核心高管、技术人员离职,公司面临现金流危...
-
llama笔记:官方示例解析 example_chat_completion.py
1 导入库 from typing import List, Optional ''' 从typing模块中导入List和Optional。 typing模块用于提供类型注解的支持,以帮助明确函数预期接收和返回的数据类型。 List用于指定列表...
-
集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder
Stability AI又有新动作!程序员又有危机了? 3月26日,Stability AI推出了先进的代码语言模型Stable Code Instruct 3B,该模型是在Stable Code 3B的基础上进行指令调优的Code LM。 Stab...
-
全面综述!大模型到底微调个啥?或者说技术含量到底有多大?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大型模型代表了多个应用领域的突破性进展,能够在各种任务中取得显著成就。然而,它们前所未有的规模带来了巨大的计算成本。这些模型通常由数十亿个参数组成,需要大量的计算资源才...
-
20款AI绘画生图软件的优缺点对比
以下是20款AI生图软件的对比。 DeepArt: 优点:使用深度学习算法生成艺术风格的图像,效果独特。 缺点:生成图像的时间可能较长,需要等待。 DALL-E: 优点:由OpenAI开发的模型,能够根据文本描述生成图像。 缺点:目前...
-
如何修改大模型的位置编码 --以LLama为例
最近在看RoPE相关内容,一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型,已经训练好了,但是怎么修改已经训练好的模型位置编码。查了以下相关代码,记录一下。原理这里就不细讲了,贴几个相关博客。十分钟读懂旋转编码(RoPE)Tran...
-
微软、OpenAI投资1000亿美元,打造“Stargate”超级计算机
3月30日,著名科技媒体the information独家消息,微软、OpenAI正在开发一个数据中心项目,包含一台名为“Stargate”超级计算机将配备数百万个AI专用芯片,主要为OpenAI的研发、产品提供服务。 据一位曾与OpenAI联合创始人兼首...
-
LLaMA-Factory参数的解答
打开LLaMA-Factory的web页面会有一堆参数 ,但不知道怎么选,选哪个,这个文章详细解读一下,每个参数到底是什么含义这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数不对请反馈一下,或者有补充的也可以!谢谢(后续该文章可能会持续更新)...
-
AI绘画Imagen大力出奇迹生成图像
AI绘画Imagen大力出奇迹生成图像 介绍 Imagen是一个文本到图像的扩散模型,由Google大脑团队研究所开发。 Imagen通过创新的设计,摈弃了需要预训练视觉-语言模型的繁琐步骤,直接采用了T5等大规模语言模型作为文...
-
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
大佬出走后,第一个模型来了! 就在今天,Stability AI官宣了新的代码模型Stable Code Instruct 3B。 图片 要说Stability也是真的很神奇,首席执行官辞职了,Stable Diffusion其中几位作者也离开了,投资公...
-
知乎AI革命:智能搜索与实时问答的融合
在生成式人工智能(Generative AI)的信息技术跃迁背景下,如何看待知乎当下和未来,有三个基本的视角: 它是大语言模型预训练中文语料最重要来源之一,例如最近现象级的大模型聊天应用Kimi Chat,就以知乎为重要的训练资料来源(甚至是80%以上的...
-
金融新质生产力创新论坛在京召开 发布全国首部《金融大模型》著作
近年来,以大模型为代表的人工智能技术进一步深刻提升数字金融新范式。2024年政府工作报告提出,要大力推进现代化产业体系建设,加快发展新质生产力,“人工智能+”被首次写入政府工作报告。可以显见,随着AI产业全面提升至国家战略高度,新一轮科技革命和产业革命将...
-
开源AI到底是什么?业界:超出开源软件范畴,需要重新界定
最近AI圈突然流行起开源概念。Meta承诺将会打造开源AI,马斯克起诉OpenAI,说它缺少开源模型。与此同时,一批科技领袖和科技企业纷纷为开源概念呐喊。不过科技界碰到一个难以解决的根本问题:它们对“开源AI”的概念无法达成共识。 照字面意思,开源A...
-
大型语言模型如何教会自己遵循人类指令?
译者 | 李睿 审校 | 重楼 如今,人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ,也就是让大型语言模型教会自己遵循人类指令。 指令微调(IFT ...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...