transformer 第35页

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1067阅读

【原创】用 VisualGLM 进行AIGC多模识别和内容生成

最近几个月，整个AI行业的LLM（大语言模型）蓬勃发展，除了过去传统的纯文字的多模态能力的视觉语言模型，如 GPT-4，ImageBind等表现令人印象深刻。 ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日，智谱...

人工智能 2023-11-09 人工智能

873阅读

开启想象翅膀：轻松实现文本生成模型的创作应用，支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用

开启想象翅膀：轻松实现文本生成模型的创作应用，支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用 TextGen: Implementation of Text Generation...

生成式AI 2023-11-09 人工智能

712阅读

ChatGPT开源平替(2)llama

最近，FacebookResearch 开源了他们最新的大语言模型 LLaMA，训练使用多达14,000 tokens 语料，包含不同大小参数量的模型 7B、13B 、30B、 65B，研究者可以根据自身算力配置进行选择。 ...

大数据 2023-11-09 人工智能

762阅读

Meta最新模型LLaMA细节与代码详解

Meta最新模型LLaMA细节与代码详解 0. 简介 1. 项目环境依赖 2. 模型细节 2.1 RMS Pre-Norm 2.2 SwiGLU激活函数 2.3 RoPE旋转位置编码 3. 代码解读 3.1 tokenizer 3.2 m...

人工智能 2023-11-09 人工智能

768阅读

谷歌新论文称“AI即将超越人类”还不现实，其有自身局限性

11月8日消息，三名谷歌研究人员在最新提交给预印本文献库(ArXiv 的一篇论文中指出，人工智能领域的底层技术深度神经网络transformer并不擅长归纳概括。 Transformer是ChatGPT等人工智能工具背后大语言模型的基础。在11月1日提...

AIGC 2023-11-09 人工智能

713阅读

Llama模型结构解析（源码阅读）

目录 1. LlamaModel整体结构流程图 2. LlamaRMSNorm 3. LlamaMLP 4. LlamaRotaryEmbedding 参考资料： https://zhuanlan.zhihu.com/p/636784...

大数据 2023-11-09 人工智能

967阅读

北大具身智能团队提出需求驱动导航，对齐人类需求，让机器人更高效

如果想让机器人帮助你，你通常需要下达一个较为精准的指令，但指令在实际中的实现效果不一定理想。如果考虑真实环境，当要求机器人找某个特定的物品时，这个物品不一定真的存在当前的环境内，机器人无论如何也找不到；但是环境当中是不是可能存在一个其他物品，它和用户要求...

生成式AI 2023-11-09 人工智能

674阅读

ChatGPT只算L1阶段，谷歌提出AGI完整路线图

AGI应该如何发展、最终呈什么样子？现在，业内第一个标准率先发布： AGI分级框架，来自谷歌DeepMind。该框架认为，发展AGI必须遵循6个基本原则：关注能力，而非过程同时衡量技能水平和通用性专注于认知和元认知任务关注最高潜力，而非...

生成式AI 2023-11-08 人工智能

687阅读

LLM - LLaMA-2 获取文本向量并计算 Cos 相似度

目录一.引言二.获取文本向量 1.hidden_states 与 last_hidden_states ◆ hidden_states ◆ last_hidden_states 2.LLaMA-2 获取 hidden_states ◆...

人工智能 2023-11-08 人工智能

1362阅读

Stable Diffusion WebUI linux部署问题

当我部署好环境后，准备大张旗鼓开搞时，进入项目地址运行python launch.py后发现下面连接着的报错是 OSError: Can't load tokenizer for 'openai/clip-vit-large-patch14'....

AIGC 2023-11-08 人工智能

1853阅读

中文大语言模型 Llama-2 7B（或13B）本地化部署（国内云服务器、GPU单卡16GB、中文模型、WEB页面TextUI、简单入门）

本文目的是让大家先熟悉模型的部署，简单入门；所以只需要很小的算力，单台服务器单GPU显卡（显存不低于12GB），操作系统需要安装 Ubuntu 18.04。 1 服务器&操作系统 1.1服务器的准备...

生成式AI 2023-11-08 人工智能

1307阅读

万字长文解读Stable Diffusion的核心插件—ControlNet

目录一、介绍二、使用方法三、ControlNet结构 1.整体结构 2.ControlLDM 3.Timestep Embedding 4.HintBlock 5.ResBlock 6.SpatialTransformer 7.S...

人工智能 2023-11-08 人工智能

1895阅读

MoE：LLM终身学习的可能性

性质说明知识记忆（knowledge retention） √ LLM预训练后，具备世界知识，小规模finetune不易对LLM造成遗忘灾难。但大规模数据续训会造成。前向迁移（forward...

大数据 2023-11-08 人工智能

804阅读

【LLM】Windows本地CPU部署民间版中文羊驼模型（Chinese-LLaMA-Alpaca）踩坑记录

目录前言准备工作 Git Python3.9 Cmake 下载模型合并模型部署模型前言想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~...

生成式AI 2023-11-08 人工智能

837阅读

Rancher 2.6 全新 Logging 快速入门

作者简介袁振，SUSE Rancher 技术支持经理，负责订阅客户售后技术支持团队，为订阅客户提供技术支持服务。2016 年开始接触容器、Kubernetes 技术，对自动化运维、Devops、Kubernetes、prometheus 和其他云原生相关...

AIGC 2023-11-08 大数据

723阅读

如何高效训练？综述汇总：大型深度学习训练的并行分布式系统

本文经自动驾驶之心公众号授权转载，转载请联系出处。 23年1月论文“Systems for Parallel and Distributed Large-Model Deep Learning Training“，来自UCSD。深度学习（DL）已经...

AIGC 2023-11-08 人工智能

746阅读

多模态音乐AI框架Video2Music 为视频生成情感相符的音乐

近日，一款创新的人工智能多模态音乐生成框架Video2Music引起了广泛关注。该框架利用独特的数据集和经过用户研究验证的转换器模型，能够为视频生成情感上相符的音乐，填补了这一领域的空白。据悉，Video2Music的GitHub Repo已经发布，为研究...

人工智能 2023-11-08 人工智能

885阅读

寒武纪与百川智能完成大模型适配

据寒武纪科技官方消息，近日，寒武纪思元（MLU）系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配。寒武纪的思元（MLU）云端智能加速卡支持多种数据位宽、超大内存容量和...

AIGC 2023-11-08 人工智能

664阅读

马毅、沈向洋联手，首届CPAL开奖！16人获新星奖，华人学者占据半壁江山

就在昨天，首届CPAL简约学术会议，正式公布了新星奖获奖者名单！ CPAL专注于解决机器学习、信号处理、优化等领域中普遍存在的简约、低维结构问题，并探索低维结构在智能硬件与系统、交叉科学和工程等新兴方向的应用。创办这个会议的出发点，就是将其设计为一个...

人工智能 2023-11-07 人工智能

715阅读

百度网盘首页全新改版：个人文档feed流推荐、大模型加持2步内完成所有操作

10月17日在2023百度世界大会上，百度创始人、董事长兼首席执行官李彦宏表示，重构后的百度网盘，不但实现了从图形界面交互到自然语言交互的转变，还增强了多模态信息理解。据了解，自2012年上线至今，百度网盘已积累8亿用户，文件量级达4万亿，每天用户会上传...

AIGC 2023-11-07 人工智能

817阅读

科普神文，GPT背后的Transformer模型

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对文本的编码与数据分析，那人工智能时代应该早就到来了，为什么唯独是GPT...

AIGC 2023-11-07 人工智能

815阅读

联发科发布天玑9300生成式AI移动芯片支持运行330亿参数大模型

昨日晚间，联发科技发布了天玑9300旗舰5G 生成式 AI 移动芯片，采用台积电第三代4nm 制程。该芯片预计于2023年底上市。这款芯片采用全大核架构设计，提供高智能、高性能、高能效、低功耗的特性，为用户带来卓越的生成式 AI 体验。天玑9300采...

AIGC 2023-11-07 人工智能

677阅读

天玑9300 AI能力飙升：最高支持330亿参数的AI大语言模型

快科技11月6日消息，联发科今晚正式发布天玑9300旗舰5G生成式AI移动芯片，支持在端侧生成式AI、游戏、影像等方面定义旗舰新体验。据介绍，天玑9300集成MediaTek第七代AI处理器APU 790，为生成式AI而设计，其性能和能效得到显著提升，整...

人工智能 2023-11-07 人工智能

661阅读

AI视野：xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理

????大模型动态李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字零一万物发布全球最强的开源大模型Yi-34B，具备超强的语言理解和处理能力，支持处理40万汉字，在中文指标上表现卓越，标志着中国在大模型领域的重大突破。项目地址:htt...

AIGC 2023-11-06 人工智能

776阅读

大型语言模型（LLM）技术精要，不看亏了

哈喽，大家好。今天分享一篇知乎高赞文章，作者是张俊林老师。图片读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型（LLM）...

AIGC 2023-11-06 人工智能

793阅读

谷歌DeepMind力证：GPT-4终局是人类智慧总和！Transformer模型无法超越训练数据进行泛化

Transformer模型是否能够超越预训练数据范围，泛化出新的认知和能力，一直是学界争议已久的问题。最近谷歌DeepMind的3位研究研究人员认为，要求模型在超出预训练数据范围之外泛化出解决新问题的能力，几乎是不可能的。 LLM的终局就是人类智慧总和...

AIGC 2023-11-06 人工智能

640阅读

元象XVERSE开源650亿参数通用大模型XVERSE-65B

元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用。 XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构，参数规模达到了650亿。模型通过训练了2....

人工智能 2023-11-06 人工智能

695阅读

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

国内规模最大的开源大模型来了：参数650亿、基于2.6-3.2万亿token训练。排名仅次于“猎鹰”和“羊驼”，性能媲美GPT3.5，现在就能无条件免费商用。它就是来自深圳元象公司的XVERSE。根据算力、资源限制和具体任务需求的不同，我们能对...

人工智能 2023-11-06 人工智能

692阅读

蚂蚁百灵大模型通过备案多款产品即将向公众开放

蚂蚁百灵大模型已按照国家七部委联合公布的《生成式人工智能服务管理暂行办法》完成备案，基于该大模型的多款产品也已陆续完成内测，即将向公众开放。蚂蚁百灵语言大模型，它采用Transformer架构，经过万亿级Token语料的训练，支持窗口长度达到32K，并...

AIGC 2023-11-06 人工智能

600阅读

一篇学会大模型浪潮下的时间序列预测

今天跟大家聊一聊大模型在时间序列预测中的应用。随着大模型在NLP领域的发展，越来越多的工作尝试将大模型应用到时间序列预测领域中。这篇文章介绍了大模型应用到时间序列预测的主要方法，并汇总了近期相关的一些工作，帮助大家理解大模型时代时间序列预测的研究方法。...

人工智能 2023-11-06 人工智能

721阅读

AI生图太诡异？马里兰&NYU合力解剖神经网络，CLIP模型神经元形似骷髅头

AI黑盒如何才能解？神经网络模型在训练的时，会有些ReLU节点「死亡」，也就是永远输出0，不再有用。它们往往会被被删除或者忽略。恰好赶上了模糊了生与死的界限的节日——万圣节，所以这是探索那些「死节点」的好时机。对于大多数图像生成模型来说，会输出正...

人工智能 2023-11-03 人工智能

737阅读

科普神文，一次性讲透AI大模型的核心概念

图片令牌，向量，嵌入，注意力，这些AI大模型名词是否一直让你感觉熟悉又陌生，如果答案肯定的话，那么朋友，今天这篇科普神文不容错过。我将结合大量示例及可视化的图形手段，为你由浅入深一次性讲透AI大模型的核心概念。引言随着科技公司及国际竞争的不断推进，...

人工智能 2023-11-03 人工智能

1132阅读

大模型: 模型大了难在哪里？

大家好，我是Tim。自从GPT模型诞生以来，其参数规模就在不停的扩大。但模型并非简单的直接变大，需要在数据、调度、并行计算、算法和机器资源上做相应的改变。今天就来总结下，什么是大模型，模型变大的难在哪里以及对于CV/NLP或者搜推广场景上有什么应对策...

人工智能 2023-11-03 人工智能

1455阅读

高德云图发布产业融合大模型 “云睿”、全自动数字建模平台“云境”

在2023年云栖大会上，高德云图发布了业内首个基于时空信息的产业融合大模型 ——“云睿”。该模型融合了地图时空类数据，提供可定制扩展的生成式人工智能（AIGC）融合解决方案。同时，高德云图还发布了全自动化数字孪生建模平台 ——“云境”，以及发起 “云链千...

AIGC 2023-11-02 人工智能

679阅读

姚班斯隆奖马腾宇正式宣布大模型创业

清华姚班校友兼斯坦福大学助理教授马腾宇宣布了一个引人注目的创业项目，名为Voyage，旨在提供卓越的嵌入模型。这个嵌入模型在MTEB数据集上表现超越OpenAI，成为SOTA。该项目的成功也得益于三位知名教授，包括斯坦福人工智能实验室主任Christoph...

人工智能 2023-11-01 人工智能

787阅读

图模型也要大？清华朱文武团队有这样一些观点

在大模型时代，图机器学习面临什么样的机遇和挑战？是否存在，并该如何发展图的大模型？针对这一问题，清华大学朱文武教授团队首次提出图大模型（Large Graph Model）概念，系统总结并梳理了图大模型相关的概念、挑战和应用；进一步围绕动态性和可解释性，...

AIGC 2023-10-31 人工智能

807阅读

八张3090，1天压缩万亿参数大模型！3.2TB骤降至160GB，压缩率高达20倍

随着GPT-4的架构被知名业内大佬「开源」，混合专家架构（MoE）再次成为了研究的重点。 GPT-4拥有16个专家模型，总共包含1.8万亿个参数。每生成一个token需要使用大约2800亿参数和560TFLOPs 然而，模型更快、更准确的代价，则是巨大...

人工智能 2023-10-31 人工智能

820阅读

AI视野：百川发布Baichuan2-192K大模型；DALL·E3新增种子功能；ChatGPT Plus会员可上传和分析文件；谷歌Bard支持实时生成回复

????大模型动态百川智能发布Baichuan2-192K大模型，可处理35万汉字百川智能发布了Baichuan2-192K大模型，拥有全球最长的上下文窗口，处理约35万个汉字，超越了Claude2。百川大模型官网:https://top.aibas...

AIGC 2023-10-30 人工智能

786阅读

世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么？

本文经自动驾驶之心公众号授权转载，转载请联系出处。大模型今年爆火，很多领域上的应用如雨后春笋般涌现，很多优秀的工作出现，主要集中在数据生成和场景分析表述两部分，重点解决自动驾驶的长尾分布问题和场景识别。今天自动驾驶之心带大家梳理下自动驾驶行业上的大模...

AIGC 2023-10-30 人工智能

983阅读

比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了

从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型，Transformer 正以锐不可当之势席卷这个世界，但人们也不禁会问：Transformer 是唯一选择吗？斯坦福大学和纽约州立大学布法...

AIGC 2023-10-30 人工智能

719阅读

港大等发布GraphGPT：1/50微调参数，准确率提升10倍！无需超长token，LLM也能读懂图结构

图神经网络（Graph Neural Networks）已经成为分析和学习图结构数据的强大框架，推动了社交网络分析、推荐系统和生物网络分析等多个领域的进步。图神经网络的主要优势在于它们能够捕获图数据中固有的结构信息和依赖关系。利用消息传递和聚合机制，图...

AIGC 2023-10-28 人工智能

817阅读

实测腾讯AI文生图！王者荣耀画风一键直出，小程序就能玩

鹅厂大模型，又有新玩法! 发布不到两个月，腾讯混元大模型就速通了一个新版本，除了语言模型升级以外，还悄悄上线了AIGC最火热?的功能—— 文生图。和语言模型一样，文生图同样可以通过微信小程序直接体验。不过与Midjourney独立出图不同，混元的文生...

AIGC 2023-10-27 人工智能

1295阅读

DeepMind：谁说卷积网络不如ViT？

深度学习的早期成功可归功于卷积神经网络（ConvNets）的发展。近十年来，ConvNets 主导了计算机视觉基准测试。然而近年来，它们越来越多地被 ViTs（Vision Transformers）所取代。很多人认为，ConvNets 在小型或中等规...

人工智能 2023-10-27 人工智能

733阅读

用检索增强生成技术解决人工智能幻觉问题

作者| Rahul Pradhan 来源| https://www.infoworld.com/article/3708254/addressing-ai-hallucinations-with-retrieval-augmented-generatio...

AIGC 2023-10-27 人工智能

870阅读

腾讯混元大模型再进化，文生图能力重磅上线，这里是一手实测

2023年，大模型的落地按下加速键，文生图便是最火热的应用方向之一。自从 Stable Diffusion 诞生以来，海内外的文生图大模型不断涌现，一时有「神仙打架」之感。每一次技术迭代，都带来了模型生成效果和速度的飞速提升。就在今天，腾讯混元大模型也...

AIGC 2023-10-27 人工智能

771阅读

突发！英伟达H800/A800禁令竟提前生效，但4090意外豁免

芯片禁令发布六天后，美国政府突然变卦——宣布新规提前生效，比原计划整整提前了24天。也就是说，美国撤回了30天的豁免期。即日起，中国无法再获得任何英伟达尖端AI芯片。而根据钛媒体报道，腾讯、字节跳动等赶在禁令生效前大量采购的H800，至今尚未拿到现...

AIGC 2023-10-25 人工智能

687阅读

AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述

AI 生成内容已经成为当前人工智能领域的最热门话题之一，也代表着该领域的前沿技术。近年来，随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布，AI 图像生成和编辑领域实现了令人惊艳的视觉效果，并且在学术界和工业界...

人工智能 2023-10-24 人工智能

821阅读

解读OpenAI最强文生图模型—DALL·E 3

Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功，这让OpenAI看到了全新的商机，也是推出DALL·E3的重要原因之一。上周，OpenAI宣布在ChatGPT Plus和企业版用户中，全面开放文生图模型DAL...

AIGC 2023-10-24 人工智能

1040阅读

一文读懂全新深度学习库Rust Burn

一、什么是Rust Burn？ Rust Burn是一个全新的深度学习框架，完全使用Rust编程语言编写。创建这个新框架而不是使用现有框架（如PyTorch或TensorFlow）的动机是为了构建一个适应多种用户需求的通用框架，包括研究人员、机器学习工程...

AIGC 2023-10-24 人工智能

1742阅读