注意力机制第8页

谷歌DeepMind爆火动画18秒解释LLM原理，网友蒙圈！组团求GPT-4下场分析

Google DeepMind最近在自己的视频博客上上传了一段视频，「简单明了地」演示了大语言模型的工作原理，引发了网友的激烈讨论。网友看了之后纷纷表示：「终于，他们发了点普通人能看懂的东西了」。「哦豁，这下懂了」「对，就是这么简单！」「太...

生成式AI 2023-11-13 人工智能

730阅读

文章目录 1、LLaMA 1.1、模型结构 1.2、训练方式 1.3、结论 2、LLaMA-2 2.1、相比LLaMA1的升级 2.3、模型结构 2.3.1、MHA, MQA, GQA区别与联系 2.4、训练方式 1、L...

人工智能 2023-11-13 人工智能

1192阅读

Llama 2 with langchain项目详解（一） 2023年2月25日，美国Meta公司发布了Llama 1开源大模型。随后，于2023年7月18日，Meta公司发布了Llama 2开源大模型，该系列包括了70亿、130亿和700亿等不同参数规模...

AIGC 2023-11-10 人工智能

758阅读

?导读：本文主要介绍chatgpt概念及相关产品，重点介绍文心一言，通过对比Chatgpt、新必应及文心一言进行测评，对比仅挑选几个例子，主要展示文心一言在各方面的能力，大家感兴趣可以去官网申请等待，欢迎关注！一、ChatGPT简介 Chat...

生成式AI 2023-11-10 人工智能

805阅读

AIGC专栏1——Pytorch搭建DDPM实现图片生成学习前言源码下载地址网络构建一、什么是Diffusion 1、加噪过程 2、去噪过程二、DDPM网络的构建（Unet网络的构建）三、Diffusion的训练思路利用D...

生成式AI 2023-11-10 人工智能

773阅读

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1063阅读

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对文本的编码与数据分析，那人工智能时代应该早就到来了，为什么唯独是GPT...

AIGC 2023-11-07 人工智能

811阅读

国内大模型创业公司，正在技术前沿创造新的记录。 10 月 30 日，百川智能正式发布 Baichuan2-192K 长窗口大模型，将大语言模型（LLM）上下文窗口的长度一举提升到了 192K token。这相当于让大模型一次处理约 35 万个汉字，长度...

AIGC 2023-11-01 人工智能

791阅读

图神经网络（Graph Neural Networks）已经成为分析和学习图结构数据的强大框架，推动了社交网络分析、推荐系统和生物网络分析等多个领域的进步。图神经网络的主要优势在于它们能够捕获图数据中固有的结构信息和依赖关系。利用消息传递和聚合机制，图...

AIGC 2023-10-28 人工智能

814阅读

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Det...

AIGC 2023-10-27 人工智能

792阅读

笔者的一些个人思考在自动驾驶领域，随着BEV-based子任务/端到端方案的发展，高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点，“高质量”可以解耦成三个方面：不同维度上的长尾场景：如障碍物数据中近距离的车辆以及切车过程中...

人工智能 2023-10-24 人工智能

1298阅读

只需微调一下，大模型支持上下文大小就能从1.6万tokens延长至100万？！还是在只有70亿参数的LLaMA 2上。要知道，即使是当前最火的Claude 2和GPT-4，支持上下文长度也不过10万和3.2万，超出这个范围大模型就会开始胡言乱语、记不...

AIGC 2023-10-23 人工智能

900阅读