-
Stable Diffusion~自注意力替换技术
在这篇文章中,作者展示了一个较为复杂的基于 Diffusers 开发的自注意力替换示例项目,用于提升 SD 视频生成的一致性。在这个过程中,作者讲述了 AttentionProcessor 相关接口函数的使用,并了解了如何基于全局管理类实现一个代码可维护性...
-
CUDA之通用矩阵乘法:从入门到熟练!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 通用矩阵乘法 (General Matrix Multiplication,GEMM 是各种模型和计算中的核心部分,同时也是评估计算硬件性能 (FLOPS 的标准技术。本文将通过对 GEMM 的实...
-
月入25万,批量AI美女,收割中年男人的钱包
号称“最难被电商撬动”的中年男人们,拜倒在了AI美女们的石榴裙下。 “中年男人不如狗”这句话,一直被视为是中年男性在消费鄙视链里的真实写照。爱捯饬的女人买化妆品、买衣服,居家的女人买厨具、买食物,但一提到男人,似乎就是“保温杯里泡枸杞”或者“一把钓杆打天下...
-
DualBEV:大幅超越BEVFormer、BEVDet4D,开卷!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致...
-
解读AI通用计算芯片:GPU训练CPU推理,用最优的成本降低AI算力支出
当前,人工智能已经成为推动企业业务创新和可持续发展的核心引擎。我们知道,算力、算法和数据是人工智能的三大核心要素,缺一不可。今天,笔者就从通用计算芯片这个维度出发,跟大家详细聊聊关于算力的相关技术与市场竞争态势。 所谓AI计算芯片(也称逻辑芯片),就是指...
-
深入探索“织梦采集侠”:源码解析与实践应用
随着信息技术的不断进步和网络的日益发达,网站内容的自动化采集技术应运而生,并且成为诸多网站运营者和开发者密切关注的领域。“织梦采集侠”作为一款备受关注的内容采集工具,凭借其高效灵活的特点在实际应用中被广泛采纳。本文将针对“织梦采集侠”的源码进行详尽解析,从...
-
智能座舱软件性能与可靠性的评估和改进
作者 | 张旭海 随着智能汽车的不断发展,智能座舱在性能与可靠性上暴露出体验不佳、投诉渐多的问题,本文从工程化的角度简述了如何构建智能座舱软件的评估框架,以及如何持续改进其性能和可靠性。 一、智能座舱软件性能和可靠性表现不佳 据毕马威发布的《2023...
-
基于Python采集数据的原理及其实践应用
在互联网+时代背景下,数据已然成为一种至关重要的资源。不论是企业的市场调研、商业智能分析,还是个人的学术研究、兴趣爱好,有效地获取所需的数据显得尤为关键。Python语言因其简单易学、语法优雅及开源免费的特质,已经成为数据处理和分析领域的主流工具。本文主要...
-
AI说唱“入侵”影视号:单条视频获赞200万,月涨粉50万
AI正在“入侵”影视号。 《狂飙》剧情被写成歌词,再配上“科目三”BGM的演唱,瞬间抓住网友的耳朵。可让很多人没想到的是,这首说唱并非真人演唱,而是由AI生成的。 发布者是抖音账号“谷自囧唱电影”,作为一个影视号新人,他从去年12月才开始发布第一条视频...
-
字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。 来自字节和北大的一篇新论文在此时吸引关注: 文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。 具体来说,字节提出了一个名为MegaScale的生产系...
-
【Midjourney】聊聊五种常见的朋克风格
1.赛博朋克(Cyberpunk 赛博朋克(Cyberpunk)是一个科幻文学和艺术的亚流派,最初在20世纪80年代兴起。这个词汇结合了“赛博空间”(Cyberspace)和“庞克”(Punk)两个词,用来描述一种以高科技、网络化、未来主义为特征的科幻...
-
高性能 LLM 推理框架的设计与实现
一、大语言模型推理概要介绍 与传统的 CNN 模型推理不同,大语言模型的推理通常会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程,prefill 过程会计算用户所有的输入,并生...
-
首席分析师揭秘爆火Groq,每小时要烧168美元!10倍H100拥有成本,老黄笑而不语
最近爆火的AI初创公司Groq,推出了比目前常见GPU推理系统快4倍,成本低70%的大模型推理解决方案。 他们提供的运行Mistral Mixtral 8x7b的API演示,让大部分习惯了其他LLM「娓娓道来」的用户直呼,简直是魔法! Groq在处理...
-
[AIGC大数据基础] Flink: 大数据流处理的未来
Flink 是一个分布式流处理引擎,它被广泛应用于大数据领域,具有高效、可扩展和容错的特性。它是由 Apache 软件基金会开发和维护的开源项目,并且在业界中受到了广泛认可和使用。 文章目录 什么是 Flink Flink 的特点...
-
DDC技术:AIGC网络的革命性解决方案
2023年,人工智能生成内容(AIGC)技术将蓬勃发展,其中ChatGPT作为一个典型案例,在文本生成、代码开发和诗歌创作等多个领域引起行业变革。DDC技术对改变网络格局具有创新和突破性意义,很大程度上提升了效率和连接性。本文将介绍这一AIGC网络的新一代...
-
AI变革时代:95.8%的人都没有做好准备
自两天前OpenAI突然发布首款文生视频模型“Sora”以来,对个体而言,后劲依然很大。 一来是OpenAI直至昨日还在不断更新“Sora”的作品,人们一边惊叹,一边把不安传递到四处;二来,今天是春节假期后的第一个工作日,一想到人工智能在“趁着”部分人类...
-
AIGC 后视镜:过去这一年,大家都在哪搞钱?
大家好,我是煎鱼。 由于 OpenAI 的 ChatGPT-3.5、GPT-4、GPT-4V 等产品的发布和传播。过去这一年多是 AIGC 爆发的元年,这是无容置疑的。 GPT 在许多方面都是较有帮助的。像是我们所在的 IT 行业来看。著名的...
-
生成式AI公司Galileo推出检索增强生成工具
生成式AI公司Galileo最近推出了一项新的工具,旨在帮助企业开发可信赖的人工智能(AI)解决方案。这项名为检索增强生成(RAG 和代理分析的解决方案旨在应对RAG系统的复杂性,该系统已成为大型语言模型(LLMs 开发者越来越受欢迎的工具。 RAG系统通...
-
向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」
「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,我们吸取过去失败的教训以纠正错误,借鉴成功的经验以提升效率和效果。这种自我进化的过程在我们的生活中无所不在:从如何总结经验以更好地解决...
-
大模型系列——解读RAG
RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上,覆盖了结合网络搜索引擎和 LLM 的问答服务,到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构,但什么是RAG呢?R...
-
中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了
ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域,大模型...
-
「我在淘天做技术」1688的AIGC商业化落地实践探索
作者:吴越涛 近期淘天集团秋季 2024 届校园招聘正式启动,预计将发放 2000 多个 offer,其中技术类岗位占比超过 50%。为了方便大家更真实地了解淘天技术的布局和现状,我们策划了「我在淘天做技术」系列,首次全面分享淘天技术进展和创新...
-
数据为王!如何通过数据一步步构建高效的自动驾驶算法?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 下一代自动驾驶技术期望依赖于智能感知、预测、规划和低级别控制之间的专门集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以...
-
Depth Anything:释放大规模无标注数据的深度估计
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年1月论文“Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data“,来自香港大学、字节、浙江实验室和浙江大学。 这项...
-
让知识图谱成为大模型的伴侣
大型语言模型(LLM 能够在短时间内生成非常流畅和连贯的文本,为人工智能的对话、创造性写作和其他广泛的应用开辟了新的可能性,然而,LLM也有着一些关键的局限性。它们的知识仅限于从训练数据中识别出的模式,这意味着缺乏对世界的真正理解。同时,推理能力也是有限...
-
使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速
Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据...
-
AIGC——使用Cursor对比直接使用chatGPT有哪些技巧
Cursor等chatGPT相关工具的那些用法 1. 聊聊it团队经常面临的问题 2. 试想一些AI辅助的应用场景 3. 看回现实可用的工具及其使用 3.1 加载文件作为对话上下文 3.2 源码工程辅助阅读 3.3 批量文件式输入口 3.4...
-
CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列
CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer 内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet...
-
群聊冷场怎么破?茴香豆用AI帮你解决问题
群聊冷场怎么破?这项有趣而实用的AI技术可以帮你解决问题,化解尴尬。茴香豆(HuixiangDou)是一个基于大语言模型的群聊知识助手,能够自动识别并回答群聊中的技术相关问题,同时避免被非技术内容干扰。其可集成到即时聊天工具中,如微信和飞书,主要服务于技术...
-
迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人思考 图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一;大模型以及多模态的发展又带来了文本和图像统一,使得跨模态端到端成为可能;追求更高级、更全面...
-
加速“虚拟人+X”,魔珐科技撬动AIGC的杠杆
ChatGPT+元宇宙+虚拟人,将开创怎样的未来? 2022年11月30日,OpenAI凭借七年研发积累发布了全新聊天机器人模型ChatGPT,掀起新的人工智能革命。 2023年6月6日,苹果带着研发七年之久的MR头显产品Vision Pro亮相,通过...
-
腾讯AI图像生成工具软件免费使用地址 PhotoMaker体验入口
PhotoMaker是一种高效的个性化文本到图像生成方法。它能将任意数量的输入ID图像编码成堆叠ID嵌入,以保留身份信息。这种嵌入方式不仅可以全面地封装相同输入ID的特征,还能容纳不同ID的特征以供后续整合。PhotoMaker通过提出的面向ID的数据构建...
-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,...
-
使用 DPO 微调 Llama 2
简介 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback,RLHF 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步,它可以确保语言模型的输出符合人类在闲聊或安全...
-
超越BEVFusion!又快又好的极简BEV融合部署方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在算法开发中,激光雷达-相机3D目标检测遇到了过度拟合问题,这是由于违反了一些基本规则。在数据集构建的数据标注方面,本文参考了理论补充,并认为回归任务预测不应涉及来自...
-
探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
★人工智能;大数据技术;AIGC;Turbo;DALL·E 3;多模态大模型;MLLM;LLM;Agent;Llama2;国产GPU芯片;GPU;CPU;高性能计算机;边缘计算;大模型显存占用;5G;深度学习;A100;H100;A800;H800;L40...
-
效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜
一句话,就让绿巨人戴上VR眼镜。 4K画质那种。 熊猫的奇幻漂流~ 这是字节最新的AI视频生成模型MagicVideo-V2,各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率,轻松hold各种绘图风格。 △从左往右:油画风、赛博风、设计风...
-
一个评测模型+10个问题,摸清盘古、通义千问、文心一言、ChatGPT的“家底”!...
数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 毫无疑问,全球已经在进行大模型的军备竞赛了,“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问,今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...
-
AI视野:腾讯云AI绘画上线SaaS版本;SOLAR10.7B大模型屠榜;LG发布全新AI笔记本;麻省理工开源Stream Diffusion
新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 腾讯云AI绘画上线SaaS版本 腾讯云AI绘画推出SaaS版本,成为国内首批通过中国信通院评估的AIGC绘画平台,提供API和在线工具,支持智能图生成、文生成图等多种能力...
-
打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 图片 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 图片 如此惊人的图片实时生成速度,便是来自UC伯克利、...
-
单张4090,1秒100张二次元小姐姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍
10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可以深刻感受到AI的超能力。 甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。 如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学...
-
关于生成式语言大模型的一些工程思考 paddlenlp & chatglm & llama
生成式语言大模型,随着chatgpt的爆火,市场上涌现出一批高质量的生成式语言大模型的项目。近期百度飞桨自然语言处理项目paddlenlp发布了2.6版本。更新了以下特性:全面支持主流开源大模型Bloom, ChatGLM, GLM, Llama, OPT...
-
AI作画升级!一键帮你用Stable Diffusion 生成无限缩放效果视频
在这一篇文章中,我们介绍了利用OpenVINO™优化和加速Stable Diffusion模型的推理,在英特尔®独立显卡上能够根据我们输入的指令(prompt),快速生成我们喜爱的AI画作。今天,我们对这一应用场景再次升级,除了能够作画,利用OpenVIN...
-
LLaMA及其子孙模型概述
文章目录 LLaMA Alpaca Vicuna Koala Baize (白泽 骆驼(Luotuo BELLE Guanaco LLaMA 与原始transformer的区别: 预归一化[GPT3]。为了提高训练稳定性,对...
-
大语言模型分布式训练的量化分析与优秀实践,以 GPT-175B 为例
一、Transformer 大语言模型的 SOTA 训练技术 1、大语言模型的发展背景与挑战 首先和大家分享下大语言模型的发展背景。过去的几年内,无论从数据量的维度还是从模型规模的维度,语言模型规模都扩大了非常多的数量级。随着数据量和模型规模的扩大,也...
-
灵雀云Alauda MLOps 现已支持 Meta LLaMA 2 全系列模型
在人工智能和机器学习领域,语言模型的发展一直是企业关注的焦点。然而,由于硬件成本和资源需求的挑战,许多企业在应用大模型时仍然面临着一定的困难。为了帮助企业更好地应对上述挑战,灵雀云于近日宣布,企业可通过Alauda MLOps(以下简称AML)使用由 Me...
-
Meta教你5步学会用Llama2:我见过最简单的大模型教学
在这篇博客中,Meta 探讨了使用 Llama 2 的五个步骤,以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源,并提供一步步设置和运行 Llama 2 的流程。 Meta 开源的 L...
-
Smart Copilot:大模型在技术服务和智能客服领域提效的最佳实践
欢迎来到魔法宝库,传递AIGC的前沿知识,做有格调的分享❗ 喜欢的话记得点个关注吧! 随着云计算技术的快速发展,越来越多的企业和个人选择将业务迁移到云端。有很多云厂商为客户提供了灵活、可扩展的计算资源和服务,使得客户能够更加专注于核心业务。 然而,...
-
聊一聊大模型 | 京东云技术团队
事情还得从ChatGPT说起。 2022年12月OpenAI发布了自然语言生成模型ChatGPT,一个可以基于用户输入文本自动生成回答的人工智能体。它有着赶超人类的自然对话程度以及逆天的学识。一时间引爆了整个人工智能界,各大巨头也纷纷跟进发布了自家的大模...
-
文心一言最新重磅发布!
8月16日,由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会2023举办。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰以《大语言模型为通用人工智能带来曙光》为题,阐述了大语言模型具备理解、生成、逻辑、记忆四...