-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
开源大模型DBRX:1320亿参数,比Llama2-70B快1倍
大数据公司Databricks最近发布了一款名为DBRX的MoE大模型,引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型,成为了新的开源之王。这款模型的总参数量达到了1320亿,但每次激活只有360亿参数,并且其生成速...
-
铁了心要打败OpenAI!坚信开源打败闭源!这家知名数据厂商4个月打造最强开源大模型!性能超越Claude3,速度是羊驼2倍
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 大模型领域,迭代的速度简直要以天计算。昨天,大家还在热议Claude3超大杯版Opus在Elo Rating榜单上取代GPT4-Turbo-1106成为了新王。今天大家又发现开源...
-
新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍
“最强”开源大模型之争,又有新王入局: 大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称: 它在基准测试中击败了此前所有开源模型。 包括同为混合专家模型的Grok-1和Mixtral。 新王搅局,迅速引发了开源社区的热议。 毕竟,仅...
-
探秘Copilot Clone: 智能代码助手的开源新秀
探秘Copilot Clone: 智能代码助手的开源新秀 项目地址:https://gitcode.com/hieunc229/copilot-clone 在当今的软件开发世界中,效率和生产力是每个开发者关注的核心。GitHub 的 Copilot...
-
文心一言指令词宝典之职场效率篇
作者:哈哥撩编程(视频号、抖音、公众号同名) 新星计划·全栈领域优秀创作者 博客专家·全国博客之星第四名 超级个体·COC上海社区主理人 特约讲师·谷歌亚马逊演讲嘉宾 科技博主·极星会首批签约作者 🏆 推荐专栏: 🏅 程序员:...
-
llama factory学习笔记
模型 模型名 模型大小 默认模块 Template Baichuan2 7B/13B W_pack baichuan2 BLOOM 560M/1.1B/1.7B/3B/7.1B/176B query_key_value - BLOOM...
-
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
广阔的战场,风暴兵在奔跑…… prompt:Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成...
-
今年,中国AI大模型产业发展看这些
现在的人工智能,已不是「可以用」,而是「非常好用」了。 上个星期,谷歌与李世石一次久违的对话,唤起了人们的回忆: 仔细想来,自2016年 AlphaGo 在围棋上打败人类起已过去八年。如今人工智能技术的发展却丝毫没有减速,正在给我们创造更大的震撼。 生成式...
-
Stable Diffusion生成式扩散模型代码实现原理
Stable Diffusion可以使用PyTorch或TensorFlow等深度学习框架来实现。这些框架提供了一系列的工具和函数,使得开发者可以更方便地构建、训练和部署深度学习模型。因此可以使用PyTorch或TensorFlow来实现Stable Di...
-
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...
-
近屿智能成功完成A轮融资,打造独家AIGC工程师与产品经理学习路径图引发热议
近屿智能OJAC的发展历程与行业实力 在2024年1月,上海近屿智能科技有限公司(简称近屿智能)宣布成功完成A轮融资。智望资本作为领头投资者,金沙江创投也参与了增资。这一里程碑事件不仅突显了近屿智能在人力资源技术领域的领先地位,也显示了投资者对其技术实力...
-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...
-
Stability AI开源3B代码生成模型:可补全,还能Debug
本周一,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。 Stable Code Instruct 3B 是一个基于 Stable Code 3B 的指令调整编码语言模型(Code LM)。给出自然语言...
-
中国工程院院士唐志共:AI破解传统气动外形设计难题 实现高效多样化创新
3月25日消息(赵婷婷)日前,在“昇思人工智能框架峰会2024”上,中国科学院院士、中国空气动力学会理事长唐志共表示,近年来,随着人工智能技术的高速发展,人工智能与科学计算的融合不断迸发出新的火花,形成AI的新范式。这种范式以物理驱动、物理+数据融...
-
继电动汽车之后,下一次汽车转型是否已经发生?
随着从内燃机汽车向电动汽车的转变从未消失,停在街边的汽车连接充电线如何迅速成为一种常见景象。而且似乎一些汽车制造商已经度过了过渡阶段。汽车数字化和计算机化是另一个重大转变,它拥有约1亿行代码和1,000多个半导体芯片,而且这一趋势还在持续增长。据估计,...
-
通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度
一个模型建模所有图结构关系—— 香港大学数据智能实验室最新图结构大模型来了。 它叫HiGPT,由GraphGPT原班人马打造。 后者是将图数据与大模型结合的代表方法之一: 通过用图指令微调将图数据与大模型对齐,在下游任务上一度彰显了惊人的泛化性(Zero...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
利用MindsDB和Anyscale微调Mistral 7B模型
在我们为面向客户的聊天应用制作大语言模型 (LLM 时,预训练模型往往是很好的起点,但随着时间的推移,您可能希望去控制该模型聊天的整体行为和给客户带去的“感觉”,而不仅仅由基本模型所能提供。对此,我们虽然可以通过提示工程(prompt engineeri...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
AI 绘画 | Stable Diffusion 真实人物动漫二次元化
前言 如何让一张真实人物变成动漫二次元风格的图片?Stable Diffusion WebUI加上contolNet扩展插件帮你快速实现。快来使用AI绘画打开异世界的大门吧!!! 真人动漫化 选择大模型 首先选择一个二次元风格人物画风的大模型...
-
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。 然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...
-
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
论文链接:https://arxiv.org/abs/2402.08327 DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/ 项目主页链接:https://preflm...
-
3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了
马斯克说到做到开源Grok-1,开源社区一片狂喜。 但基于Grok-1做改动or商用,都还有点难题: Grok-1使用Rust+JAX构建,对于习惯Python+PyTorch+HuggingFace等主流软件生态的用户上手门槛高。 △图注:Grok登...
-
能玩3D游戏的AI玩家!谷歌新智能体SIMA发布,但水平还在“新手村”
编译 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 世界上第一位AI程序员Devin诞生,让大家纷纷转发感叹“饭碗保不住”。 一转眼,具有里程碑意义的AI玩家也来了!谷歌(Google)旗下DeepMind发布新智能体SIMA。 S...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
32K上下文,Mistral 7B v0.2 基模型突然开源了
刚刚,Mistral AI 的模型又更新了。 这次开源一如既往地「突然」,是在一个叫做 Cerebral Valley 的黑客松活动上公布的。 PPT 一翻页,全场都举起了手机拍照: 这次开源的 Mistral 7B v0.2 Base Mod...
-
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
文章链接:https://arxiv.org/pdf/2402.17245 模型地址: https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic 本文分享了在文本到图像生成模...
-
AIGC 实战:Ollama 和 Hugging Face 是什么关系?
HuggingFace(拥抱脸)和Ollama都与**大型语言模型(LLMs)**有关,但它们的用途不同: HuggingFace: HuggingFace 是一个知名的平台,提供各种预训练的LLMs,包括流行的模型如GPT-3、BERT和...
-
用Stable Diffusion生成同角色不同pose的人脸
随着技术的不断发展,我们现在可以使用稳定扩散技术(Stable Diffusion)来生成同一角色但不同姿势的人脸图片。本文将介绍这一方法的具体步骤,以及如何通过合理的提示语和模型选择来生成出更加真实和多样化的人脸图像。 博客首发地址:用Stable D...
-
stable diffusion模型微调方法
文章目录 embeddings 准备训练集 图片预处理 裁剪 打标签 点击生成运行程序 调节训练参数 训练嵌入式模型 使用微调模型进行生成 LoRA Kohya GUI 准备工作 收集训练集 图片预处理 设置训练参数 Dream...
-
AI、AIGC、AGI、ChatGPT它们的区别?
今天咱们聊点热门话题,来点科普时间——AI、AIGC、AGI和ChatGPT到底是啥?这几个词听起来好像挺神秘的,但其实它们就在我们生活中。让我们一起探索这些术语的奥秘! AI(人工智能):先说说AI,这个大家可能都不陌生。AI,就是人工智能,它涵盖了各...
-
【八股】2024春招八股复习笔记1(搜索推荐、AIGC)
【八股】2024春招八股复习笔记1(搜索推荐、AIGC) 文章目录 1、推荐系统 1.1 推荐系统流程 1.2 协同过滤 、 矩阵分解 1.3 逻辑回归 2、算法常识(应用算法) 2.1 重点复习 xgboost 2.2 大模型 t...
-
UniPAD:一种通用的自动驾驶预训练模式
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 UniPAD研究了一个关键问题:如何有效地利用大量未标记的3D点云数据进行自监督学习,以增强其在3D目标检测和语义分割等下游任务中的应用效率。这个问题之所以重要,是...
-
大模型之Llama系列- LlaMA 2及LLaMA2_chat(上)
LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。 在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外...
-
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
微软版Sora诞生了! Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。 尽管提出了Diffusion Transformer和空间patch策略,但想要达到Sora的性能还是很难,何况还缺乏算力和数据集...
-
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。 多年来,微...
-
本地部署whisper模型(语音转文字)
Whisper是 OpenAI 2022年发布的一款语音预训练大模型,集成了多语种ASR、语音翻译、语种识别的功能。 Whisper使用弱监督训练的方法,可以直接进行多任务的学习 1. 安装ffmpeg 1.1 更新yum yum update...
-
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里...
-
MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍
在当今人工智能时代,计算机可以通过扩散模型生成自己的 “艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。 扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。在幕后,这涉及一个复杂、耗时的过程,需要算法多次迭代才能完美...
-
符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!
引言:探索语言模型的长上下文能力 近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先世界。而其他语言模型也正在不断探索长上下文能力,也就是模型处理和理解超出其训练时所见上下文长度的能力。例如,一个模型可能...
-
CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒
简笔素描一键变身多风格画作,还能添加额外的描述,这在 CMU、Adobe 联合推出的一项研究中实现了。 作者之一为 CMU 助理教授朱俊彦,其团队在 ICCV 2021 会议上发表过一项类似的研究:仅仅使用一个或数个手绘草图,即可以自定义一个现成的 GA...
-
AIGC狂飙对于普通人意味着什么?
AIGC 人工智能生成内容,相对更早的内容生产模式分别为专家生产内容 PGC 和用户生产内容 UGC。而随着 AIGC 出现,内容生产率变成指数级上升。那么AIGC发展对于普通人来说到底意味着什么? 先回顾一下时间轴, 2015年7月,谷歌推出 De...
-
英伟达推出NeMo,极大简化自定义生成式AI开发
为了帮助全球开发者、企业更好的开发定制大模型和生成式AI产品,例如,聊天机器人、编程代码助手等。 NVIDIA宣布推出了NeMo Curator、NeMo Customizer和NeMo Evaluator等微服务的早期访问计划。这些微服务涵盖了从数据整理...
-
快手程一笑:快意大模型或在半年内达 GPT4.0 水平
今日,快手公司发布了其2023年第四季度及全年业绩报告,数据显示,快手在2023年全年实现了显著的收入增长,总收入高达1134.7亿元,同比增长了20.5%。更值得一提的是,经过调整后,快手的净利润首次突破了百亿元大关,达到了102.7亿元。 在随后的业绩...
-
快手CEO程一笑:自研大模型有信心半年内达GPT4.0水平
快科技3月20日消息,今日,快手发布2023年第四季度及全年业绩,2023全年总收入达1134.7亿元,同比增长20.5%,经调整净利润首次超百亿达102.7亿元。 据媒体报道,在快手业绩电话会上,快手创始人兼CEO程一笑透露,2023年公司启动AI战略后...
-
端到端大一统前夕?GenAD:LLM和轨迹规划全搞定
今天汽车人和大家分享一篇自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制,并增强模型的泛化能力,从网络获取了大量数据,并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频,涵盖了世界各地具有多样化天气...
-
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练,还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...
-
50+国内外大模型专家齐聚,全球机器学习技术大会第二批嘉宾阵容公布!
50+ 国内外大模型重磅专家 智谱、百川、零一万物、智源、面壁智能 微软、阿里通义、小米、北大、复旦 eBay、恒生、达观、金山、度小满等 共同探讨 AI 前沿发展与落地实践 全球机器学习技术大会第二批嘉宾重磅出炉 Daniel Povey 博士毕业于英...