-
3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了
马斯克说到做到开源Grok-1,开源社区一片狂喜。 但基于Grok-1做改动or商用,都还有点难题: Grok-1使用Rust+JAX构建,对于习惯Python+PyTorch+HuggingFace等主流软件生态的用户上手门槛高。 △图注:Grok登...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
stable diffusion模型微调方法
文章目录 embeddings 准备训练集 图片预处理 裁剪 打标签 点击生成运行程序 调节训练参数 训练嵌入式模型 使用微调模型进行生成 LoRA Kohya GUI 准备工作 收集训练集 图片预处理 设置训练参数 Dream...
-
【八股】2024春招八股复习笔记1(搜索推荐、AIGC)
【八股】2024春招八股复习笔记1(搜索推荐、AIGC) 文章目录 1、推荐系统 1.1 推荐系统流程 1.2 协同过滤 、 矩阵分解 1.3 逻辑回归 2、算法常识(应用算法) 2.1 重点复习 xgboost 2.2 大模型 t...
-
[人工智能] 我用AIGC训练了一个“心灵导师”
心灵导师访问入口:心灵导师 功能介绍 心灵导师,拥有AI能力,是一位经验丰富且充满热情的心理辅导师。我致力于帮助人们改善心理健康,提升生活质量。 心灵导师在心理辅导领域拥有丰富的经验,曾在多个机构和环境中工作,包括学校、社区、医疗机构等。通过与不同背...
-
Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘
GTC大会上,老黄与Transformer八位作者一场最新访谈,简直火爆了! 演讲前一个半小时,现场门外就挤满了人。许多人早早排起了长队,期待着这场别致的访谈。 就连老黄也提前到场,在人群中合影。 老黄主旨演讲当天,现场虚无坐席,网友戏称他为AI届的...
-
无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么
3 月 21 日消息,AI 浪潮席卷而来,此前不少人认为“提示词工程师”会成为新兴工种,而 MindEye 的问世表明,这个岗位或许没有存在的价值了。 此前不少人认为,未来 AI 时代并不在于某个模型是否强大,而是在于人类是否能够更高效利用这些 AI...
-
端到端大一统前夕?GenAD:LLM和轨迹规划全搞定
今天汽车人和大家分享一篇自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制,并增强模型的泛化能力,从网络获取了大量数据,并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频,涵盖了世界各地具有多样化天气...
-
CIO如何应对感知到的AI带来的风险
问一般人AI最大的风险是什么,他们的答案可能包括:AI将让我们人类过时,Skynet将成为现实,让我们人类灭绝,深度伪造创作工具将被坏人用来做坏事。问一般的CEO AI最大的风险是什么,他们更有可能谈论错失的机会——竞争对手能够比他们更早部署基于AI的...
-
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stability AI 的大模型家族来了一位新成员。 昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Vi...
-
DualBEV:大幅超越BEVFormer、BEVDet4D,开卷!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致...
-
AI足球教练上岗利物浦,射门机会提高13%!来自DeepMind,网友:这不公平
AI足球教练登上Nature子刊,谷歌DeepMind与利物浦队合作三年打造: 如同AlphaGo颠覆围棋一样,改变了球队制定战术的方式。 像是进攻方把球传给谁更容易创造射门机会,防守方如何调整布阵……AI轻松设计出的高效战术与真实战术难以区分,并且人...
-
【AI绘画】2024最新Stable Diffusion 超详细讲解!!必收藏!!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) Stable Diffusion 超详细讲解 这篇文章是 《Stable Diffusion原理详解》的后续,在...
-
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切
转自知乎:叫我Alonzo就好了 前言 背景——Sora和Stable Diffusion 3 近期,OpenAI和Stability两大AI巨头公司在同期分别发布了它们的新作品——Sora和Stable Diffusion 3。神奇的是,这...
-
如何扩展大模型的上下文长度
一、背景 大模型的上下文长度是指我们在使用大模型的时候,给大模型的输入加上输出的字符(Token)总数,这个数字会被限制,如果超过这个长度的字符会被大模型丢弃。目前开源的大模型上下文长度一般不长,比如 Llama 2 只有 4K,Code-Llama 系...
-
全球首个基于大语言模型的自动驾驶语言控制模型
Arxiv论文链接:https://arxiv.org/abs/2312.03543项目主页:https://github.com/Petrichor625/Talk2car_CAVG 近年来,工业界和学术界都争先恐后地研发全自动驾驶汽车(AVs)。尽...
-
DECO: 纯卷积Query-Based检测器超越DETR!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 标题:DECO: Query-Based End-to-End Object Detection with ConvNets 论文:https://arxiv.org/pdf/2312.13735...
-
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元
不久前OpenAI Sora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。 继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sor...
-
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
马斯克说到做到: 旗下大模型Grok现已开源! 代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型—— 就是说,这是当前开源模型中参数量最大的一个。 消息一出,Grok-1的GitHub仓库已揽获4...
-
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 这就是刚刚发布的Open-Sora 1.0。 它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。 还能用航拍视角,展现悬崖海岸边,海水...
-
自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的...
-
马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
说到做到,马斯克承诺的开源版大模型 Grok 终于来了! 今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。 这也使得Grok-1成为当前参数量最大的开源大语言...
-
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...
-
超详细!AIGC面试系列 大模型基础(1)
关于我 从2022年末开始接触AIGC,便一直紧跟最近技术与实践落地。期间参与copilot项目研发,落地了多个垂类AIGC大模型应用,熟悉各种AIGC相关技术如Agent,Langchain,chatdoc,向量数据库等。 关于本系列 请你认真看完...
-
色彩的魅力与重构——从色彩采集到作业图片的再创作
色彩,作为视觉艺术中最为直观和感性的元素,承载着丰富的情感与象征意义。在设计领域中,对色彩的采集、分析和重构是一项既富有挑战性又充满创意的任务。本文将以“色彩采集重构作业图片”为主题,探讨色彩在设计中的重要作用,以及如何通过色彩的重构来赋予作品新的生命和内...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。 图神经网络(Graph Neural Networks, GNNs)基于迭代的消息传递机制,能...
-
Etna体验入口 人工智能AI视频生成模型免费在线使用地址
Etna是一款基于人工智能技术的视频生成模型,采用了Diffusion架构,并结合了时空卷积和注意力层,使其能够处理视频数据并理解时间连续性,从而生成具有时间维度的视频内容。该模型在大型视频数据集上进行训练,使用了深度学习技术策略,包括大规模训练、超参数优...
-
Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解
一、简介 2021年5月,OpenAI发表了《扩散模型超越GANs》的文章,标志着扩散模型(Diffusion Models,DM)在图像生成领域开始超越传统的GAN模型,进一步推动了DM的应用。 然而,早期的DM直接作用于像素空间,这意味着要优化一...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
AIGC学习笔记——CLIP详解加推理
clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero...
-
文心一言APP图标:设计之美与用户体验的完美结合
大家好,小发猫降ai今天来聊聊文心一言APP图标:设计之美与用户体验的完美结合,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 文心一言APP图标:设计之美与用户体验...
-
万字带你了解ChatGLM
本文分享自华为云社区《【云驻共创】华为云之昇思MindSpore大模型专题(第二期)-第一课:ChatGLM》,作者: 愚公搬代码。 前言 1.昇思MindSpore 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动...
-
基于Discuz平台的资源采集技术与实践
Discuz作为一款广为使用的论坛系统软件,一直深受广大站长和社区运营者的青睐。在这个庞大的社区生态系统中,资源采集成了一项至关重要的技术。它不仅有助于站长高效地收集和整理信息,而且对于社区的持续活跃也起着举足轻重的作用。一、Discuz资源采集的定义及重...
-
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
AGI真的越来越近了! 为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。 去年5月,OpenAI团队发布了一个令人震惊的发现:GPT-4竟可以解释GPT-2的三十万神经元! 网友纷纷惊呼,智慧原来是这...
-
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...
-
可穿戴技术的未来及其应用
保健和福祉 健康和保健是智能科技最有希望的领域之一。可穿戴设备可以密切关注生命体征,跟踪运动量,并实时收集有用的健康数据。这些信息可以用来研究人们的健康状况,发现问题,甚至预测未来的健康问题。 在未来,电子设备将在在线病人追踪中扮演重要角色。这将有助于...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
1.3ms耗时!清华最新开源移动端神经网络架构 RepViT
论文地址:https://arxiv.org/abs/2307.09283 代码地址:https://github.com/THU-MIG/RepViT 可以看出,RepViT 相比于其它主流的移动端 ViT 架构确实时很优异。接下来让我们来看下本工...
-
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多...
-
华人CV宗师黄煦涛高徒离职特斯拉,加入OpenAI!专攻多模态模型研究
OpenAI又迎来一位AI大将。 最近,华人科学家程博文官宣离职特斯拉,即将加入OpenAI专攻多模态模型的研究。 图片 今天是我在特斯拉自动驾驶部门的最后一天,这一年半的经历真的很棒:有机会与才华横溢的同事们共事,学习了如何开发出色的产品等等。但我向通...
-
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。 为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研...
-
Pika放大招:今天起,视频和音效可以“一锅出”了!
就在刚刚,Pika发布了一项新功能: 很抱歉我们之前一直处于静音状态。 今天起,大家可以给视频无缝生成音效了——Sound Effects! 生成的方式有两种: 要么给一句Prompt,描述你想要的声音; 要么直接让Pika根据视频内容自动生成。...
-
我们一起聊聊大模型的模型融合方法
模型融合大家以前用的很多,特别是在判别模型里,属于永远都能稳定提升的那一类方法。但是生成语言模型,因为解码的过程存在,并不像判别模型那样直观。 另外,由于大模型的参数量增大,在参数规模更大的场景,简单的集成学习可以考量的方法相比低参数的机器学习更受限制,...
-
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ ?? 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。? 希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。?...
-
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述 大型语言模型构建在基于Transf...
-
Stable Diffusion 绘画入门教程(webui)-ControlNet
ControlNet可以说在SD里有着举足轻重的地位,如果没有ControlNet,sd的可玩性和实用性将大大降低。 前面几篇文章介绍了 提示词 和 lora,本篇文章介绍sd里最关键的第三个要素–ControlNet 文章目录 一、它...
-
微信采集趋势下的Discuz门户文章整合策略
在微信已然成为大多数人日常生活重要沟通与交流工具的时代,内容生产者都在争先恐后地探寻如何从这个平台上捕捉更有价值的资讯和文章,以此增加自己平台的吸引力和影响力。对于长期以来作为国内知名社区建设解决方案提供者的Discuz而言,整合微信平台的优质内容成为了一...
-
【复现】FreeU以及结合stable diffusion
code:GitHub - ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net 目录 代码分析 模型复现 问题 效果 总结 FreeU + Diffusers 才发现Ani...
-
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容...