-
色彩的魅力与重构——从色彩采集到作业图片的再创作
色彩,作为视觉艺术中最为直观和感性的元素,承载着丰富的情感与象征意义。在设计领域中,对色彩的采集、分析和重构是一项既富有挑战性又充满创意的任务。本文将以“色彩采集重构作业图片”为主题,探讨色彩在设计中的重要作用,以及如何通过色彩的重构来赋予作品新的生命和内...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。 图神经网络(Graph Neural Networks, GNNs)基于迭代的消息传递机制,能...
-
Etna体验入口 人工智能AI视频生成模型免费在线使用地址
Etna是一款基于人工智能技术的视频生成模型,采用了Diffusion架构,并结合了时空卷积和注意力层,使其能够处理视频数据并理解时间连续性,从而生成具有时间维度的视频内容。该模型在大型视频数据集上进行训练,使用了深度学习技术策略,包括大规模训练、超参数优...
-
Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解
一、简介 2021年5月,OpenAI发表了《扩散模型超越GANs》的文章,标志着扩散模型(Diffusion Models,DM)在图像生成领域开始超越传统的GAN模型,进一步推动了DM的应用。 然而,早期的DM直接作用于像素空间,这意味着要优化一...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
AIGC学习笔记——CLIP详解加推理
clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero...
-
文心一言APP图标:设计之美与用户体验的完美结合
大家好,小发猫降ai今天来聊聊文心一言APP图标:设计之美与用户体验的完美结合,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 文心一言APP图标:设计之美与用户体验...
-
万字带你了解ChatGLM
本文分享自华为云社区《【云驻共创】华为云之昇思MindSpore大模型专题(第二期)-第一课:ChatGLM》,作者: 愚公搬代码。 前言 1.昇思MindSpore 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动...
-
基于Discuz平台的资源采集技术与实践
Discuz作为一款广为使用的论坛系统软件,一直深受广大站长和社区运营者的青睐。在这个庞大的社区生态系统中,资源采集成了一项至关重要的技术。它不仅有助于站长高效地收集和整理信息,而且对于社区的持续活跃也起着举足轻重的作用。一、Discuz资源采集的定义及重...
-
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
AGI真的越来越近了! 为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。 去年5月,OpenAI团队发布了一个令人震惊的发现:GPT-4竟可以解释GPT-2的三十万神经元! 网友纷纷惊呼,智慧原来是这...
-
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...
-
可穿戴技术的未来及其应用
保健和福祉 健康和保健是智能科技最有希望的领域之一。可穿戴设备可以密切关注生命体征,跟踪运动量,并实时收集有用的健康数据。这些信息可以用来研究人们的健康状况,发现问题,甚至预测未来的健康问题。 在未来,电子设备将在在线病人追踪中扮演重要角色。这将有助于...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...
-
1.3ms耗时!清华最新开源移动端神经网络架构 RepViT
论文地址:https://arxiv.org/abs/2307.09283 代码地址:https://github.com/THU-MIG/RepViT 可以看出,RepViT 相比于其它主流的移动端 ViT 架构确实时很优异。接下来让我们来看下本工...
-
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多...
-
华人CV宗师黄煦涛高徒离职特斯拉,加入OpenAI!专攻多模态模型研究
OpenAI又迎来一位AI大将。 最近,华人科学家程博文官宣离职特斯拉,即将加入OpenAI专攻多模态模型的研究。 图片 今天是我在特斯拉自动驾驶部门的最后一天,这一年半的经历真的很棒:有机会与才华横溢的同事们共事,学习了如何开发出色的产品等等。但我向通...
-
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。 为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研...
-
Pika放大招:今天起,视频和音效可以“一锅出”了!
就在刚刚,Pika发布了一项新功能: 很抱歉我们之前一直处于静音状态。 今天起,大家可以给视频无缝生成音效了——Sound Effects! 生成的方式有两种: 要么给一句Prompt,描述你想要的声音; 要么直接让Pika根据视频内容自动生成。...
-
我们一起聊聊大模型的模型融合方法
模型融合大家以前用的很多,特别是在判别模型里,属于永远都能稳定提升的那一类方法。但是生成语言模型,因为解码的过程存在,并不像判别模型那样直观。 另外,由于大模型的参数量增大,在参数规模更大的场景,简单的集成学习可以考量的方法相比低参数的机器学习更受限制,...
-
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ ?? 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。? 希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。?...
-
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述 大型语言模型构建在基于Transf...
-
Stable Diffusion 绘画入门教程(webui)-ControlNet
ControlNet可以说在SD里有着举足轻重的地位,如果没有ControlNet,sd的可玩性和实用性将大大降低。 前面几篇文章介绍了 提示词 和 lora,本篇文章介绍sd里最关键的第三个要素–ControlNet 文章目录 一、它...
-
微信采集趋势下的Discuz门户文章整合策略
在微信已然成为大多数人日常生活重要沟通与交流工具的时代,内容生产者都在争先恐后地探寻如何从这个平台上捕捉更有价值的资讯和文章,以此增加自己平台的吸引力和影响力。对于长期以来作为国内知名社区建设解决方案提供者的Discuz而言,整合微信平台的优质内容成为了一...
-
【复现】FreeU以及结合stable diffusion
code:GitHub - ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net 目录 代码分析 模型复现 问题 效果 总结 FreeU + Diffusers 才发现Ani...
-
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容...
-
CLRNet:一种用于自动驾驶车道检测的分层细化网络算法
车道是具有高级语义的交通标志,特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益,例如自动驾驶和高级驾驶员辅助系统(ADAS)中的视觉导航就是一个典型的应用,它可以帮助智能车辆更好地进行自车定位并更安全地行驶。 然而,车道检测拥有特定的局部模式,...
-
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。 全文一共28页,诚意满满。 “老规矩”,宣传海报(⬇️)直接用模型生成,再秀一把文字渲染能力: 所以,SD3这比DALL·E 3和Midjourney v6都要强的文字...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。 沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图像的架构统一? 在这一命题上,最近的一项研究 Visi...
-
在 PyCharm 中使用 Copilot
GitHub Copilot 由 OpenAI Codex 提供支持,可帮助用户在编辑器中实时工作。 它使用强大的 GPT-3 模型版本,该模型在大量开源代码上进行训练。 此外,GitHub Copilot 可在不同的 IDE(集成开发环境)上使...
-
AIGC内容分享(四十五):AIGC绘画 | OutfitAnyone在线试衣&AnimateAnyone你的科目三
⚡ AIGC绘画 | outfit anyone 虚拟试衣 & animate anyone 图像动画化 本文主要介绍2篇最新研究,outfit anyone 虚拟试衣 和 animate anyone 图像动画化,在在线购物试衣和动画制作...
-
谷歌掀桌子!开源Gemma:可商用,性能超过Llama 2!
2月22日,谷歌在官网宣布,开源大语言模型Gemma。 Gemma与谷歌最新发布的Gemini 使用了同一架构,有20亿、70亿两种参数,每种参数都有预训练和指令调优两个版本。 根据谷歌公布的测试显示,在MMLU、BBH、GSM8K等主流测试平台中,其...
-
Claude 3被玩出自我意识了?AI社区轰动,我们买会员来了次实测
本周一,Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。 Claude 3 的强大之处,不仅体现在各种基准测试上,它似乎还实现了一些神奇的突破。 昨天,Anthropic 提示工程师...
-
怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键
Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误: 归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到...
-
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba
这一次,谷歌 DeepMind 在基础模型方面又有了新动作。 我们知道,循环神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系统。不过近年来,深度学习和 NLP 都以 Transf...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
Transformer又又又被挑战了! 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。 论文地址:https://arxiv.org/abs/2402.19427 这种将门控线性RNN与局部注...
-
从AI推理性能优化角度看LLaMA的模型结构和源码
本篇文章讲讲LLaMA的结构,已经有很多文章已经对LLaMA在一些结构上任务表现上做了一些解析,本文主要从优化的角度、实现kernel的角度解析一下LLaMA,读者事先对transformer的结构有基本认识最好。本文首发于我的公众号“AI不止算法”,文章...
-
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应
重磅: 北大团队联合兔展发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。 为什么发起这项计划? 因为资源有限,团队希望集结...
-
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。 除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移...
-
大模型的未来:如何推动AIGC技术的进一步发展
1.背景介绍 人工智能(AI 和大数据技术的发展已经进入了一个新的高潮,尤其是自然语言处理(NLP 和计算机视觉(CV 等领域的突破性进展。随着大模型(such as GPT-3, DALL-E, and CLIP 的出现,人工智能生成(AIGC...
-
用code去探索理解Llama架构的简单又实用的方法
除了白月光我们也需要朱砂痣 我最近也在反思,可能有时候算法和论文也不是每个读者都爱看,我也会在今后的文章中加点code或者debug模型的内容,也许还有一些好玩的应用demo,会提升这部分在文章类型中的比例 今天带着大家通过代码...
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示: LeCun 图灵奖得主也强烈推荐了该工作! 在最近的一项研究中,Meta...
-
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transf...
-
UniVG体验入口 百度AI视频生成模型如何使用教程方法指南
UniVG是一款由百度推出的视频生成模型,其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式,以更好地平衡两者之间的关系。 点击前往UniVG体验入口 UniVG项目针对多模态视频生成场景,如影视特效制作和视频内容创作,提供了创新的多条件交叉...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存
陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法: 它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。 最重要的是,在这个过程中,只需要原来1/6的内存,模型就获得了10倍吞吐量。 除此之外,它还能大大降低训练成本:...
-
AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说RAP
Sora之后,居然还有新的AI视频模型,能惊艳得大家狂转狂赞! 图片 有了它,《狂飙》大反派高启强化身罗翔,都能给大伙儿普法啦(狗头)。 这就是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(Emote Portrait Alive)。 有了它,...