-
谷歌发布“Vlogger”模型:单张图片生成10秒视频
谷歌发布了一个新的视频框架: 只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频。 视频时长可变,目前看到的示例最高为10s。 可以看到,无论是口型还是面部表情,它都非常自然。 如果输入图像囊括整个上半身,它也能配合丰富的手势: 网友...
-
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stability AI 的大模型家族来了一位新成员。 昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Vi...
-
人工智能改变全球医疗保健
人工智能(AI 正在重新定义全球医疗保健格局。从电子病历、图片存档和通信系统、医院管理信息系统、索赔记录和患者调查中收集的不断扩大的医疗数据,正在帮助快速制定有效的人工智能模型。 来自电子健康记录、物联网设备和医学文献的文本数据,为人工智能辅助诊断、决...
-
如何从头开始编写LoRA代码,这有一份教程
LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大语言模型)的流行技术,最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其...
-
一文读懂大型语言模型微调技术挑战与优化策略
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI 生态领域相关的技术 - LLM Fine-Tuning ,本文将继续聚焦在针对 LLM Fine-Tuning 技术进行剖析,使得大家能够了解 LLM Fine-Tuning...
-
华为天才少年谢凌曦:关于视觉识别领域发展的个人观点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 最近,我参加了几个高强度的学术活动,包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流,我产生了许多想法,千头万绪,便希望把它们整理下来,供自己和同行们参考。当然,受限于...
-
降低AIGC总体疑似率的七大策略
随着人工智能技术的飞速发展,AIGC(人工智能生成内容)的应用越来越广泛。然而,随之而来的问题是AIGC的疑似率居高不下,这给人们带来了不少困惑和疑虑。为了解决这个问题,本文将探讨降低AIGC总体疑似率的七大策略。 提高数据质量 数据是训练人工智能模...
-
ai写作论文会被抄袭吗为什么
大家好,小发猫降重今天来聊聊ai写作论文会被抄袭吗为什么,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作论文会被抄袭吗?背后原因深度解析 近年来,随着人工智能技术的飞速发展,A...
-
学好线性代数,玩转推荐系统
作者 | 汪昊 审校 | 重楼 说到21 世纪互联网的技术,除了 Python / Rust / Go 等一系列新型编程语言的诞生,信息检索技术的蓬勃发展也是一大亮点。互联网上第一个纯技术商业模式就是以谷歌和百度为代表的搜索引擎技术。然而让大家臆想不到的...
-
连续学习不怕丢西瓜捡芝麻,神经形态方法保护旧知识
以脉冲神经网络(SNN)为代表的脑启发神经形态计算(neuromorphic computing)由于计算上的节能性质在最近几年受到了越来越多的关注 [1]。受启发于人脑中的生物神经元,神经形态计算通过模拟并行的存内计算、基于脉冲信号的事件驱动计算等生物...
-
全球首个AI程序员当老板!IOI金牌得主全部工作AI掌盘,技术细节报告公开
AI程序员Devin竟可以做老板的工作了?! 最近,Cognition AI的首席执行官Steven Hao给了Devin访问自己帐户的权限,然后Devin便开始为他工作了... 比如,「他」向初创公司Modal支持团队写了一封邮件,是询问关于其产品S...
-
为自动驾驶而生,Lightning NeRF:速度提升10倍
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 最近的研究强调了NeRF在自动驾驶环境中的应用前景。然而室外环境的复杂性,加上驾驶场景中的视点受限,使精确重建场景几何体的任务变得复杂。这些挑战往往会导致重建质量下降...
-
谷歌AI推出新型评分器Cappy 助力多任务语言模型性能提升
在最新的研究论文中,谷歌研究人员引入了一种名为Cappy的预训练评分器模型,旨在增强和超越大型多任务语言模型的性能。这项研究旨在解决大型语言模型(LLM)所面临的挑战,其中包括高昂的计算资源成本和效率低下的训练和推理过程。 目前,多任务法学硕士如T0、F...
-
小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见
近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。 第一行:人眼所见画面,第二...
-
[Datawhale]使用趋动云的stable-diffusion项目实践
目录 0 写在前面 1 内容简介 2 任务二,用免费GPU部署自己的stable-diffusion 2.1 创建项目 2.2 初始化开发环境实例 2.3 部署模型 1 解压代码及模型 2 解压配置文件到隐藏目录/root/.cache...
-
全球首个基于大语言模型的自动驾驶语言控制模型
Arxiv论文链接:https://arxiv.org/abs/2312.03543项目主页:https://github.com/Petrichor625/Talk2car_CAVG 近年来,工业界和学术界都争先恐后地研发全自动驾驶汽车(AVs)。尽...
-
优于所有方法!HIMap:端到端矢量化HD地图构建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 矢量化高清(HD)地图构建需要预测地图元素的类别和点坐标(例如道路边界、车道分隔带、人行横道等)。现有技术的方法主要基于点级表示学习,用于回归精确的点坐标。然而,这种pipeline在获得elemen...
-
NVIDIA大语言模型落地的全流程解析
包括三部分内容: 第一部分是关于 NeMo Framework。NeMo Framework 是 NVIDIA 大语言模型的全栈解决方案,它通过不同组件完成生成式 AI 各个环节的任务,包括数据预处理、分布式训练、模型微调、模型推理加速及部署(Ten...
-
智能邮件防护:ML.NET 3.0助力垃圾邮件过滤,让你告别烦扰
概述:ML.NET3.0等机器学习工具,我们可以利用这一数据集训练模型,实现自动分类邮件为垃圾或正常,提高电子邮件过滤效果。 ML.NET是Microsoft推出的开源机器学习框架,可用于在.NET应用程序中集成机器学习功能。ML.NET提供了基础用法...
-
无需训练,Fast-DetectGPT让文本检测速度提升340倍
大语言模型如 ChatGPT 和 GPT-4 在各个领域对人们的生产和生活带来便利,但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法 ——Fast-DetectGPT,无需训练,直接使用开源小语言模型检测各种大...
-
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
我们人类可能要养不起AI了! 近日,来自MIT FutureTech的研究人员发表了一项关于大模型能力增长速度的研究, 结果表明:LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律! 论文地址:https://arxiv.org/pdf/2403.0...
-
巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数
传统的时空预测模型通常需要大量数据支持才能取得良好效果。 然而,由于城市发展水平不均衡和数据收集政策的差异,许多城市和地区的时空数据(如交通和人群流动数据)受到了限制。在这种情况下,模型在数据稀缺情况下的可迁移性变得尤为重要。 现有研究主要利用数据丰富的...
-
AI大模型控制红绿灯,港科大(广州)智慧交通新成果已开源
大模型“上路”,干起了交通信号控制(TSC)的活~ 模型名为LightGPT,以排队及不同区段快要接近信号灯的车辆对路口交通状况分析,进而确定最好的信号灯配置。 该模型由香港科技大学(广州)的研究团队提出,其背后关键是一个名为LLMLight的框架。...
-
硬刚“CloseAI”,马斯克如期开源Grok,最大开源大语言模型一夜易主!
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 开源了! 3月11日,马斯克曾发表了一篇“字少事大”的推文,并且设为了置顶。就一句话:xAI要在本周开源自家聊天机器人 Grok了。 消息一出,关注着Musk VS. Ope...
-
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 这就是刚刚发布的Open-Sora 1.0。 它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。 还能用航拍视角,展现悬崖海岸边,海水...
-
人工智能在设施管理中的八好处
在不断发展的设施管理领域,决策者不断寻求优化运营、提高效率和降低成本的方法。 人工智能 (AI 已成为该行业的游戏规则改变者,彻底改变了设施经理的决策和运营流程方式。 以下是人工智能影响设施管理行业的八种方式。 数据驱动的见解:人工智能在设施管理中...
-
纯AI研发新药登Nature,效率提升3倍,临床实验疗效拔群
完全由AI研发的药物马上将要上市了?! 由AI制药公司Insilico Medicine开发的治疗肺部纤维化的药物TNIK已经进入二期临床试验。 研究团队的在Nature子刊上发表了最新的研究成果。 论文地址:https://www.nature.c...
-
马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
说到做到,马斯克承诺的开源版大模型 Grok 终于来了! 今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。 这也使得Grok-1成为当前参数量最大的开源大语言...
-
时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt
今天给大家介绍一篇最新的大模型+时间序列预测工作,由康涅狄格大学发表,提出了一种将时间序列在隐空间和NLP大模型对齐,并利用隐空间prompt提升时间序列预测效果的方法。 论文标题:S2IP-LLM: Semantic Space Informed P...
-
stable diffusion 1.5大模型炼制详细教程,几块钱即可炼制大模型
前言 之前已经讲过SDXL_LORA,SD1.5_LORA训练过程,基本说的比较清楚了,有兴趣可以去看看,下面我将讲解一下SD1.5大模型的炼制。 SDXL_LORA:https://tian-feng.blog.csdn.net/article/d...
-
掌握这七点,轻松降低AIGC总体疑似度
大家好,小发猫降ai今天来聊聊掌握这七点,轻松降低AIGC总体疑似度,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 掌握这七点,轻松降低AIGC总体疑似度 在自媒...
-
tscms采集插件:功能、应用与未来发展
在数字化时代,数据采集已经成为许多行业不可或缺的一部分。无论是电商、金融、医疗还是教育,高效、准确地采集数据都是确保业务顺利运行的关键。在这一背景下,“tscms采集插件”应运而生,以其强大的功能和灵活的定制性,在众多数据采集工具中脱颖而出。本文将详细介绍...
-
AI写作的深度探索:困惑度、爆发度与内容质量的角力
大家好,小发猫降重今天来聊聊AI写作的深度探索:困惑度、爆发度与内容质量的角力,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI写作的深度探索:困惑度、爆发度与内容质量的角力 在当今的数字...
-
Stable diffusion(二)
SD colab安装 https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC...
-
仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM
时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在:比如说在零售场景下中,「提高需求预测准确性」可以有显著降低库存成本并增加收入。 深度学习(DL)模型基本上垄断了「多变量时间序列预测」任务,在各个竞赛、现实应用中的表现都非常好。 与...
-
Glyph-ByT5官网体验入口 AI文本编码器与图像生成工具在线使用地址
Glyph-ByT5是一种定制的文本编码器,旨在提高文本到图像生成模型中的视觉文本渲染准确性。它通过微调字符感知的ByT5 编码器并使用精心策划的成对字形文本数据集来实现。将Glyph-ByT5 与SDXL集成后,形成了Glyph-SDXL模型,使设计图像...
-
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。 但当下还存在两个问题: 1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求L...
-
谷歌通用AI智能体发布,3D游戏玩法要变天了
谷歌DeepMind号称打造出了首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体。 名为SIMA,不是NPC,是可以成为玩家拍档,帮忙干活打杂的那种。 比如,在《模拟山羊3》(Goat Simulator 3)中当司机开开车: 在...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
人工智能将在2024年彻底改变硬件设计
从加快头脑风暴过程到在出现错误之前发现设计缺陷,以下是人工智能在2024年影响硬件设计的五种方式。 人工智能将在2024年彻底改变硬件设计 每个硬件团队的使命梦想都是开发出定义类别的产品,并在预算内按时交付。但是,硬件固有的缓慢设计和迭代时间,以及低...
-
首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。 图神经网络(Graph Neural Networks, GNNs)基于迭代的消息传递机制,能...
-
实时加SOTA一飞冲天!FastOcc:推理更快、部署友好Occ算法来啦!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在自动驾驶系统当中,感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素,如行驶在路上的车辆、路旁的行人、行驶过...
-
超强!深度学习Top10算法!
自2006年深度学习概念被提出以来,20年快过去了,深度学习作为人工智能领域的一场革命,已经催生了许多具有影响力的算法。那么,你所认为深度学习的top10算法有哪些呢? 以下是花哥我心目中的深度学习top10算法,它们在创新性、应用价值和影响力方面都具...
-
文生图的最新进展:从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning
前言 很明显,OpenAI的首个视频生成模型sora极大程度的提高了大家对文生图、文生视频的热情,也极大的扩展了大家对AIGC的想象力 第一部分(选读 一致性模型Consistency Model 注,本文第一部分最早写在23年11月份的这篇文...
-
Etna体验入口 人工智能AI视频生成模型免费在线使用地址
Etna是一款基于人工智能技术的视频生成模型,采用了Diffusion架构,并结合了时空卷积和注意力层,使其能够处理视频数据并理解时间连续性,从而生成具有时间维度的视频内容。该模型在大型视频数据集上进行训练,使用了深度学习技术策略,包括大规模训练、超参数优...
-
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
合成数据持续解锁大模型的数学推理潜力! 数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。 近日,一项由 Swin-Transformer 团队打造,来自西安交通...
-
Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解
一、简介 2021年5月,OpenAI发表了《扩散模型超越GANs》的文章,标志着扩散模型(Diffusion Models,DM)在图像生成领域开始超越传统的GAN模型,进一步推动了DM的应用。 然而,早期的DM直接作用于像素空间,这意味着要优化一...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
探索Kubernetes与AI的结合:PyTorch训练任务在k8s上调度实践
概述 Kubernetes的核心优势在于其能够提供一个可扩展、灵活且高度可配置的平台,使得应用程序的部署、扩展和管理变得前所未有的简单。通用计算能力方面的应用已经相对成熟,云原生化的应用程序、数据库和其他服务可以轻松部署在Kubernetes环境中,实现...
-
【AIGC调研系列】StarCoder2模型与其他模型对比的优势和劣势
StarCoder2模型的优势主要包括: 性能:StarCoder2模型具备性能优势,旨在为代码生成、编辑和推理任务提供强大的支持[6]。 透明度:该系列模型希望成为代码生成领域的新标准,提高了模型的透明度和可访问性[1][4][11]。 成本效...