-
我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员
马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。 现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”了他一把(doge): 我不得不恳求他允许我招人。 他(马斯克)总是默认要裁掉员工。 喜欢裁人之外,在这场红杉组织的AI A...
-
python与机器学习日记——文心一言对话记录节选保存
——个人学习用,不适用于大佬——— 虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。 看了两章西瓜书,先都别管,读取文件试试:一言哥说得先...
-
Code Llama 简介,一种最先进的大型编码语言模型
Code Llama 简介,一种最先进的大型编码语言模型 2023 年 8 月 24 日...
-
Stable Diffusion——Animate Diff一键AI图像转视频
前言 AnimateDiff 是一个实用框架,可以对文本生成图像模型进行动画处理,无需进行特定模型调整,即可为大多数现有的个性化文本转图像模型提供动画化能力。而Animatediff 已更新至 2.0 版本和3.0两个版本,相较于 1.0 版本,2.0...
-
Stable Diffusion之核心基础知识和网络结构解析
Stable Diffusion核心基础知识和网络结构解析 一. Stable Diffusion核心基础知识 1.1 Stable Diffusion模型工作流程 1. 文生图(txt2img 2. 图生图 3. 图像优化模块 1.2...
-
从零开始的LLaMA-Factory的指令增量微调
大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步,扬帆起航。 大模型应用向开发路径及一点个人思考 大模型应用开发实用开源项目汇总 大模型问答...
-
LLaMA-Factory参数的解答
打开LLaMA-Factory的web页面会有一堆参数 ,但不知道怎么选,选哪个,这个文章详细解读一下,每个参数到底是什么含义这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数不对请反馈一下,或者有补充的也可以!谢谢(后续该文章可能会持续更新)...
-
AIGC发展史
1 AIGC概况 1.1 AIGC定义 AIGC(AI Generated Content)是指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人...
-
使用Python访问和操作Llama的方法
使用Python访问和操作Llama的方法 Llama是一个流行的Python库,用于处理和操作数据集。它提供了丰富的功能和工具,使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库,并提供相应的示例代码。...
-
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
大佬出走后,第一个模型来了! 就在今天,Stability AI官宣了新的代码模型Stable Code Instruct 3B。 图片 要说Stability也是真的很神奇,首席执行官辞职了,Stable Diffusion其中几位作者也离开了,投资公...
-
AI写作查出来高风险怎么办:七大应对策略
大家好,小发猫降ai今天来聊聊AI写作查出来高风险怎么办:七大应对策略,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: AI写作查出来高风险怎么办:七大应对策略 随...
-
如何开始定制你自己的大型语言模型
2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢? 首先你需要有硬件的资源,对于硬件来说有2个路径可以选。高性能和低性能,这里的区别就是是功率,因为精...
-
情境智能:数据分析的下一个前沿
情境智能概述 情境智能是一种人工智能技术,旨在使计算机系统能够理解和适应于不同情境下的环境、用户需求和目标。它涉及到对语境、背景知识和用户意图的理解,并基于这些理解来做出智能决策或提供个性化的服务。 情境智能通常涉及以下几个方面: 自然语言处理(NLP...
-
Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩
近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。 目前 Champ 已经开源...
-
DriveCoT:全面的开环端到端驾驶数据集和Benchmark
本文经自动驾驶之心公众号授权转载,转载请联系出处。 近年来,端到端自动驾驶技术取得了显著进展,表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而,端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性,这阻碍了其在真实世界中的部署。本文利用CAR...
-
大型语言模型如何教会自己遵循人类指令?
译者 | 李睿 审校 | 重楼 如今,人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ,也就是让大型语言模型教会自己遵循人类指令。 指令微调(IFT ...
-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
只需一张照片,和一段音频,就能直接生成人物说话的视频! 近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。 论文地址:https://enriccorona.github.io/vlogger/paper.p...
-
Claude 3再次登顶!化学专业一骑绝尘,全面碾压GPT-4
Claude 3的诞生又一次震惊了全世界。 Claude 3 Opus,Claude 3中最智能的模型,在大多数常见的人工智能系统评估基准测试中表现优异,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等。 图片...
-
AIGC ChatGPT 4 带你了解数据仓库、数据集市、数据湖、数据中台之间的关系
1 数据仓库: 数据仓库(Data Warehouse)是一个组织为了支持决策制定而创建的主题性、集成性、时间相关性和稳定性的集中数据管理环境。数据仓库集中存储来自组织的各个业务部门的大量数据,有助于执行查询和分析操作。 数据仓库的主要特点包括:...
-
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...
-
15个推荐开源免费图像标注工具
图像标注是向图像添加标签或注释的元数据,使图像上的内容具有上下文含义。这个过程在机器学习中具有重要意义,助于在训练视觉模型过程中准确地识别图像中的元素。 视觉模型最终的用途也非常广泛,例如,帮助车辆识别道路上的不同物体或障碍物、通过对医学图像的识别帮助疾...
-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...
-
AI时代的网络安全:探索AI生成的网络攻击
译者 | 晶颜 审校 | 重楼 长期以来,网络攻击一直是劳动密集型的,需要经过精心策划并投入大量的人工研究。然而,随着人工智能技术的出现,威胁行为者已经成功利用它们的能力,以非凡的效率策划攻击。这种技术转变使他们能够大规模地执行更复杂、更难以检测的攻击,...
-
DifFlow3D:场景流估计新SOTA,扩散模型又下一城!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based...
-
TrajectoryNAS:一种用于轨迹预测的神经结构搜索
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2403.11695.pdf 本文介绍了TrajectoryNAS:一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术,其可以实现...
-
CLIP-BEVFormer:显式监督BEVFormer结构,提升长尾检测性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做...
-
腾讯机器人研究登顶刊!能帮程序员安显示器,像真人一样协同干活
国产机器人新突破: 两只各自独立的机械臂,已经可以丝滑地打配合了! 不信你看这双手拧瓶盖: 拧完再端起杯子倒水: 活灵活现,如真人。 呐,还能搭把手帮程序员安装好显示屏: 甚至接过“同事”手里的大箱子: 可以说是各种几何和物理特性的物体都能稳稳h...
-
等不及公开了!最新Sora模型细节揭秘:预计峰值需要72万块H100!每月至少4200块H100!缩放定律依旧有效!
作者 | Matthias·Plappert 翻译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) OpenAI的Sora模型能够生成各种场景的极其逼真的视频,令世界惊叹不已。除了一篇公开的技术报告和TikTok上放出的酷炫视频,就...
-
清华和微软联合起来对提示词下手了!直接缩短80%,跟大模型对话的头疼系数直线下降!变相扩大了上下文窗口!
出品 | 51CTO技术栈(微信号:blog51cto) 想一下,现在普通人调用个大模型有多别扭,你得一个个上传文件,然后再告诉它自己想要什么样的输出,最好给它一套优秀的模版,它才能给出个像样的回答。 这就好比你自己的大脑都快想出答案来了,它只不过是帮...
-
OpenAI颠覆导演!首批7个Sora超现实大片震惊好莱坞
Sora给好莱坞的震撼,就在刚刚变成了现实! 几天前,「OpenAI正在向好莱坞推销Sora」的消息才刚刚传出。 而今天一早,首批拿到Sora授权的导演、艺术家们,就已经公开自己创作的最新短片了。堪称神速! OpenAI为之配文——Sora初印象。...
-
AIGC实战——Transformer模型
AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结 系列链接 0. 前言 我们在 GPT (Generative Pre-trained Transfo...
-
突破性的百万级视频和语言世界模型:Large World Model~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在探索如何让AI更好地理解世界方面,最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”,能够同时处理百万级长度的视频和语言序列,...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
利用MindsDB和Anyscale微调Mistral 7B模型
在我们为面向客户的聊天应用制作大语言模型 (LLM 时,预训练模型往往是很好的起点,但随着时间的推移,您可能希望去控制该模型聊天的整体行为和给客户带去的“感觉”,而不仅仅由基本模型所能提供。对此,我们虽然可以通过提示工程(prompt engineeri...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
如何利用对抗学习实现产品推荐功能?
作者 | 汪昊 审校 | 重楼 推荐系统自1992 年首篇论文提出协同过滤算法诞生以来,经历了互联网公司百万次的模型迭代,犹如不断涅的凤凰,从一次又一次的低谷中不断重生,先后诞生了百分点、快手、抖音、今日头条等知名的公司和产品。 推荐系统最大的功能在于...
-
应对生成人工智能的挑战,数据治理要如何发展?
最近想到了数据治理,所以我决定通过输入提示来查询ChatGPT:“什么是数据治理?” AI 回应道:“数据治理是一组流程、政策、标准和指南,可确保数据在组织内得到正确管理、保护和利用。”这是一个好的开始,目前关于数据治理及其意义还有很多话要说。 生成人...
-
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
论文链接:https://arxiv.org/abs/2402.08327 DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/ 项目主页链接:https://preflm...
-
清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星
在自然语言处理中,有很多信息其实是重复的。 如果能将提示词进行有效地压缩,某种程度上也相当于扩大了模型支持上下文的长度。 现有的信息熵方法是通过删除某些词或短语来减少这种冗余。 然而,作为依据的信息熵仅仅考虑了文本的单向上下文,进而可能会遗漏对于压缩至关...
-
通用文档理解新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教...
-
微软新工具LLMLingua-2:可将 AI 提示压缩高达80%,节省时间和成本
微软研究发布了名为 LLMLingua-2的模型,用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记,同时保留关键信息,使得提示长度可减少至原长度的20%,从而降低成本和延迟。研究团队写道:“自然语言存在冗余,信息量不尽相同。” LL...
-
何恺明新作:消除数据集偏差的十年之战
MIT新晋副教授何恺明,新作新鲜出炉: 瞄准一个横亘在AI发展之路上十年之久的问题:数据集偏差。 该研究为何恺明在Meta期间与刘壮合作完成,他们在论文中指出: 尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力,但现代神经...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
llama factory 参数体系EvaluationArguments、DataArguments、FinetuningArguments、FreezeArguments、LoraArgument
项目地址 https://github.com/hiyouga/LLaMA-Factory 模型层参数 这段代码是使用Python的dataclasses模块定义的一个数据类ModelArguments,用于管理和存储与模型微调相关的参数。这个类的设计是...
-
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
文章链接:https://arxiv.org/pdf/2402.17245 模型地址: https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic 本文分享了在文本到图像生成模...
-
每日一看大模型新闻(2024.1.4)中国AIGC广告营销产业全景报告:五大变革四大影响;马斯克也逃不过「科目三」,阿里这个应用都要把外国人馋哭了;通义千问:上线图生视频功能
1.产品发布 1.1首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型 发布日期:2024-1-4 首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型...
-
深圳3公里精准预报!华为发布首个区域天气预报AI模型“智霁”1.0
快科技3月23日消息,在今天世界气象日的气候行动最前线”主题活动上,华为云与深圳市气象局共同发布了首个人工智能区域预报模型智霁”1.0,标志着气象预报迎来了新的里程碑。 这一区域模型以华为云盘古气象大模型为基础,融合了区域高质量气象数据集,能够迅速地为未来...
-
大模型之Llama系列- LlaMA 2及LLaMA2_chat(上)
LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。 在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外...
-
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
微软版Sora诞生了! Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。 尽管提出了Diffusion Transformer和空间patch策略,但想要达到Sora的性能还是很难,何况还缺乏算力和数据集...