-
llama笔记:官方示例解析 example_chat_completion.py
1 导入库 from typing import List, Optional ''' 从typing模块中导入List和Optional。 typing模块用于提供类型注解的支持,以帮助明确函数预期接收和返回的数据类型。 List用于指定列表...
-
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了
让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打? GitHub上一种你没有见过的船新Benchmark火了。 与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确...
-
【Stable Diffusion初学者指南】模型指南
文章目录 微调模型 什么是微调? 人们为什么要制作Stable Diffusion模型? 模型是如何创建的? 流行的Stable Diffusion模型 Stable diffusion v1.4 Stable diffusion v1....
-
AI绘画 | stable-diffusion-web-ui的基本操作
前言 我们下载安装完成stable-diffusion-web-ui以后,下载对应风格的模型,就可以开始我们的绘画操作了。进行Ai绘画操作前,我们最好先弄清楚web ui界面上的参数按钮的含义。这样我们就能更轻松的绘画出我们想要stable-diffu...
-
生成式AI为什么受到各行业追捧?
生成式AI是人类一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。那么什么是人工智能?人工智能和机器学习之间的区别是什么? 人工智能是一门学科,是计算机科学的一个分支,研究智能代理的创建,这些智能代理是可以推理、学习和自主行动的...
-
Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩
近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。 目前 Champ 已经开源...
-
深夜里,女朋友给我讲解AI大语言模型的技术原理,搞得我又失眠了
随着ChatGPT的横空出世,各种大模型如雨后春笋一般涌现。女朋友最近研究了大模型,准备深夜给我讲解技术原理。可是我真的好困啊,但她说,AI最近那么火,你确定不想学习下吗? 她说,大语言模型是一种人工智能技术,它可以理解和生成人类语言。这种模型的技术原...
-
Stable Diffusion生成式扩散模型代码实现原理
Stable Diffusion可以使用PyTorch或TensorFlow等深度学习框架来实现。这些框架提供了一系列的工具和函数,使得开发者可以更方便地构建、训练和部署深度学习模型。因此可以使用PyTorch或TensorFlow来实现Stable Di...
-
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
技术的发展总是伴随着被滥用的风险,从ChatGPT到最近发布的文本转视频工具Sora,AI生成的内容越是逼真,被滥用的风险也就越高。 仅仅一年前,大家还在嘲笑AI生成的「威尔史密斯吃意大利面」不自然,手部、嘴部、面条没有一个真实的;但现在的顶级AI模型已...
-
CLIP-BEVFormer:显式监督BEVFormer结构,提升长尾检测性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做...
-
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。 然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...
-
文心一言使用指南
文心一言是一款由百度推出的大语言模型,基于百度自主研发的知识和语义理解技术。以下是文心一言的使用指南: 1. 注册登录:首先,你需要注册并登录百度账号。如果你已经拥有百度账号,可以直接登录。 2. 创建实例:在百度AI开放平台(***/),选择“产品服...
-
Stable Diffusion 进阶教程-XYZ图表
目录 1.XYZ Plot 简介 2.XYZ Plot使用方法 3.XYZ Plot的应用案例 3.1.不同采样方法效果对比 3.2.不同步数效果对比 3.3.不同采样方法在不同采样步数下的效果对比 4.XYZ Plot 总结...
-
对大型语言模型的安全性能进行基准测试,谁更胜一筹?
大型语言模型(LLM)机器学习技术正在迅速发展,催生了多个相互竞争的开源和专有架构。除了与ChatGPT等平台相关的生成式文本任务外,LLM还被证实在许多文本处理应用程序中具有实用价值,可以协助编写代码以及对内容进行分类。 SophosAI研究了许多在网...
-
Stable Diffusion 模型下载和使用方法
1、Stable Diffusion模型简介 上一文中《Stable Diffusion绘图神器,2分钟极速安装教程!(提供安装包)-CSDN博客》,给大家介绍了Stable Diffusion的安装方法和简单的使用方式,有...
-
MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍
在当今人工智能时代,计算机可以通过扩散模型生成自己的 “艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。 扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。在幕后,这涉及一个复杂、耗时的过程,需要算法多次迭代才能完美...
-
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切
转自知乎:叫我Alonzo就好了 前言 背景——Sora和Stable Diffusion 3 近期,OpenAI和Stability两大AI巨头公司在同期分别发布了它们的新作品——Sora和Stable Diffusion 3。神奇的是,这...
-
Stable Video 3D官网体验入口 AI 3D生成工具使用方法教程说明
Stable Video 3D是Stability AI推出的新模型,在3D技术领域取得了显著进步。与之前发布的Stable Zero123 相比,Stable Video 3D提供了大幅改进的质量和多视角支持。该模型能够在没有相机条件的情况下,基于单张图...
-
无需训练,Fast-DetectGPT让文本检测速度提升340倍
大语言模型如 ChatGPT 和 GPT-4 在各个领域对人们的生产和生活带来便利,但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法 ——Fast-DetectGPT,无需训练,直接使用开源小语言模型检测各种大...
-
巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数
传统的时空预测模型通常需要大量数据支持才能取得良好效果。 然而,由于城市发展水平不均衡和数据收集政策的差异,许多城市和地区的时空数据(如交通和人群流动数据)受到了限制。在这种情况下,模型在数据稀缺情况下的可迁移性变得尤为重要。 现有研究主要利用数据丰富的...
-
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元
不久前OpenAI Sora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。 继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sor...
-
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...
-
Stable Diffusion XL on diffusers
Stable Diffusion XL on diffusers 翻译自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译 Stable Dif...
-
【AIGC调研系列】大模型的system prompt破解方法汇总
本文不提供具体方法,只汇总!!! 大模型的system prompt破解方法主要包括提示注入(prompt injection)、命令注入、提示自动迭代精炼(Prompt Automatic Iterative Refinement, PAIR)等技术。...
-
不公开!不会音视频一锅出!Sora团队最新采访透露了一个训练细节
撰文&编译 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) AI视频生成模型仍然热闹不断! 上一周,Pika支持音效同步生成功能,终于实现了音频、视频“一锅出”;看国内,阿里在推出令人惊艳的EMO框架后,再发图像转视频模型...
-
把字节当成token,清华和微软刚掏出来的bGPT到底什么来头
相信你或多或少对GPT有一定的了解,但我赌你没听说过bGPT。bGPT的意思是byte GPT,即字节GPT。这是一种专门设计用于处理二进制数据和模拟数字世界的深度学习模型。简单概括,bGPT突破了传统语言模型的局限,能够直接理解和操作二进制数据,拓展了深...
-
Sora还没开源,但这家国产AIGC视频公司已经靠还原现实赚钱了
最近AIGC的落地,又有了一些热议和争论。 在金沙江创投主管合伙人朱啸虎的爆款采访中,他表达了对自研大模型商业闭环的悲观,但又坚定地表示非常看好应用,“我信仰AGI,但我信仰应用啊,信仰能马上商业化的。” 在他的犀利表达中,一家应用公司意外走红。 它就是A...
-
关于大语言模型LLM相关的数据集、预训练模型、提示词、微调的文心一言问答
文章目录 关于大语言模型LLM相关的数据集、预训练模型、提示词、微调的文心一言问答 先总结一下 Q:LLM模型预训练前与提示词关系,LLM模型预训练后与提示词关系 Q:预训练用的数据集与提示词有什么异同 Q:为什么我看到的数据集结构和提示词结...
-
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。 近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为...
-
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。 究其原因,导致模型理解长视...
-
AIGC内容分享(三十七):AIGC技术在淘淘秀场景的探索与实践
目录 引言 技术调研 ▐ 图像生成方案对比 ▐ 仿真形象生成方案对比 ▐ 换背景方案 (测试中 ▐ 模型流程串联 淘淘秀AIGC的使用 问题与处理 展望 引言 AIGC相关领域爆发式增长,在图像式AI领域出现Mid...
-
下一代软件开发:AIGC智能编程与持续集成的完美结合
AIGC智能编程与持续集成/持续部署工具的无缝集成 近年来,随着软件开发的快速发展和自动化工具的广泛应用,持续集成(Continuous Integration)和持续部署(Continuous Deployment)已经成为现代软件开发中不可或缺的一...
-
在 M1/M2 MacOS 上使用 Diffusers 运行 Stable Diffusion 模型
最近 AI 大热,从 ChatGPT 到 Stable Diffusion,各种 AI 生成模型层出不穷,作为凑热闹爱好者,也在不停尝试玩一玩各种模型。近期对于 Stable Diffusion 模型比较感兴趣,之前也看到了很多在苹果电脑上运行 Stabl...
-
联合国最新研究:ChatGPT等大模型对女性存在明显偏见!
快科技3月8日消息,据媒体报道,在三八国际妇女节前夕,联合国教科文组织发布的研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向。 大语言模型是一种用于支持生成式人工智能的自然语言处理工具,OpenAI的GPT-3.5、GPT-2,脸书母公司Meta的L...
-
提示词在大模型Chatgpt、llama2、chatglm3、gemini、bert、bard、通义千问、文心一言、盘古大模型等的核心作用,谁掌握提示词工程能力,谁就拿到激发大模型强大生成能力的钥匙
提示词在大模型Chatgpt、llama2、chatglm3、gemini、bert、bard、通义千问、文心一言、盘古大模型等的核心作用,谁掌握提示词工程能力,谁就拿到激发大模型强大生成能力的钥匙。 提示工程(Prompt Engineering)...
-
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。 全文一共28页,诚意满满。 “老规矩”,宣传海报(⬇️)直接用模型生成,再秀一把文字渲染能力: 所以,SD3这比DALL·E 3和Midjourney v6都要强的文字...
-
一文总结扩散模型(Diffusion Model)在时间序列中的应用
扩散模型是目前生成式AI中的最核心模块,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时,扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路,以及几篇扩散模型用于时间序列的典型工作,带你...
-
Stable Diffusion 光影艺术字
微缩成小图的时候能看到文字,放大图片之后文字消失,这种图片最适合发朋友圈了。实现这种效果的方式有很多种,有的是和衣服上的颜色和款式结合,有的是通过光影结合。今天给大家介绍如何生成光影效果,一种类似光透过特殊窗户打到物体上的效果,先看成图: 这种效果主...
-
Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,...
-
stable diffusion webUI之赛博菩萨【秋葉】——工具包新手安裝与使用教程
stable diffusion webUI之赛博菩萨【秋葉】——工具包新手安裝与使用教程 AI浪潮袭来,还是学习学习为妙 赛博菩萨【秋葉】简介——(葉ye,四声,同叶) A绘世启动器.exe(sd-webui-aki-v4.6.x)工具包安装...
-
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。 每个人想要的大模型,是真·智能的那种...... 这不,谷歌团队就做出来了一个强大的「读屏」AI。 研究人员...
-
印度改变立场,要求 AI 模型发布需政府批准
印度最新发布了一项指南,要求科技公司在推出新的 AI 模型前必须获得政府批准。印度电子和信息技术部上周五发布了这项指南。虽然这项指南并未公开发表,但 TechCrunch 已查阅了一份副本。 指南还要求科技公司确保他们的服务或产品 “不产生任何偏见或歧视...
-
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑...
-
实测英伟达AI游戏引擎:与NPC实时聊天,中文流畅爆了
黄院士在《赛博朋克2077》里搞的智能NPC,已经飙起中文了? 量子位的一手体验,亲眼见证了NPC们流利地用中英双语对话,表情动作自然,口型也能对上…… 如果不是眼前就有一块屏幕,真的会有种身临其境之感。 今年的CES展会上,英伟达用智能引擎Avata...
-
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印 前言 视觉AIGC识别 【误差特征】DIRE for Diffusion-Generated Image Detection 方法 扩散模型的角色 DIRE作为检测指标 实验结果...
-
万字长文!AIGC 时代数字图像水印的进展与实践 | 新程序员
【导读】数字水印是信息安全领域的新技术,用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理,分为空域和变换域方法。本文介绍了数字图像水印的发展与实践,包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水...
-
微软与前谷歌CEO支持AI对齐初创公司Synth Labs,让AI系统按人类预期工作
在人工智能软件领域,系统并不总是按照其开发者的意愿行动,这一潜在危险已经引起了一些科技巨头的关注。近期,微软与前谷歌CEO埃里克·施密特(Eric Schmidt)联手支持了一家名为Synth Labs的初创公司,致力于解决这一对齐问题。 Synth L...
-
谷歌CEO表示 Gemini AI 多样性错误“完全不可接受”
近日,谷歌首席执行官桑达尔·皮查伊在一份内部备忘录中向员工解释了 Gemini AI 生成的历史不准确图像和文本所引发的争议这一备忘录在上周传出,皮查伊在其中承认 Gemini AI 的表现“冒犯了我们的用户并表现出偏见”。 Gemini AI 是谷歌的...
-
LLaMA v1/2模型结构总览
LLaMA v1/2模型结构总览 孟繁续 目录 收起 结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速...
-
Genie官网体验入口 AI游戏世界模型生成工具使用方法
GenieAI是一个利用互联网视频训练的基础世界模型,可以从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的 世界。它的使用范围广泛,可以用于从图像或文本生成整个互动世界,是训练未来通用AI代理的有利工具。 点击前往GenieAI官网体验入口 谁可...