-
Midjourney提示词-动物系列-16
A husky with the shape of tiger stripes on its body.UHD,4k render --ar 9:16 --s 5000 --testp --upbeta --upbeta Tiny cute and...
-
全网新鲜出炉的Stable Diffusion 人物发型提示词大全,中英文列表!
前言 简介: 使用发型提示词能更精确描述所需图像的发型特征,如卷发、短发、颜色和风格。结合正负提示词,确保生成图片符合预期。尝试使用工具如PromptChoose来创建个性化图像描述,包含多种发型选项,如刘海、马尾、波浪发型等,以增强图像细节和个性化。...
-
掌握Midjourney:一份全面的使用教程
Midjourney 它是一种通过人工智能生成图片的人工智能绘画工具,如何使用Midjourney?很简单,只要在对话框中输入imagine 命令,添加您需要的图像描述或关键字,并在发送后生成相应的艺术图片。除了其强大的生图功能外,Midjourney 还...
-
LLaMA-Cult-and-More:深度学习的新里程碑
LLaMA-Cult-and-More:深度学习的新里程碑 在人工智能领域,尤其是自然语言处理(NLP)中,模型的规模和能力不断提升,推动了行业的飞速进步。今天我们要介绍的是一个名为LLaMA的开源项目,它由shm007g开发并维护,旨在提供高效的、大规...
-
【AIGC调研系列】CogVLM2:第二代视觉大模型
CogVLM2是智谱AI推出的新一代多模态大模型,继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...
-
微软37页论文逆向工程Sora,得到了哪些结论?
追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。 在最近的一篇文章中,微软研究院和理海大学的研...
-
CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述
随着科技飞速发展,CES(国际消费电子展)已然成为全球科技产业的风向标,每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会,不难发现其亮点纷呈,其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应用成为CES大会上的一大亮点,各大厂商纷纷展...
-
人工智能大时代——AIGC综述
生成式AI分类 模型按照输入输出的数据类型分类,目前主要包括9类。 有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型。...
-
谷歌Brad AI聊天机器人免费在线使用地址 Gemini Pro体验入口
Gemini是由谷歌DeepMind推出的全新一代人工智能系统。它引领着多模态推理的潮流,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域均展现出卓越的能力,成为当前最强大的AI系统之一。Gemini提供三...
-
最强开源多模态生成模型MM-Interleaved:首创特征同步器
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。 最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科...
-
Gemini官网体验入口 谷歌DeepMind多模态AI人工智能在线使用地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。作为全球热门的多模态AI系统,Gemini能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。在语言理解、推理、数学、编程等多个领域,Gemini超越了之前的状态,成为迄今为止最...
-
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。 想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
谷歌AI聊天机器人在线使用地址 Gemini官网体验入口
Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本...
-
谷歌AI多模态人工智能系统网页版在线使用地址 Gemini官网体验入口
Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本...
-
DreaMoving官网体验入口 AI图像转舞蹈视频生成工具app免费下载地址
DreaMoving是一款基于扩散模型的可控制视频生成框架,专门用于生成高质量的定制人类舞蹈视频。用户只需提供目标身份和姿势序列,DreaMoving就可以生成目标身份在任何地方跳舞的视频。我们的模型包括一个视频控制网络和一个内容导引器,保留身份信息的同时...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
EasyDiffusion Online官网体验入口 AI图像生成工具免费使用地址
EasyDiffusion Online是一个由Stable Diffusion驱动的免费AI图像生成工具。它代表了当前最先进的文本转图像AI解决方案,能够快速将文字描述转化为高质量的图像。无论您是艺术家、设计师还是仅仅对AI图像生成感兴趣,EasyDif...
-
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
获取高质量数据,已经成为当前大模型训练的一大瓶颈。 前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。 甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。 一直以来,AI界多位大佬认为「合成数据」...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
怎么使用midjourney?9个步骤教你学会AI创作
人工智能生成艺术作品的时代已经来临,互联网上到处都是试图创造完美提示的用户,以引导人工智能创造出正确的图像——有时甚至是错误的图像。听起来很有趣?Midjourney 是一种更常见的 AI 工具,人们用它只用几句话就能创造出梦幻般的风景和主题。 如果您想...
-
「Gemini」官网体验入口 谷歌AI聊天软件app免费下载地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。这个系统能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互,已成为迄今最强大的AI系统之一。Gemini具有三个不同规模的版本,可以满足从边缘计算到云计算的各种需求,并广泛应用于...
-
文心一言4 测评
文章目录 中文语句理解 “我一把把把把住了” “别别别的” 藏头诗 文案策划 组会汇报文档 视频文案 课程大纲设计 C++考点设计 人工智能引论 生活场景 旅游计划 代码生成与分析 样例1:python多进程程序 样例2:数据处理...
-
Gemini官网体验入口 谷歌AI聊天模型软件app免费下载地址
Gemini是由谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域的表现超越了以往,成为目前最强大的AI系统之一。它有三个不同规模的版本,能...
-
Gemini官网体验入口 谷歌AI软件app免费下载地址
Gemini 是谷歌 DeepMind 推出的一款新一代人工智能系统,能够执行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。它在语言理解、推理、数学、编程等多个领域表现卓越,成为最强大的 AI 系统之一。那么,Gemini 在哪里可以体验呢?...
-
Stable Diffusion - SD v1.6+ 版本导致 BLIP Interrogate CLIP (CLIP 反推) 功能 RuntimeError 异常
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132994678 图像来源于 麦橘写实_MajicMIX_R...
-
微软提出变色龙框架,让模型自带工具箱开挂,数学推理任务准确率98%
教大模型调用工具,已经是AI圈关注度最高的话题之一了。 这不,又有一项研究登上最新NeurIPS 2023—— 它是一个叫做Chameleon(变色龙)的框架,号称能将大语言模型直接变成魔法师的工具箱,来自微软与加州大学洛杉矶分校(UCLA)。 相比其它...
-
Midjourney生成LOGO指南
目录 常见的Logo 宠物店Logo Graphic Logo Lettermark Logo Geometric Logo Mascot Logo 增加风格——艺术运动 每个产品都有自己的专属名称,也有自己专属的Logo,...
-
Meta Ray-Ban智能眼镜引入AI,可识别物体和语言翻译
Meta公司最新宣布将在其Ray-Ban智能眼镜上推出引人注目的多模态AI功能,为用户提供更智能、交互式的体验。该功能利用眼镜的摄像头和麦克风,使Meta的AI助手能够感知用户周围的视听信息,并做出相应的反应。 马克扎克伯格在Instagram的一段视频中...
-
【Video-LLaMA】增强LLM对视频内容的理解
Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...
-
华科大发布AI大模型猴子:部分超越GPT-4
快科技12月12日消息,华中科技大学官方发文称,该校软件学院一团队发布了多模态大模型Monkey”。 该模型擅长图像描述和视觉问答,能够实现对世界的观察”,对图片进行深入问答交流和精确描述。 官方介绍称,在18个数据集上的实验中,华科大Monkey模型表...
-
DreaMoving在哪里可以使用 AI视频背景修改工具
DreaMoving 是一款基于扩散模型的视频生成工具,可用于生成高保真度的定制人类舞蹈视频。用户只需提供目标人物的身份信息和舞蹈动作序列,DreaMoving 即可根据这些信息生成一个目标人物在任意场景中跳舞的视频。那么DreaMoving在哪里可以体验...
-
DreaMoving官网体验入口 AI视频生成软件app免费下载地址
《DreaMoving》是一个基于扩散模型的可控制视频生成框架,专门用于生成高质量的定制人类舞蹈视频。通过提供目标身份和姿势序列,用户可以用《DreaMoving》生成各种场景下的舞蹈视频。那么,《DreaMoving》在哪里可以体验呢?下面就给大家带来《...
-
表格数学推理准确率达98.78%!UCLA推出全新「变色龙推理框架」
在自然语言处理任务中取得显著成就的大型语言模型(LLMs)尽管表现出色,但在实时信息获取、外部工具利用和精确数学推理方面仍显不足。 为了应对这些挑战,来自UCLA等机构的研究人员打造了全新的Chameleon框架,其独特的即插即用模型融合了多种工具,包括...
-
Gemini官网体验入口 Google AI聊天软件app免费下载地址
《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。 点击前往《Gem...
-
Gemini官网体验入口 谷歌AI聊天软件app免费下载地址
《Gemini》是谷歌DeepMind推出的新一代人工智能系统。它支持多模态推理,能够处理文本、图像、视频、音频和代码之间的无缝交互。在多个领域,如语言理解、推理、数学、编程等方面都有显著的表现,被认为是目前最强大的AI系统之一。《Gemini》在哪里可以...
-
【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述
文章目录 一、背景 二、方法 2.1 模型结构 2.2 Pre-training Objectives 2.3 CapFilt 三、效果 3.1 训练细节 3.2 CapFilt 的效果 3.3 样本多样性是文本合成器的关键 3.4 参数...
-
Gemini官网体验入口 多模态AI聊天软件app免费下载地址
《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。它具备多模态推理能力,支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。 点击前往《Gem...
-
Gemini官网体验入口 谷歌多模态AI免费软件app下载地址
《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。这个系统能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。 点击前往《...
-
Bard:一个可以描述图像的人工智能
Bard 是一个大型语言模型,可以对各种提示和问题进行交流和生成类似人类的文本。它接受了大量的文字和代码训练,可以生成文本、翻译语言、编写不同类型的创意内容,并以信息丰富的方式回答你的问题。 Bard 还可以识别图像。它可以识别图像中的对象、场景和人物。...
-
中国团队开源大规模高质量图文数据集ShareGPT4V
中国团队最近开源了一个引人瞩目的图文数据集,命名为ShareGPT4V,它基于GPT4-Vision构建,训练了一个7B模型。这一举措在多模态领域取得了显著的进展,超越了同级别的模型。 该数据集包含了120万条图像-文本描述数据,涵盖了世界知识、对象属性、...
-
AIGC之GPT-4:GPT-4的简介与详细攻略
AIGC之GPT-4:GPT-4的简介与详细攻略 简介 欢迎来到人工智能生成内容(AIGC)时代的新篇章!本篇博客将介绍GPT-4(Generative Pre-trained Transformer 4)的核心原理、意义、亮点、技术点、缺点以及使...
-
stable diffusion(Lora的训练)
以坤坤为例,上网随便找了几个坤坤的人脸图像,作为训练的数据集 1 训练环境搭建 建议看一遍教程,虽然这个up主好像不是很专业的样子,不过流程差不多是这样的,重点关注一下虚拟环境搭建完之后,在终端选择配置的操作,就是一堆yes no,的选项,跟着视...
-
解读OpenAI最强文生图模型—DALL·E 3
Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功,这让OpenAI看到了全新的商机,也是推出DALL·E3的重要原因之一。 上周,OpenAI宣布在ChatGPT Plus和企业版用户中,全面开放文生图模型DAL...
-
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。该模型采用两阶段训练策略,首先进行无图像描述的多模态数据生成,然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...
-
一段话让模型自曝「系统提示词」!ChatGPT、Bing无一幸免
ChatGPT语音对话,发布即惊艳全网—— 凭借表达自然流畅,嘎嘎乱杀一众AI对话产品。 而现在,其背后秘诀——系统提示词居然被人扒了出来! 原来对话过程中,ChatGPT要遵循下面这么多规则: 使用自然、对话性强、清晰易懂的语言,比如短句、简单词...