图像描述 - AIGC资讯

Midjourney提示词-动物系列-16

A husky with the shape of tiger stripes on its body.UHD,4k render --ar 9:16 --s 5000 --testp --upbeta --upbeta Tiny cute and...

AIGC 2024-08-02 人工智能

792阅读

全网新鲜出炉的Stable Diffusion 人物发型提示词大全，中英文列表！

前言简介：使用发型提示词能更精确描述所需图像的发型特征，如卷发、短发、颜色和风格。结合正负提示词，确保生成图片符合预期。尝试使用工具如PromptChoose来创建个性化图像描述，包含多种发型选项，如刘海、马尾、波浪发型等，以增强图像细节和个性化。...

大数据 2024-07-29 人工智能

1978阅读

掌握Midjourney：一份全面的使用教程

Midjourney 它是一种通过人工智能生成图片的人工智能绘画工具，如何使用Midjourney？很简单，只要在对话框中输入imagine 命令，添加您需要的图像描述或关键字，并在发送后生成相应的艺术图片。除了其强大的生图功能外，Midjourney 还...

人工智能 2024-07-25 人工智能

2618阅读

LLaMA-Cult-and-More：深度学习的新里程碑

LLaMA-Cult-and-More：深度学习的新里程碑在人工智能领域，尤其是自然语言处理（NLP）中，模型的规模和能力不断提升，推动了行业的飞速进步。今天我们要介绍的是一个名为LLaMA的开源项目，它由shm007g开发并维护，旨在提供高效的、大规...

人工智能 2024-07-07 人工智能

880阅读

【AIGC调研系列】CogVLM2:第二代视觉大模型

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...

人工智能 2024-05-28 人工智能

1681阅读

微软37页论文逆向工程Sora，得到了哪些结论？

追赶 Sora，成为了很多科技公司当下阶段的新目标。研究者们好奇的是：Sora 是如何被 OpenAI 发掘出来的？未来又有哪些演进和应用方向？ Sora 的技术报告披露了一些技术细节，但远远不足以窥其全貌。在最近的一篇文章中，微软研究院和理海大学的研...

AIGC 2024-03-02 人工智能

820阅读

CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗？｜ DALL-E 3、Stable Diffusion等20+ 图像生成模型综述

随着科技飞速发展，CES（国际消费电子展）已然成为全球科技产业的风向标，每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会，不难发现其亮点纷呈，其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应用成为CES大会上的一大亮点，各大厂商纷纷展...

人工智能 2024-02-04 人工智能

1160阅读

人工智能大时代——AIGC综述

生成式AI分类模型按照输入输出的数据类型分类，目前主要包括9类。有趣的是，在这些已发布大模型的背后，只有六个组织（OpenAI, Google, DeepMind, Meta, runway, Nvidia）参与部署了这些最先进的模型。...

生成式AI 2024-02-04 人工智能

1058阅读

谷歌Brad AI聊天机器人免费在线使用地址 Gemini Pro体验入口

Gemini是由谷歌DeepMind推出的全新一代人工智能系统。它引领着多模态推理的潮流，支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域均展现出卓越的能力，成为当前最强大的AI系统之一。Gemini提供三...

AIGC 2024-02-02 人工智能

943阅读

最强开源多模态生成模型MM-Interleaved：首创特征同步器

想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科...

AIGC 2024-02-01 人工智能

1009阅读

Gemini官网体验入口谷歌DeepMind多模态AI人工智能在线使用地址

Gemini是由谷歌DeepMind推出的新一代人工智能系统。作为全球热门的多模态AI系统，Gemini能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。在语言理解、推理、数学、编程等多个领域，Gemini超越了之前的状态，成为迄今为止最...

人工智能 2024-01-29 人工智能

1884阅读

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...

生成式AI 2024-01-29 人工智能

909阅读

通义千问视觉语言模型Qwen-VL在线体验入口阿里云AI在线使用入口

Qwen-VL是阿里云推出的通用型视觉语言模型，具备强大的视觉理解和多模态推理能力。采用 Transformer 结构，以 7B 参数规模进行预训练，支持 448x448 分辨率，能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...

生成式AI 2024-01-29 人工智能

1156阅读

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。 2024年，大模型领域要卷什么? 如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 G...

大数据 2024-01-26 人工智能

863阅读

谷歌AI聊天机器人在线使用地址 Gemini官网体验入口

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态，成为迄今为止最强大的AI系统之一。它有三个不同规模的版本...

人工智能 2024-01-22 人工智能

1692阅读

谷歌AI多模态人工智能系统网页版在线使用地址 Gemini官网体验入口

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态，成为迄今为止最强大的AI系统之一。它有三个不同规模的版本...

大数据 2024-01-19 人工智能

1537阅读

DreaMoving官网体验入口 AI图像转舞蹈视频生成工具app免费下载地址

DreaMoving是一款基于扩散模型的可控制视频生成框架，专门用于生成高质量的定制人类舞蹈视频。用户只需提供目标身份和姿势序列，DreaMoving就可以生成目标身份在任何地方跳舞的视频。我们的模型包括一个视频控制网络和一个内容导引器，保留身份信息的同时...

生成式AI 2024-01-17 人工智能

1260阅读

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接...

大数据 2024-01-17 人工智能

924阅读

EasyDiffusion Online官网体验入口 AI图像生成工具免费使用地址

EasyDiffusion Online是一个由Stable Diffusion驱动的免费AI图像生成工具。它代表了当前最先进的文本转图像AI解决方案，能够快速将文字描述转化为高质量的图像。无论您是艺术家、设计师还是仅仅对AI图像生成感兴趣，EasyDif...

AIGC 2024-01-16 人工智能

1222阅读

谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

获取高质量数据，已经成为当前大模型训练的一大瓶颈。前几天，OpenAI被《纽约时报》起诉，并要求索赔数十亿美元。诉状中，列举了GPT-4抄袭的多项罪证。甚至，《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。一直以来，AI界多位大佬认为「合成数据」...

人工智能 2024-01-13 人工智能

826阅读

只需1080ti，即可在遥感图像中对目标进行像素级定位！代码数据集已开源！

太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新...

大数据 2024-01-06 人工智能

873阅读

攻克图像「文本生成」难题，碾压同级扩散模型！两代TextDiffuser架构深度解析

近年来，文本生成图像领域取得了显著进展，尤其是基于扩散（Diffusion）的图像生成模型在细节层面上展现出逼真的效果。然而，一个挑战仍然存在：如何将文本准确地融入图像。生活中存在大量的「含文本图像」，从广告海报到书籍封面，再到路牌指示，都包含了重要...

生成式AI 2024-01-06 人工智能

919阅读

怎么使用midjourney？9个步骤教你学会AI创作

人工智能生成艺术作品的时代已经来临，互联网上到处都是试图创造完美提示的用户，以引导人工智能创造出正确的图像——有时甚至是错误的图像。听起来很有趣？Midjourney 是一种更常见的 AI 工具，人们用它只用几句话就能创造出梦幻般的风景和主题。如果您想...

人工智能 2024-01-05 人工智能

2457阅读

「Gemini」官网体验入口谷歌AI聊天软件app免费下载地址

Gemini是由谷歌DeepMind推出的新一代人工智能系统。这个系统能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互，已成为迄今最强大的AI系统之一。Gemini具有三个不同规模的版本，可以满足从边缘计算到云计算的各种需求，并广泛应用于...

生成式AI 2023-12-25 人工智能

1179阅读

文心一言4 测评

文章目录中文语句理解 “我一把把把把住了” “别别别的” 藏头诗文案策划组会汇报文档视频文案课程大纲设计 C++考点设计人工智能引论生活场景旅游计划代码生成与分析样例1：python多进程程序样例2：数据处理...

人工智能 2023-12-25 人工智能

1215阅读

Gemini官网体验入口谷歌AI聊天模型软件app免费下载地址

Gemini是由谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域的表现超越了以往，成为目前最强大的AI系统之一。它有三个不同规模的版本，能...

生成式AI 2023-12-18 人工智能

1105阅读

Gemini官网体验入口谷歌AI软件app免费下载地址

Gemini 是谷歌 DeepMind 推出的一款新一代人工智能系统，能够执行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。它在语言理解、推理、数学、编程等多个领域表现卓越，成为最强大的 AI 系统之一。那么，Gemini 在哪里可以体验呢？...

生成式AI 2023-12-14 人工智能

911阅读

Stable Diffusion - SD v1.6+ 版本导致 BLIP Interrogate CLIP (CLIP 反推) 功能 RuntimeError 异常

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/132994678 图像来源于麦橘写实_MajicMIX_R...

大数据 2023-12-14 人工智能

1481阅读

微软提出变色龙框架，让模型自带工具箱开挂，数学推理任务准确率98%

教大模型调用工具，已经是AI圈关注度最高的话题之一了。这不，又有一项研究登上最新NeurIPS 2023—— 它是一个叫做Chameleon（变色龙）的框架，号称能将大语言模型直接变成魔法师的工具箱，来自微软与加州大学洛杉矶分校（UCLA）。相比其它...

大数据 2023-12-13 人工智能

916阅读

Midjourney生成LOGO指南

目录常见的Logo 宠物店Logo Graphic Logo Lettermark Logo Geometric Logo Mascot Logo 增加风格——艺术运动每个产品都有自己的专属名称，也有自己专属的Logo，...

大数据 2023-12-13 人工智能

1145阅读

Meta Ray-Ban智能眼镜引入AI，可识别物体和语言翻译

Meta公司最新宣布将在其Ray-Ban智能眼镜上推出引人注目的多模态AI功能，为用户提供更智能、交互式的体验。该功能利用眼镜的摄像头和麦克风，使Meta的AI助手能够感知用户周围的视听信息，并做出相应的反应。马克扎克伯格在Instagram的一段视频中...

生成式AI 2023-12-13 人工智能

890阅读

【Video-LLaMA】增强LLM对视频内容的理解

Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...

生成式AI 2023-12-13 人工智能

1291阅读

华科大发布AI大模型猴子：部分超越GPT-4

快科技12月12日消息，华中科技大学官方发文称，该校软件学院一团队发布了多模态大模型Monkey”。该模型擅长图像描述和视觉问答，能够实现对世界的观察”，对图片进行深入问答交流和精确描述。官方介绍称，在18个数据集上的实验中，华科大Monkey模型表...

生成式AI 2023-12-12 人工智能

848阅读

DreaMoving在哪里可以使用 AI视频背景修改工具

DreaMoving 是一款基于扩散模型的视频生成工具，可用于生成高保真度的定制人类舞蹈视频。用户只需提供目标人物的身份信息和舞蹈动作序列，DreaMoving 即可根据这些信息生成一个目标人物在任意场景中跳舞的视频。那么DreaMoving在哪里可以体验...

生成式AI 2023-12-12 人工智能

874阅读

DreaMoving官网体验入口 AI视频生成软件app免费下载地址

《DreaMoving》是一个基于扩散模型的可控制视频生成框架，专门用于生成高质量的定制人类舞蹈视频。通过提供目标身份和姿势序列，用户可以用《DreaMoving》生成各种场景下的舞蹈视频。那么，《DreaMoving》在哪里可以体验呢?下面就给大家带来《...

人工智能 2023-12-12 人工智能

971阅读

表格数学推理准确率达98.78%！UCLA推出全新「变色龙推理框架」

在自然语言处理任务中取得显著成就的大型语言模型（LLMs）尽管表现出色，但在实时信息获取、外部工具利用和精确数学推理方面仍显不足。为了应对这些挑战，来自UCLA等机构的研究人员打造了全新的Chameleon框架，其独特的即插即用模型融合了多种工具，包括...

大数据 2023-12-12 人工智能

906阅读

Gemini官网体验入口 Google AI聊天软件app免费下载地址

《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。点击前往《Gem...

AIGC 2023-12-11 人工智能

1283阅读

Gemini官网体验入口谷歌AI聊天软件app免费下载地址

《Gemini》是谷歌DeepMind推出的新一代人工智能系统。它支持多模态推理，能够处理文本、图像、视频、音频和代码之间的无缝交互。在多个领域，如语言理解、推理、数学、编程等方面都有显著的表现，被认为是目前最强大的AI系统之一。《Gemini》在哪里可以...

生成式AI 2023-12-10 人工智能

1064阅读

【多模态】5、BLIP | 统一理解与生成任务为图像生成更高质量的文本描述

文章目录一、背景二、方法 2.1 模型结构 2.2 Pre-training Objectives 2.3 CapFilt 三、效果 3.1 训练细节 3.2 CapFilt 的效果 3.3 样本多样性是文本合成器的关键 3.4 参数...

AIGC 2023-12-09 人工智能

2092阅读

Gemini官网体验入口多模态AI聊天软件app免费下载地址

《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。它具备多模态推理能力，支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。点击前往《Gem...

人工智能 2023-12-09 人工智能

899阅读

Gemini官网体验入口谷歌多模态AI免费软件app下载地址

《Gemini》是由谷歌DeepMind推出的新一代人工智能系统。这个系统能够进行多模态推理，支持文本、图像、视频、音频和代码之间的无缝交互。《Gemini》在哪里可以体验呢?下面就给大家带来《Gemini》官网体验入口和免费app下载地址。点击前往《...

大数据 2023-12-07 人工智能

1076阅读

Bard：一个可以描述图像的人工智能

Bard 是一个大型语言模型，可以对各种提示和问题进行交流和生成类似人类的文本。它接受了大量的文字和代码训练，可以生成文本、翻译语言、编写不同类型的创意内容，并以信息丰富的方式回答你的问题。 Bard 还可以识别图像。它可以识别图像中的对象、场景和人物。...

生成式AI 2023-12-02 人工智能

819阅读

中国团队开源大规模高质量图文数据集ShareGPT4V

中国团队最近开源了一个引人瞩目的图文数据集，命名为ShareGPT4V，它基于GPT4-Vision构建，训练了一个7B模型。这一举措在多模态领域取得了显著的进展，超越了同级别的模型。该数据集包含了120万条图像-文本描述数据，涵盖了世界知识、对象属性、...

大数据 2023-11-29 人工智能

962阅读

AIGC之GPT-4：GPT-4的简介与详细攻略

AIGC之GPT-4：GPT-4的简介与详细攻略简介欢迎来到人工智能生成内容（AIGC）时代的新篇章！本篇博客将介绍GPT-4（Generative Pre-trained Transformer 4）的核心原理、意义、亮点、技术点、缺点以及使...

人工智能 2023-11-28 人工智能

1287阅读

stable diffusion(Lora的训练)

以坤坤为例，上网随便找了几个坤坤的人脸图像，作为训练的数据集 1 训练环境搭建建议看一遍教程，虽然这个up主好像不是很专业的样子，不过流程差不多是这样的，重点关注一下虚拟环境搭建完之后，在终端选择配置的操作，就是一堆yes no，的选项，跟着视...

生成式AI 2023-11-18 人工智能

1064阅读

解读OpenAI最强文生图模型—DALL·E 3

Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功，这让OpenAI看到了全新的商机，也是推出DALL·E3的重要原因之一。上周，OpenAI宣布在ChatGPT Plus和企业版用户中，全面开放文生图模型DAL...

AIGC 2023-10-24 人工智能

1281阅读

MiniGPT-5：一种基于生成vokens 的交错视觉和语言生成模型

MiniGPT-5是一种交错视觉和语言生成模型，通过整合大型语言模型和稳定扩散技术，实现了文本和图像的协调输出。该模型采用两阶段训练策略，首先进行无图像描述的多模态数据生成，然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...

AIGC 2023-10-24 人工智能

907阅读

一段话让模型自曝「系统提示词」！ChatGPT、Bing无一幸免

ChatGPT语音对话，发布即惊艳全网—— 凭借表达自然流畅，嘎嘎乱杀一众AI对话产品。而现在，其背后秘诀——系统提示词居然被人扒了出来！原来对话过程中，ChatGPT要遵循下面这么多规则：使用自然、对话性强、清晰易懂的语言，比如短句、简单词...

人工智能 2023-10-23 人工智能

1034阅读