文本输入 - AIGC资讯

OpenAI开发者大会推出四大创新：提示词缓存可减少50%输入token成本

10月2日消息，美东时间10月1日OpenAI举行了年度开发者大会DevDay，推出系列新工具，包括四大创新：实时API（Realtime API）、视觉微调（Vision Fine-Tuning）、提示词缓存（Prompt Caching）、模型蒸馏（M...

AIGC 2024-10-02 人工智能

1396阅读

MidJourney 产品拆解调研报告

目录 1.产品概述 2. 目标用户与市场定位 3. 产品核心功能拆解功能列表功能使用流程交互体验 4.用户体验评估 1. 用户视角 2. 情感设计 3. 使用场景 5.数据和技术分析 1. 技术架构 2. 性能评估 3....

生成式AI 2024-09-30 人工智能

2160阅读

Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记

·Part1 ComfyUI 1.ComfyUI简介： GUI 是 "Graphical User Interface"（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GUI的一...

AIGC 2024-09-26 人工智能

1134阅读

Datawhale X 魔搭 AI夏令营第四期 AIGC方向 task03笔记

模型微调模型微调文生图的工作流平台工具ComfyUI 什么是ComfyUI ComfyUI核心模块魔搭安装ComfyUI LoRA微调 Lora详解 UNet、VAE和文本编码器的协作关系如何准备一个高质量的数据集明确需求...

人工智能 2024-09-24 人工智能

1139阅读

【扩散模型（六）】Stable Diffusion 3 diffusers 源码详解1-推理代码-文本处理部分

系列文章目录【扩散模型（一）】中介绍了 Stable Diffusion 可以被理解为重建分支（reconstruction branch）和条件分支（condition branch）【扩散模型（二）】IP-Adapter 从条件分支的视角，快...

生成式AI 2024-09-04 人工智能

1810阅读

【Midjourney】Midjourney全面开放网站版，所有用户每天可免费生成25次

Midjourney一直作为AI文生图领域的龙头老大，最近对面对市场上日益增长的竞争压力，尤其是来自 Flux 的挑战，终于向所有用户开放官方网站。尽管还处于早期阶段，但为了吸引更多用户体验，它暂时是完全免费的。下面是Midjourney 官方发布了一...

大数据 2024-09-04 人工智能

1342阅读

Meta AI新动向：Llama 4瞄准GPT-4，Agent技术或成研发重点

Meta的AI研发进展 Meta的AI科学家Thomas Scialom在最近的采访中透露了Llama系列大型语言模型的最新动态。Scialom谈到了Llama 3.1的研发思路，并展望了即将到来的Llama 4模型。他表示，Llama 3.1是在追求与...

AIGC 2024-08-31 人工智能

959阅读

GPT-4o模仿人类声音，诡异尖叫引OpenAI研究员恐慌！32页技术报告出炉

【新智元导读】五颗草莓到底指什么?盼了一天一夜，OpenAI只发来一份32页安全报告。报告揭露:在少数情况下，GPT-4o会模仿你的声音说话，或者忽然大叫起来……事情变得有趣了。昨天奥特曼率众人搞了一波「草莓暗示」的大阵仗，全网都在翘首以盼OpenAI的...

AIGC 2024-08-09 人工智能

926阅读

ChatGPT首次被植入人类大脑：帮助残障人士开启对话

快科技8月6日消息，据媒体报道，马斯克在脑机接口中最强大的竞争对手Synchron有了新的技术进展，他们首次将ChatGPT整合到其脑机系统中，以使瘫痪患者更容易控制他们的数字设备。 Synchron凭借其独特的脑机接口（BCI）技术脱颖而出，该技术巧妙地...

大数据 2024-08-06 人工智能

786阅读

微信小程序调用文心一言数据模型

微信小程序调用文心一言数据模型目录微信小程序调用文心一言数据模型 1.百度千帆大模型平台介绍 2.调用模型程序实现 1.百度千帆大模型平台介绍调用：首先要与数据模型API的地址建立连接，利用微信自带api-wx.reques...

生成式AI 2024-07-31 人工智能

1513阅读

每日AIGC最新进展(30)：阿卜杜拉国王大学提出旋转视角视频生成Vivid-ZOO、浙江大学提出4D场景编辑Instruct 4D-to-4D、西安交大提出3D重建大规模数据集OpenMateria

Diffusion Models专栏文章汇总：入门与实战 Vivid-ZOO: Multi-View Video Generation with Diffusion Model 本文提出了一种名为Vivid-ZOO的新型扩散模型，用于从文本...

AIGC 2024-07-18 人工智能

942阅读

【AIGC-图片生成视频系列-7】MoonShot：实现多模态条件下的可控视频生成和编辑

目录一. 贡献概述二. 方法详解编辑三. Zero-Shot主题定制视频生成四. 文本到视频生成五. 直接使用图像ControlNet 六. 图像动画比较七. 视频编辑八. 针对视频生成中多模态 Cross-Attn的消融实...

人工智能 2024-07-16 人工智能

1173阅读

Niantic利用Meta Llama让数字生物栩栩如生

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同...

人工智能 2024-06-29 人工智能

1024阅读

10款AI变现案例：利用stable diffusion 赚钱的10种方式

stable diffusion 是一种基于文本生成图像的深度学习模型，它可以根据任何文本输入生成逼真的图像。它利用了 CLIP ViT-L/14 文本编码器的文本嵌入和扩散模型的潜在变量，实现了高质量的图像合成。 stable diffusion 可以...

大数据 2024-06-24 人工智能

1999阅读

Stable diffusion批量自动化出图

目录问题背景问题场景分析批量文生图批量图生图 Comfyui自动化问题背景现在有一批提示词，想通过文生图，针对每个提示词生成多张效果图，然后对效果图经过图生图、ControlNet的...

AIGC 2024-06-23 人工智能

1455阅读

微信输入法上线“问AI”AI 问答功能

微信输入法近日发布了Windows和macOS双平台的1.2.0正式版更新，此次更新带来了全新的AI问答功能，为用户带来了更为智能和便捷的输入体验。现在，用户只需在输入内容后轻按“=”键，即可直接获取AI的智能回答。在最新版本的微信输入法中，AI问答功...

人工智能 2024-06-20 人工智能

928阅读

【学习笔记】文生图模型——Stable diffusion3.0

2.0原理才看到VAE，sd3.0就发布了，虽然还没看到源码和详解，但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型（stable diffusion≈LDMs+CLIP） 2.stable diffusion3.0模型架构图...

生成式AI 2024-06-19 人工智能

1401阅读

meta-llama/Meta-Llama-3-8B

https://huggingface.co/meta-llama/Meta-Llama-3-8B 型号细节 Meta开发并发布了Meta Llama 3家族大型语言模型(LLM ,这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。L...

人工智能 2024-06-19 人工智能

986阅读

MetaAI发布Llama 3模型：4000亿参数的AI新标杆

开源和闭源大战前几天，百度李彦宏说闭源才有意义。周鸿祎在哈佛论坛演讲上说，别听李彦宏胡说八道，没有开源就没有Linux，就没有今天的互联网，李彦宏自己都是借助开源的力量走到今天，现在反手说开源不好了？话音刚落，Meta这个奶妈就又开源了，我们又回...

大数据 2024-06-18 人工智能

1099阅读

苹果解释 iOS 18 中的 AI 文本生成表情符号 Genmoji 工作原理

iOS 18 中的一项 Apple Intelligence 功能是 Genmoji，它允许 iPhone 用户通过 AI 根据文本输入生成全新的表情符号角色。根据 iOS 18 在 WWDC 会议上的介绍，Genmoji 看起来类似于传统的表情符号，但它...

人工智能 2024-06-16 人工智能

950阅读

从注册到订阅，Midjourney使用指南，你想知道的都有

Midjourney简介 Midjourney官网：https://www.midjourney.com/home 是一个独立的研究实验室，专注于探索新的思维方式和扩展人类的想象力。它由一个小型的自筹资金团队组成，该团队专注于设计、人类基础设施和人...

人工智能 2024-06-14 人工智能

2338阅读

人工智能 | 360自研可控布局AI绘画模型HiCo发布

龙年春意伊始，360人工智能研究院正式发布新的AI绘画模型：可控布局生成模型HiCo。与大家所熟悉的文生图模型相比，HiCo在普通的文本输入之上，提供了更为强大的画面布局控制能力：用户可以根据自己的构思，指定在画面不同的区域生成不同的指定内容，实现A...

AIGC 2024-06-05 人工智能

873阅读

快手、字节“妙鸭化”，AI图像应用还能再度出圈吗？

在文生图领域，快手也开大了。据“头号AI玩家”了解，自研文生图大模型“可图”（Kolors）已于近日面向公众开放，用户可通过“可图大模型”微信小程序和网页版使用。体验链接:https://kolors.kuaishou.com/ 小程序搜索:可图大模...

生成式AI 2024-06-04 人工智能

978阅读

研究发现：OpenAI 的 GPT-4 在金融分析领域具有 “相对优势”：

根据芝加哥大学布斯商学院的一项研究，OpenAI 的 GPT-4在金融分析和预测方面超越了人类分析师，即使没有行业特定信息。这项研究上周公布，发现 GPT-4这一大型语言模型在分析财务报表和预测未来收益方面表现出色。研究称:“即使没有任何叙述或行业特定信息...

生成式AI 2024-05-29 人工智能

925阅读

AI绘画：利用ComfyUI进行文生图操作的完整指南

前言 ComfyUI作为一款基于Stable Diffusion的节点式操作界面，为用户提供了一个更加灵活和高效的文生图（文本生成图像）创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作，无论你是初学者还是有一定基础的用户，都能够通过本指南...

大数据 2024-05-26 人工智能

4311阅读

探索Llama 3模型在地理行业的应用

Llama 3模型简介 Llama 3模型是基于最新的神经网络架构设计而成，它融合了Transformer和图像注意力机制，能够同时处理自然语言和图像输入，实现跨模态信息的融合和理解。这使得Llama 3模型在地理信息处理和分析方面有着独特的优势...

AIGC 2024-05-24 人工智能

909阅读

通义千问GPT-4级主力模型Qwen-Long API输入费用暴跌97%

今日阿里云宣布将其GPT-4级主力模型Qwen-Long的API输入价格从每千tokens0.02元降至每千tokens0.0005元，直降了惊人的97%。这一举动意味着，现在用户只需花费1块钱就可以购买200万tokens，相当于5本《新华字典》的文字...

AIGC 2024-05-21 人工智能

933阅读

击穿全球底价！阿里云通义千问GPT-4级主力模型降价97%：约为GPT-4价格的1/400

快科技5月21日消息，今日阿里云宣布，通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。...

人工智能 2024-05-21 人工智能

851阅读

OpenAI“杀疯了”，GPT–4o模型保姆级使用教程！一遍就会！

5月14日凌晨1点，OpenAI发布了名为GPT-4o 最新的大语言模型，再次引领了人工智能领域的又一创新浪潮，让整个行业都为之震动。据OpenAI首席技术官穆里-穆拉提（Muri Murati）表示，GPT-4o是在继承GPT-4智能的基础上，对文本...

人工智能 2024-05-20 人工智能

1034阅读

OpenAI CEO下场回应「封口协议」，争议还是到了股权利益上，奥特曼：我的锅

自从 Ilya 和超级对齐负责人 Jan 离职后，OpenAI 内部还是心散了，后续也有越来越多的人离职，同时也引发了更多的矛盾。昨天，争议的焦点来到了一份严格的「封口协议」。 OpenAI 前员工 Kelsey Piper 爆料，任何员工的入职文...

人工智能 2024-05-20 人工智能

839阅读

谷歌发布 Music AI Sandbox：根据提示制作循环

作为今年 Google I/O2024大会的亮点之一，谷歌正式推出了名为 Music AI Sandbox 的音乐制作工具。这一工具被称为是音乐创作的新风向标，能够通过 AI 提示来创作音乐循环，让音乐创作变得更加轻松和有趣。据报道，Music AI S...

生成式AI 2024-05-15 人工智能

838阅读

音乐人值得尝试的十大文本转音乐AI平台

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 从生成旋律到创作整首曲子，这些文本转音乐AI平台让我们得以一窥音乐创作的未来。新时代的应用程序如雨后春笋般涌现，音乐领域的Sora时...

AIGC 2024-05-11 人工智能

1180阅读

虚拟人聊天系统Live2D 利用ChatGPT+对口型打造你自己的AI女友

这是一个基于 Unity 开发的 Live2D 虚拟人聊天系统项目。通过 Live2D 技术，项目展现了一个动态的虚拟人形象，让二维图像在屏幕上以近乎三维的形式呈现，提供流畅的动画效果，增强用户交互体验。虚拟人可以与用户进行实时的文本交流，利用 API...

AIGC 2024-04-23 人工智能

1095阅读

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究，成功地让大型人工智能模型通过讲笑话的方式，探索多模态大模型的创造力，并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。这项研究的关键在于使用来自日本的“大喜利”（Oo...

生成式AI 2024-04-12 人工智能

1157阅读

文生图——stable diffusion生成有趣的动漫图像

Stable Diffusion是一个文本转图像的模型，由CompVis、Stability AI和LAION共同开发。它能够从一段简单的文本输入中快速生成相应的图像。此外，它还可以导入图像并配合文本对其进行处理。从技术角度来看，Stable Diffus...

人工智能 2024-04-10 人工智能

1127阅读

AI绘图：Stable Diffusion ComfyUI局部重绘与智能扩图全面教程

前言在数字艺术创作中，局部重绘和智能扩图是两个非常重要的功能。局部重绘允许我们在保留原有图像的基础上，对特定区域进行修改或创新。而智能扩图则能够帮助我们在图像的边缘添加新的元素，从而扩展图像的内容。本文将详细介绍如何在Stable Diffusion...

人工智能 2024-04-10 人工智能

2379阅读

苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4，可大幅提升 Siri 智能程度

IT之家 4 月 2 日消息，虽然目前 Siri 可以尝试描述信息中的图像，但效果并不稳定。不过，苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中，苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型，而且他们认为这个名为 ReA...

生成式AI 2024-04-02 人工智能

800阅读

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。 △棕色文本为区分两张图的关键细节 Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插...

生成式AI 2024-04-01 人工智能

984阅读

OpenAI推出声音克隆新技术：复刻你的声音仅需15秒

快科技3月31日消息，据媒体报道，OpenAI公司最近推出了一项革命性的声音克隆技术Voice Engine”。据悉，Voice Engine通过文本输入和15秒的音频样本，便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。这一技术的研发始于...

大数据 2024-03-31 人工智能

802阅读

AI绘画Imagen大力出奇迹生成图像

AI绘画Imagen大力出奇迹生成图像介绍 Imagen是一个文本到图像的扩散模型，由Google大脑团队研究所开发。 Imagen通过创新的设计，摈弃了需要预训练视觉-语言模型的繁琐步骤，直接采用了T5等大规模语言模型作为文...

大数据 2024-03-29 人工智能

1005阅读

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...

AIGC 2024-03-27 人工智能

873阅读

微软新工具LLMLingua-2：可将 AI 提示压缩高达80%，节省时间和成本

微软研究发布了名为 LLMLingua-2的模型，用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记，同时保留关键信息，使得提示长度可减少至原长度的20%，从而降低成本和延迟。研究团队写道:“自然语言存在冗余，信息量不尽相同。” LL...

生成式AI 2024-03-25 人工智能

1067阅读

迎接国内AIGC时代！Kimi连续5次扩容：10分钟接近任何领域专家水平

快科技3月22日消息，月之暗面的Kimi火了，昨天下午，大模型应用Kimi的APP和小程序均显示无法正常使用。随后其母公司月之暗面发布说明，称自20日以来Kimi流量增加的趋势远超预期规划，公司已经进行了5次扩容工作，推理资源会持续配合流量进行扩容，以承...

AIGC 2024-03-23 人工智能

776阅读

库克在中国首谈苹果生成式AI 今年晚些时候推出

今日，苹果公司CEO蒂姆・库克亲临上海，就一系列话题与媒体进行了交流。其中，针对提问:“iPhone在人工智能领域取得了哪些进展?”库克详尽地回应称，AI技术已深入渗透至苹果产品的众多功能中。举例来说，Apple Watch的摔倒检测功能以及iPhone...

AIGC 2024-03-20 人工智能

775阅读

库克首次在中国谈生成式AI：重申将于今年晚些时候宣布

快科技3月20日消息，日前，苹果公司CEO蒂姆库克现身上海，预计将参加明天上海静安Apple Store开幕活动。据媒体报道，当被问及关于iPhone在人工智能（AI）方面的进展时，库克表示，AI技术已广泛应用于苹果产品的各个领域。他以Apple Wa...

生成式AI 2024-03-20 人工智能

803阅读

【AI绘画】2024最新Stable Diffusion 超详细讲解！！必收藏！！！！

手把手教你入门绘图超强的AI绘画，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新保姆级教程资料包（文末可获取） Stable Diffusion 超详细讲解这篇文章是《Stable Diffusion原理详解》的后续，在...

人工智能 2024-03-20 人工智能

1358阅读

探索编程新纪元：Code GeeX、Copilot与通义灵码的智能辅助之旅

在人工智能技术日新月异的今天，编程领域的革新也正以前所未有的速度推进。新一代的编程辅助工具，如Code GeeX、Copilot和通义灵码，正在重塑开发者的工作流程，提升编程效率，并推动编程教育的普及。本文将深入探讨这三款工具的特点、优势与局限，为开发者提...

人工智能 2024-03-18 人工智能

1236阅读

Stable Diffusion 3 技术论文解读：开源能赢得文生图竞赛吗？

在大语言模型领域，闭源模型正在赢得比赛，无论是 OpenAI 还是刚刚发布新模型的 Anthropic，都是闭源模型的代表。但在文生图领域，开源模型却表现出了足够强的竞争力。 2 周前，开源模型的代表企业 Stability AI 发布了最新...

AIGC 2024-03-15 人工智能

864阅读

科幻片成真！Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了！

Figure最新展示了他们与OpenAI合作的成果，这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求，并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作，表明这一合作取得了显著进...

大数据 2024-03-14 人工智能

789阅读

Stable Diffusion中的Clip模型

基础介绍 Stable Diffusion 是一个文本到图像的生成模型，它能够根据用户输入的文本提示（prompt）生成相应的图像。在这个模型中，CLIP（Contrastive Language-Image Pre-training）模型扮演了一个关键...

人工智能 2024-03-12 人工智能

1420阅读