-
OpenAI开发者大会推出四大创新:提示词缓存可减少50%输入token成本
10月2日消息,美东时间10月1日OpenAI举行了年度开发者大会DevDay,推出系列新工具,包括四大创新:实时API(Realtime API)、视觉微调(Vision Fine-Tuning)、提示词缓存(Prompt Caching)、模型蒸馏(M...
-
MidJourney 产品拆解调研报告
目录 1.产品概述 2. 目标用户与市场定位 3. 产品核心功能拆解 功能列表 功能使用流程 交互体验 4.用户体验评估 1. 用户视角 2. 情感设计 3. 使用场景 5.数据和技术分析 1. 技术架构 2. 性能评估 3....
-
Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记
·Part1 ComfyUI 1.ComfyUI简介: GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GUI的一...
-
Datawhale X 魔搭 AI夏令营第四期 AIGC方向 task03笔记
模型微调 模型微调 文生图的工作流平台工具ComfyUI 什么是ComfyUI ComfyUI核心模块 魔搭安装ComfyUI LoRA微调 Lora详解 UNet、VAE和文本编码器的协作关系 如何准备一个高质量的数据集 明确需求...
-
【扩散模型(六)】Stable Diffusion 3 diffusers 源码详解1-推理代码-文本处理部分
系列文章目录 【扩散模型(一)】中介绍了 Stable Diffusion 可以被理解为重建分支(reconstruction branch)和条件分支(condition branch) 【扩散模型(二)】IP-Adapter 从条件分支的视角,快...
-
【Midjourney】Midjourney全面开放网站版,所有用户每天可免费生成25次
Midjourney一直作为AI文生图领域的龙头老大,最近对面对市场上日益增长的竞争压力,尤其是来自 Flux 的挑战,终于向所有用户开放官方网站。尽管还处于早期阶段,但为了吸引更多用户体验,它暂时是完全免费的。 下面是Midjourney 官方发布了一...
-
Meta AI新动向:Llama 4瞄准GPT-4,Agent技术或成研发重点
Meta的AI研发进展 Meta的AI科学家Thomas Scialom在最近的采访中透露了Llama系列大型语言模型的最新动态。Scialom谈到了Llama 3.1的研发思路,并展望了即将到来的Llama 4模型。他表示,Llama 3.1是在追求与...
-
GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉
【新智元导读】五颗草莓到底指什么?盼了一天一夜,OpenAI只发来一份32页安全报告。报告揭露:在少数情况下,GPT-4o会模仿你的声音说话,或者忽然大叫起来……事情变得有趣了。 昨天奥特曼率众人搞了一波「草莓暗示」的大阵仗,全网都在翘首以盼OpenAI的...
-
ChatGPT首次被植入人类大脑:帮助残障人士开启对话
快科技8月6日消息,据媒体报道,马斯克在脑机接口中最强大的竞争对手Synchron有了新的技术进展,他们首次将ChatGPT整合到其脑机系统中,以使瘫痪患者更容易控制他们的数字设备。 Synchron凭借其独特的脑机接口(BCI)技术脱颖而出,该技术巧妙地...
-
微信小程序调用文心一言数据模型
微信小程序调用文心一言数据模型 目录 微信小程序调用文心一言数据模型 1.百度千帆大模型平台介绍 2.调用模型程序实现 1.百度千帆大模型平台介绍 调用: 首先要与数据模型API的地址建立连接,利用微信自带api-wx.reques...
-
每日AIGC最新进展(30):阿卜杜拉国王大学提出旋转视角视频生成Vivid-ZOO、浙江大学提出4D场景编辑Instruct 4D-to-4D、西安交大提出3D重建大规模数据集OpenMateria
Diffusion Models专栏文章汇总:入门与实战 Vivid-ZOO: Multi-View Video Generation with Diffusion Model 本文提出了一种名为Vivid-ZOO的新型扩散模型,用于从文本...
-
【AIGC-图片生成视频系列-7】MoonShot:实现多模态条件下的可控视频生成和编辑
目录 一. 贡献概述 二. 方法详解编辑 三. Zero-Shot主题定制视频生成 四. 文本到视频生成 五. 直接使用图像ControlNet 六. 图像动画比较 七. 视频编辑 八. 针对视频生成中多模态 Cross-Attn的消融实...
-
Niantic利用Meta Llama让数字生物栩栩如生
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同...
-
10款AI变现案例:利用stable diffusion 赚钱的10种方式
stable diffusion 是一种基于文本生成图像的深度学习模型,它可以根据任何文本输入生成逼真的图像。它利用了 CLIP ViT-L/14 文本编码器的文本嵌入和扩散模型的潜在变量,实现了高质量的图像合成。 stable diffusion 可以...
-
Stable diffusion批量自动化出图
目录 问题背景 问题场景分析 批量文生图 批量图生图 Comfyui自动化 问题背景 现在有一批提示词,想通过文生图,针对每个提示词生成多张效果图,然后对效果图经过图生图、ControlNet的...
-
微信输入法上线“问AI”AI 问答功能
微信输入法近日发布了Windows和macOS双平台的1.2.0正式版更新,此次更新带来了全新的AI问答功能,为用户带来了更为智能和便捷的输入体验。现在,用户只需在输入内容后轻按“=”键,即可直接获取AI的智能回答。 在最新版本的微信输入法中,AI问答功...
-
【学习笔记】文生图模型——Stable diffusion3.0
2.0原理才看到VAE,sd3.0就发布了,虽然还没看到源码和详解,但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型(stable diffusion≈LDMs+CLIP) 2.stable diffusion3.0模型架构图...
-
meta-llama/Meta-Llama-3-8B
https://huggingface.co/meta-llama/Meta-Llama-3-8B 型号细节 Meta开发并发布了Meta Llama 3家族大型语言模型(LLM ,这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。L...
-
MetaAI发布Llama 3模型:4000亿参数的AI新标杆
开源和闭源大战 前几天,百度李彦宏说闭源才有意义。 周鸿祎在哈佛论坛演讲上说,别听李彦宏胡说八道,没有开源就没有Linux,就没有今天的互联网,李彦宏自己都是借助开源的力量走到今天,现在反手说开源不好了?话音刚落,Meta这个奶妈就又开源了,我们又回...
-
苹果解释 iOS 18 中的 AI 文本生成表情符号 Genmoji 工作原理
iOS 18 中的一项 Apple Intelligence 功能是 Genmoji,它允许 iPhone 用户通过 AI 根据文本输入生成全新的表情符号角色。根据 iOS 18 在 WWDC 会议上的介绍,Genmoji 看起来类似于传统的表情符号,但它...
-
从注册到订阅,Midjourney使用指南,你想知道的都有
Midjourney简介 Midjourney官网:https://www.midjourney.com/home 是一个独立的研究实验室,专注于探索新的思维方式和扩展人类的想象力。它由一个小型的自筹资金团队组成,该团队专注于设计、人类基础设施和人...
-
人工智能 | 360自研可控布局AI绘画模型HiCo发布
龙年春意伊始,360人工智能研究院正式发布新的AI绘画模型:可控布局生成模型HiCo。与大家所熟悉的文生图模型相比,HiCo在普通的文本输入之上,提供了更为强大的画面布局控制能力:用户可以根据自己的构思,指定在画面不同的区域生成不同的指定内容,实现A...
-
快手、字节“妙鸭化”,AI图像应用还能再度出圈吗?
在文生图领域,快手也开大了。 据“头号AI玩家”了解,自研文生图大模型“可图”(Kolors)已于近日面向公众开放,用户可通过“可图大模型”微信小程序和网页版使用。 体验链接:https://kolors.kuaishou.com/ 小程序搜索:可图大模...
-
研究发现:OpenAI 的 GPT-4 在金融分析领域具有 “相对优势”:
根据芝加哥大学布斯商学院的一项研究,OpenAI 的 GPT-4在金融分析和预测方面超越了人类分析师,即使没有行业特定信息。这项研究上周公布,发现 GPT-4这一大型语言模型在分析财务报表和预测未来收益方面表现出色。研究称:“即使没有任何叙述或行业特定信息...
-
AI绘画:利用ComfyUI进行文生图操作的完整指南
前言 ComfyUI作为一款基于Stable Diffusion的节点式操作界面,为用户提供了一个更加灵活和高效的文生图(文本生成图像)创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作,无论你是初学者还是有一定基础的用户,都能够通过本指南...
-
探索Llama 3模型在地理行业的应用
Llama 3模型简介 Llama 3模型是基于最新的神经网络架构设计而成,它融合了Transformer和图像注意力机制,能够同时处理自然语言和图像输入,实现跨模态信息的融合和理解。这使得Llama 3模型在地理信息处理和分析方面有着独特的优势...
-
通义千问GPT-4级主力模型Qwen-Long API输入费用暴跌97%
今日阿里云宣布将其GPT-4级主力模型Qwen-Long的API输入价格从每千tokens0.02元降至每千tokens0.0005元,直降了惊人的97%。 这一举动意味着,现在用户只需花费1块钱就可以购买200万tokens,相当于5本《新华字典》的文字...
-
击穿全球底价!阿里云通义千问GPT-4级主力模型降价97%:约为GPT-4价格的1/400
快科技5月21日消息,今日阿里云宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。 这意味着,1块钱可以买200万tokens,相当于5本《新华字典》的文字量。...
-
OpenAI“杀疯了”,GPT–4o模型保姆级使用教程!一遍就会!
5月14日凌晨1点,OpenAI发布了名为GPT-4o 最新的大语言模型,再次引领了人工智能领域的又一创新浪潮,让整个行业都为之震动。 据OpenAI首席技术官穆里-穆拉提(Muri Murati)表示,GPT-4o是在继承GPT-4智能的基础上,对文本...
-
OpenAI CEO下场回应「封口协议」,争议还是到了股权利益上,奥特曼:我的锅
自从 Ilya 和 超级对齐负责人 Jan 离职后,OpenAI 内部还是心散了,后续也有越来越多的人离职,同时也引发了更多的矛盾。 昨天,争议的焦点来到了一份严格的「封口协议」。 OpenAI 前员工 Kelsey Piper 爆料,任何员工的入职文...
-
谷歌发布 Music AI Sandbox:根据提示制作循环
作为今年 Google I/O2024大会的亮点之一,谷歌正式推出了名为 Music AI Sandbox 的音乐制作工具。这一工具被称为是音乐创作的新风向标,能够通过 AI 提示来创作音乐循环,让音乐创作变得更加轻松和有趣。 据报道,Music AI S...
-
音乐人值得尝试的十大文本转音乐AI平台
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 从生成旋律到创作整首曲子,这些文本转音乐AI平台让我们得以一窥音乐创作的未来。 新时代的应用程序如雨后春笋般涌现,音乐领域的Sora时...
-
虚拟人聊天系统Live2D 利用ChatGPT+对口型打造你自己的AI女友
这是一个基于 Unity 开发的 Live2D 虚拟人聊天系统项目。通过 Live2D 技术,项目展现了一个动态的虚拟人形象,让二维图像在屏幕上以近乎三维的形式呈现,提供流畅的动画效果,增强用户交互体验。 虚拟人可以与用户进行实时的文本交流,利用 API...
-
中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR
中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究,成功地让大型人工智能模型通过讲笑话的方式,探索多模态大模型的创造力,并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。 这项研究的关键在于使用来自日本的“大喜利”(Oo...
-
文生图——stable diffusion生成有趣的动漫图像
Stable Diffusion是一个文本转图像的模型,由CompVis、Stability AI和LAION共同开发。它能够从一段简单的文本输入中快速生成相应的图像。此外,它还可以导入图像并配合文本对其进行处理。从技术角度来看,Stable Diffus...
-
AI绘图:Stable Diffusion ComfyUI局部重绘与智能扩图全面教程
前言 在数字艺术创作中,局部重绘和智能扩图是两个非常重要的功能。局部重绘允许我们在保留原有图像的基础上,对特定区域进行修改或创新。而智能扩图则能够帮助我们在图像的边缘添加新的元素,从而扩展图像的内容。本文将详细介绍如何在Stable Diffusion...
-
苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4,可大幅提升 Siri 智能程度
IT之家 4 月 2 日消息,虽然目前 Siri 可以尝试描述信息中的图像,但效果并不稳定。不过,苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中,苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型,而且他们认为这个名为 ReA...
-
上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升
CLIP长文本能力被解锁,图像检索任务表现显著提升! 一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。 △棕色文本为区分两张图的关键细节 Long-CLIP在保持CLIP原始特征空间的基础上,在图像生成等下游任务中即插...
-
OpenAI推出声音克隆新技术:复刻你的声音仅需15秒
快科技3月31日消息,据媒体报道,OpenAI公司最近推出了一项革命性的声音克隆技术Voice Engine”。 据悉,Voice Engine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。 这一技术的研发始于...
-
AI绘画Imagen大力出奇迹生成图像
AI绘画Imagen大力出奇迹生成图像 介绍 Imagen是一个文本到图像的扩散模型,由Google大脑团队研究所开发。 Imagen通过创新的设计,摈弃了需要预训练视觉-语言模型的繁琐步骤,直接采用了T5等大规模语言模型作为文...
-
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...
-
微软新工具LLMLingua-2:可将 AI 提示压缩高达80%,节省时间和成本
微软研究发布了名为 LLMLingua-2的模型,用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记,同时保留关键信息,使得提示长度可减少至原长度的20%,从而降低成本和延迟。研究团队写道:“自然语言存在冗余,信息量不尽相同。” LL...
-
迎接国内AIGC时代!Kimi连续5次扩容:10分钟接近任何领域专家水平
快科技3月22日消息,月之暗面的Kimi火了,昨天下午,大模型应用Kimi的APP和小程序均显示无法正常使用。 随后其母公司月之暗面发布说明,称自20日以来Kimi流量增加的趋势远超预期规划,公司已经进行了5次扩容工作,推理资源会持续配合流量进行扩容,以承...
-
库克在中国首谈苹果生成式AI 今年晚些时候推出
今日,苹果公司CEO蒂姆・库克亲临上海,就一系列话题与媒体进行了交流。 其中,针对提问:“iPhone在人工智能领域取得了哪些进展?”库克详尽地回应称,AI技术已深入渗透至苹果产品的众多功能中。举例来说,Apple Watch的摔倒检测功能以及iPhone...
-
库克首次在中国谈生成式AI:重申将于今年晚些时候宣布
快科技3月20日消息,日前,苹果公司CEO蒂姆库克现身上海,预计将参加明天上海静安Apple Store开幕活动。 据媒体报道,当被问及关于iPhone在人工智能(AI)方面的进展时,库克表示,AI技术已广泛应用于苹果产品的各个领域。 他以Apple Wa...
-
【AI绘画】2024最新Stable Diffusion 超详细讲解!!必收藏!!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) Stable Diffusion 超详细讲解 这篇文章是 《Stable Diffusion原理详解》的后续,在...
-
探索编程新纪元:Code GeeX、Copilot与通义灵码的智能辅助之旅
在人工智能技术日新月异的今天,编程领域的革新也正以前所未有的速度推进。新一代的编程辅助工具,如Code GeeX、Copilot和通义灵码,正在重塑开发者的工作流程,提升编程效率,并推动编程教育的普及。本文将深入探讨这三款工具的特点、优势与局限,为开发者提...
-
Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?
在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI 还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。 但在文生图领域,开源模型却表现出了足够强的竞争力。 2 周前,开源模型的代表企业 Stability AI 发布了最新...
-
科幻片成真!Figure与OpenAI合作新进展 Figure 01接入ChatGPT后成“精”了!
Figure最新展示了他们与OpenAI合作的成果,这一合作让他们的机器人获得了惊人的能力。机器人可以进行语音对话、描述周围环境、做出决策推理、执行高层次请求,并口头解释推理过程。这些功能使得机器人能够执行类似人类的快速、灵巧动作,表明这一合作取得了显著进...
-
Stable Diffusion中的Clip模型
基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键...