AIGC内容分享(五十五)：AIGC周刊

行业资讯

产品推荐

学习资料

拓展阅读

Midjourney生成

the camera focuses on the young woman, her red Hanfu a stark contrast against the dragon's vibrant orange. She grips a sword with both hands, the blade halfway drawn from its scabbard across her chest, poised as if caught in the moment of unsheathing. Her eyes are determined, reflecting a warrior’s spirit, while the dragon beneath her exudes a playful energy, its head turned slightly to follow her gaze.

行业资讯

Midjourney 进军视频创作领域

Midjourney 宣布，他们计划在未来几个月内推出“文本转视频”模式。

该公司将从 1 月开始训练其视频模型。最近，Stability AI 推出了 Stable Video Diffusion，而 Meta 则首次推出了 EMU。与此同时，Pika 和 Runway ML 也在继续蓬勃发展。这为 Midjourney 的新企业创造了一个令人兴奋的竞争舞台。

链接?：https://decrypt.co/211583/midjourney-leaps-into-ai-video-creation

OpenAI 的 GPT 商店即将推出

OpenAI 计划在下周推出之前预告过的 GPT 商店，该公司刚刚在给开发者的一封电子邮件中宣布了这一消息--允许用户轻松分享、发现定制的 GPT 作品并从中获利。

GPT 商店最初定于 11 月推出，但因 OpenAI 领导层混乱而推迟。

OpenAI暗示将采用基于社区使用率的收入共享模式，允许创作者从其定制的GPT中获利。

商店中的排行榜将显示最优秀的 GPT，OpenAI 还将在不同类别中评选 "最有用、最令人愉悦 "的作品。

聊天记录不会与 GPT 创建者共享，用户也可以选择保持 GPT 的私密性和内部性。

GPT 商店的可发现性和收入共享将为创建者打开一个全新的分发平台--为新一波的人工智能创建者创造条件（并鼓励其他人在 OpenAI 的平台上进行创建）。

泄露：谷歌推出高级 Bard 高级版

新发现的代码和屏幕截图表明，谷歌正在开发由其顶级 AI 模型 Gemini Ultra 提供支持的付费“Bard Advanced”选项，以及新的自定义功能。

高级版本将利用其尚未公开的 Gemini Ultra 模型，预计将采用多模式并在功能上与 GPT-4 相媲美。

与基本的免费 Bard 不同，高级版本似乎可以通过付费的 Google One 订阅获得——这家科技巨头提供 3 个月的免费试用期。

还发现了一个代号为“Motoko”的工具，据报道该工具将允许用户创建自定义机器人（类似于 GPT Store）。

发现的其他功能还包括用于增强反应的提示 "增强功能 "和用于展示用例的 "图库"。

Ultra 预计将成为谷歌的顶级机型，那么高端机型的推出能否最终将 Bard 推向顶级 LLM 的行列呢？由于 Gemini 之前围绕其演示和功能所展开的激烈争论，Ultra 必须不负众望，才能吸引用户放弃其他付费选择。

新型人工智能技术在保留身份的同时还原人脸

加州大学洛杉矶分校（UCLA）和Snap的研究人员刚刚推出了一种新的人工智能方法，称为双枢轴调整，该方法利用个人照片来定制图像恢复模型，从而更好地保留个人面部特征。

这种方法解决了扩散复原模型不能很好地保留独特身份的常见问题。

这包括在几张照片上微调文本到图像模型，以嵌入个人特征，然后调整单独的无个性化引导编码器，以保持图像的完整性。

测试结果表明，与现有的通用技术相比，该技术在匹配身份方面取得了很好的效果，同时还提高了一般图像的质量。

通过平衡身份保护和输出质量，这种新方法可以显著改善 Metaverse 头像等应用中低质量图像的面部修复。

链接?：https://arxiv.org/pdf/2312.17234.pdf?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=openai-s-gpt-store-plans-revealed

借助 Copilot 密钥，Windows 开启人工智能 PC 时代

微软刚刚宣布 Windows 键盘推出新的 Copilot 键，标志着 30 年来键盘的首次重大变革，该公司将 2024 年称为“AI PC”年。

新的 Windows 徽标式按键将激活 Windows 中的 Copilot 体验，从而无缝地与 Microsoft 的 AI 助手交互。

随着人工智能技术变得更加个性化和智能化，新钥匙旨在简化人工智能在日常任务中的使用。

该更新将从 2 月底开始出现在新的 Windows 11 设备上，包括即将推出的 Microsoft Surface 设备。

引人注目的 Copilot 键盘的添加标志着微软致力于让 AI 助手在其系列设备中无处不在且易于访问，这很可能只是其设备中人工智能增强功能浪潮的开端。

链接?：https://blogs.windows.com/windowsexperience/2024/01/04/introducing-a-new-copilot-key-to-kick-off-the-year-of-ai-powered-windows-pcs/

ByteDance DreamTuner：单图像主题生成

字节跳动的研究人员最近公布了DreamTuner，这是一种从单个图像生成主体驱动的新通用方法，可以创建令人震惊的一致主体身份。

DreamTuner 是一种基于微调和图像编码的主体驱动图像生成新框架。

该框架包括三个阶段：主体编码器预训练、主体驱动微调和主体驱动推理。

目前已经有从单张图像生成梦牙的方法，但这种新方法能更准确地复制主体身份。

生成一致的字符是目前人工智能图像生成领域最难的挑战之一，而这种新方法现在只需一张图像就能生成高度一致的字符，这是人工智能研究领域的一项了不起的成就。

链接?：https://dreamtuner-diffusion.github.io/?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=top-ai-researchers-earn-865k-year

如何在手机上安装 Microsoft Copilot

微软最近为 Copilot 推出了新的 Android、iOS 和 iPadOS 应用程序，让用户可以随时随地使用这款功能强大（免费）的人工智能工具。

可利用的功能：

DALL-E 3：要求 Copilot 创建图像，从而利用高级图像生成功能。

语音聊天：轻点应用程序内的麦克风即可使用 Copilot 的音频功能。

视觉：拍摄或上传照片以增强提示或提问功能。

iOS / iPad链接?：https://apps.apple.com/us/app/microsoft-copilot/id6472538445?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=google-to-replace-30-000-humans-with-ai

Android链接?：https://play.google.com/store/apps/details?id=com.microsoft.copilot&hl=en&gl=US&pli=1&utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=google-to-replace-30-000-humans-with-ai

产品推荐

OpenVoice：多功能实时语音克隆

My shell 的这个语音克隆技术上周爆了，只需要一小段说话内容就可以复制对应的声音并生成多种语言的声音。

除了复制参考说话者的音色之外，OpenVoice 还可以对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调。

OpenVoice 的计算效率也很高，其成本比性能较差的商用 API 低数十倍。

论文：https://arxiv.org/pdf/2312.01479.pdf

Github链接?：https://github.com/myshell-ai/OpenVoice

Captiwiz：Al给视频添加好玩的字幕

Captiwiz是一款工具，允许用户在几秒钟内生成引人注目的字幕，突出关键词，并为他们的视频添加音乐和动态表情符号。它旨在节省时间和金钱，同时提升视频创作。其关键功能之一是利用人工智能将音频转录成文本。它还提供时尚字体、动画和表情符号来增强视频效果。用户可以为他们的视频添加运动和情感以及声音效果来保持观众的参与度。此外，Captiwiz可以为包括Facebook、Instagram、YouTube、TikTok等各种社交媒体平台生成自动生成描述和标签。

链接?：https://captiwiz.com/

Scribe：将长视频变成文章

这个产品可以将Youtube视频变成长文，不是简单的语音转字幕，而是可以重新用文章的形式再次组织语言来重新排版，感觉对没时间看视频的人比较有用。

链接?：https://www.appblit.com/scribe

Artflow：设计和生成保证一致性的角色

Artflow是一个专门为了创建 Al 电影的工具，首先可以生成保证一致性的电影角色，然后利用这些角色生成在场景中的图片，最后生成角色说话的视频。

链接?：chrome-extension://nlipoenfbbikpbjkfpfillcgkoblgpmj/edit-react.html

免配置、免翻墙，Stable Diffusion平替来了：LeonardoAI

LeonardoAI是一个稳定的在线平台，不仅免费，还是一款可视化编辑工具，操作界面对用户非常友好，在实际图像质量方面也处于目前AI工具的前沿。集成了SD的各种插件，比如ControlNET的openpose姿势参考、局部重绘、prompt提示等等，甚至还提供了傻瓜式在线训练自己模型的功能。作为Civtai和Stable Diffusion的集合体，用起来超级科学！经过一年的优化，现在LeonardoAI已经非常优秀了。上个月刚刚增加了动画和实时画布两个新功能，真是非常的强大！

链接?：https://leonardo.ai/?ref=aihh.cn

MoonValley！零基础也能快速学会的AI视频生成神器

一款视频生成 AI 工具 Moonvalley，只需简短的提示词，即可产生 16：9 的电影质感片段。目前，Moonvalley 处于 Beta 阶段，完全免费，需要在 Discord 中使用。

视频版教程?：https://www.bilibili.com/video/BV1Va4y1Z7hf?share_source=copy_web

学习资料

Al辅助P形象设计！用 Stable Zero123 生成任意角色的三视图

今天为大家推荐一种用 AI 辅助生成任意角色三视图的方法，用到的是 Stability AI 新出的 Stable Zero123 模型，并结合 Midjourney、Stable Diffusion WebUI、Ps 等工具完成。工作流搭建完成后，用来生成一些简单 IP 形象的三视图非常方便。

链接?：https://www.uisdc.com/stable-zero123

拓展阅读

DiffPortrait3D：从照片创建3D头像

字节跳动的DiffPortrait3D提供了一种突破性的方法，可以从单个肖像中创建逼真、三维一致的视图，保持面部特征和表情。

其核心是，我们利用在大规模图像数据集上预先训练的2D 扩散模型的生成先验作为我们的渲染主干，而去噪则是通过对外观和相机姿势的解开的细心控制来引1导。为了实现这一点，我们首先将参考图像中的外观上下文注入到冻结 UNet 的自注意力层中。然后使用新颖的条件控制模块来操纵渲染视图，该模块通过从同一视图观看交叉主体的条件图像来解释相机姿势。

链接?：https://browse.arxiv.org/html/2312.13016v3