*今日头图使用Midjourney V6生成，描述:whimsical diorama collage， surrealism， a boy sitting in front of a computer at night looking at beautiful starry sky out of the window，--ar16:9

2023年，是AI行业的一个分水岭。

这一年，我们见证了AI技术的跃进式发展。

从深度学习到自然语言处理，从图像生成到视频生成，从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星，不仅重塑了人们的生活方式，也重新定义了未来的商业图景。

正如约翰·卡尔金所说:“我们塑造我们的工具，然后我们的工具塑造我们。”

“头号AI玩家”通过梳理和盘点过去一年AI领域颇受关注的热门工具，希望能帮助各位更好地回顾AI技术的突破与最新进展，预见它们将如何继续影响我们的世界。

我们参考估值、影响力、用户评价等维度，选取了几大常见领域一些具有代表性的AI产品，梳理了其迭代历程、最新性能等，每个类别都有其独特的技术特点和应用场景。

AI聊天机器人

AI聊天机器人是AI领域最热门、最具代表性的发展趋势之一，代表了人们获取信息、做出决策和沟通的变革。

目前，市面上的人工智能聊天机器人有多种形式，包括独立的移动应用程序、集成在社交网络或搜索引擎中的消息应用程序等。

ChatGPT

地表最强AI聊天机器人，由OpenAI研发，于2022年11月30日发布。

ChatGPT的出现不仅推动了自然语言处理技术的发展，还推动了AI技术的普及化，提高了AI的社会认知度和影响力。

用户可以通过订阅ChatGPT Plus访问GPT-4（OpenAI最先进的语言模型），获得更快的响应速度、更多的功能、更稳定的服务和更灵活的使用方式，订阅费用为每月20美元。

2023年11月6日，OpenAI召开了首届开发者大会（OpenAI DevDay），宣布了GPT的一系列更新，包括推出GPT-4Turbo(GPT-4的超级版本)和多模式API等。

值得一提的是，OpenAI将在本周正式推出GPT商店，用户可以在其中创建自定义GPT并从中获利。

Claude

美国AI创企Anthropic（由OpenAI前成员创立）旗下的AI聊天机器人，2023年3月15日正式发布。

2023年7月，Anthropic发布Claude2。升级后的Claude2在编码、数学和推理方面的性能都有所提高，处理能力提升至100K个token，可以处理数百页的技术文档，甚至整本书。

2023年11月22日，Anthropic发布Claude2.1版本。上下文窗口达到200000个token，相当于Claude此前处理能力的两倍，大幅高出GPT-4企业版3.2万个token的上限。

Anthropic还称，Claude2.1出现“幻觉”或谎言的频率是以前的一半。

截至目前，Anthropic的估值接近50亿美元，总融资额近15亿美元。

Bard

2023年2月6日，Google推出由LaMDA大模型驱动的AI聊天机器人Bard。

2023年4月10日，Bard改用更强大的PaLM大型语言模型，运算能力得到增强。

2023年5月10日，PaLM被进一步更新为PaLM2，多语言翻译和逻辑推理能力得到增强。

Bing Chat

2023年2月7日，微软正式将GPT-4集成进新版必应（New Bing）和Microsoft Edge浏览器中，集成后的聊天机器人称为Bing Chat。

2023年3月4日，微软为Bing Chat引入“精确”、“平衡”和“创意”模式，用户可在这三种模式之间进行切换，以体验不同的聊天语气。

2023年3月22日，Bing Chat集成Bing Image Creator功能。该功能基于OpenAI的DALL-E，可以基于用户输入的文本内容自动生成图像。

由于免费易用，Bing Chat被认为是ChatGPT Plus每月20美元订阅的替代品。

Character.ai

2021年由前谷歌LaMDA团队成员Noam Shazeer和Daniel De Freitas共同创立，2022年9月推出测试版。

Character.ai构建了一个AI角色扮演社区，用户可以和动漫人物、明星大佬，以及自定义的各种角色交流对话。

2023年5月23日，Character.ai移动端正式登陆全球iOS和Android系统。Character.ai官方公布的数据显示，自2023年5月发布以来，其安卓应用市场下载量已经超过300万次。

2023年9月，Character.ai的估值就被披露超50亿美元。

Pi是美国AI创企Inflection AI于2023年5月推出的AI聊天机器人。不同于ChatGPT等产品的生产力工具定位，Pi主打陪伴和情感智能。

Inflection AI成立于2022年，由前DeepMind高管Mustafa Suleyman创建，先后拿到微软、英伟达等公司的投资，目前估值已达40亿美元。

Perplexity.ai

Perplexity.ai是一个免费的人工智能聊天机器人，支持联网搜索，点击文本框下方的“现在流行”，即可查看最流行的提示和新闻。

Perplexity.ai是一个由AI驱动的搜索引擎，与传统搜索引擎不同，Perplexity.ai有着类似聊天机器人的界面，允许用户用自然语言提问，并在回答搜索查询时直接提供答案，而非网站链接，Perplexity公司将这项产品称为“答案引擎”。

2024年1月4日，Perplexity完成了7360万美元的B轮融资，估值5.2亿美元，由Institutional Venture Partners领投，这也是近年来互联网搜索初创公司筹集的最大一笔资金。

在此轮融资前，Perplexity.ai的月活用户已增至1000万。

Grok

Grok是马斯克旗下xAI推出的首个AI大模型产品，2023年11月上线，背后的大模型也与之同名，目前的版本是Grok-1，它的原型Grok-0在xAI宣布成立后即开始训练。

相较于ChatGPT等大模型有具体的知识库截止时间，Grok可以实时地从?平台获取最新信息，为用户提供更及时的新闻检索和观点获取服务。

此外，不同于常见AI助手一板一眼的回答，Grok的回答具有幽默和反叛的风格。

Gemini

2023年12月6日凌晨，谷歌发布了多模态大模型Gemini。

Gemini共有三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备（手机、PC）的Gemini Nano。

目前，Bard已集成Gemini Pro的微调版本。未来，Gemini将逐步整合进Google Search、广告、Chrome浏览器和Duet AI等多项产品和服务中，以提升Google生态系统的智能化水平，为用户提供更精确、个性化的体验。

Janitor AI

Janitor AI是一款角色扮演AI聊天机器人平台，核心功能在于允许用户创建虚构聊天机器人角色，并与这些角色进行自然语言交互。

用户可以选择不同的角色模板，包括性格、语言风格、兴趣爱好等方面的设定，为他们的聊天机器人角色注入多样的个性。此外，Janitor AI提供了丰富的API和SDK，方便开发者将其融入到自己的应用程序中。

文心一言

2023年3月16日，百度大语言模型产品“文心一言”正式发布，这是继OpenAI发布ChatGPT后，中国第一款生成式语言大模型产品。

文心一言具备五大能力:文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

2023年10月，文心大模型4.0上线，并带来全线重构的新搜索等十余款AI原生应用。截至12月底，文心一言用户规模已突破1亿。

讯飞星火

2023年5月6日，科大讯飞正式发布“讯飞星火认知大模型”，在文本生成、知识问答、数学能力三大能力上超过ChatGPT。

2023年6月，讯飞星火认知大模型通过中国信通院组织的国内首个官方可信AIGC大模型基础能力（功能）评测，并且获得认证通过全部功能项。

2023年10月，讯飞星火认知大模型V3.0版本发布，七大能力持续提升，整体超越ChatGPT，医疗六大核心能力超越GPT-4。

通义千问

阿里推出的对话式AI大模型，2023年4月7日开始内测。

2023年9月，通义千问成为国内首批通过备案的大模型，通义千问APP上线后功能持续升级，目前可提供文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等几十项功能。

同时，阿里云陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio。12月初，720亿参数的大语言模型通义千问Qwen-72B正式开源，被称为“业界最强的中文开源模型”。

豆包

豆包是字节跳动基于云雀大模型开发的AI对话产品，8月17日正式开始对外测试。

豆包提供聊天机器人、写作助手以及英语学习助手等功能，可以回答各种问题并进行对话，支持网页Web，iOS以及安卓平台，但iOS需要使用TestFlight安装。

Kimi Chat

Kimi Chat是由北京月之暗面科技有限公司（Moonshot AI）开发的一款大模型产品，于2023年10月9日正式上线。

Kimi Chat的独特优势在于具有超长上下文支持能力，支持输入20万汉字的文本内容。还能够处理多种文件格式，如TXT、PDF、Word 文档、PPT 幻灯片、Excel电子表格等，且具备浏览网址的能力，可以阅读相关内容后回复用户。

AI图像生成工具

2023年，是AI文生图领域高歌猛进的一年。但目前来看，AI生成的图像仍存在一些局限有待进一步突破，例如在细节、精度方面不足，多数情况下仍存在画面瑕疵、缺陷，光影、色调的调整更依赖后期人工处理等等。

Midjourney

Midjourney作为文生图领域的开拓者和领导者，其生成的图片质量一直是行业标杆。

2022年，一张用Midjourney生成的图像在科罗拉多州博览会数字艺术竞赛中获得第一名，引发了大众对于AI绘画和Midjourney的关注。

目前，Midjourney已更新至V6版本，生成的图像质量逐步提高，功能也越来越多元、完善。

最初，Midjourney搭载在Discord上，用户只能通过向其官方Discord服务器上的Discord机器人发送消息来访问。

2023年12月13日，Midjourney上线了网页版，但使用门槛是用Midjourney生成了超一万张图（可以在Discord里输入“/info”，查看生成的图片数量）。相较于Discord，网页版Midjourney操作更简便，但功能少很多。

Stable Diffusion

Stable Diffusion是一款基于扩散模型的AI绘画工具，由Stability AI公司研发，能够完成文生图和图生图等任务，于2022年8月22日发布。

Stable Diffusion是一个完全开源的项目，包括模型代码、训练数据、论文等，这使得其快速构建了强大繁荣的上下游生态，比如AI绘画社区Civitai、基于SD的自训练模型，以及丰富的辅助AI绘画工具与插件等。

2023年6月，Stable Diffusion发布了SDXL0.9版本的更新，升级了Stable Diffusion文生图模型。

2023年11月29日，Stability AI发布了新一代文生图模型SDXL Turbo，将生成图像所需的步骤数从50步减少到1步，并且大幅提升了推理速度，可以做到实时生成图像。在A100上，SDXL Turbo可以在207毫秒内生成一幅512x512的图像。

不过，Stable Diffusion的安装和使用对硬件有较高要求。

DALL·E3

DALL·E3是OpenAI于2023年9月21日发布的图像生成模型，于2023年10月初向ChatGPT Plus和Enterprise客户提供。

DALL·E3的最大特点是与ChatGPT的集成，它原生构建在ChatGPT之上，通过ChatGPT来创建、拓展和优化prompt。当用户输入一个想法时，ChatGPT会自动为DALL·E3生成量身定制的、详细的prompt，同时用户也可以使用自己的prompt。

这种集成使得DALL·E3具备更强的理解能力，能够更好地理解和处理抽象冗长的提示，使用户更轻松地将自己的想法转化为准确的图像。

Adobe Firefly

Adobe Firefly，也被称为“萤火虫”，是一款由Adobe开发的Web应用程序，它的发布标志着Adobe在人工智能和AI绘图领域的一次重要突破。

主要AI功能包括文本生成图像和生成式填充，用户可以通过简单的文本提示进行描述，移除图像的一部分、向图像添加其他内容，或替换为所生成的内容。

此外，Adobe Firefly还支持在Creative Cloud应用程序中使用简单的文本提示，拓展了应用程序工作流程和生成式AI结合的可能性。

Leonardo AI

Leonardo是一个AI绘画社区，同时也是一个AI绘画工具。

Leonardo深度集成了Stable Diffusion的各种插件，比如ControlNET的openpose姿势参考、局部重绘、prompt提示等等，甚至还提供了傻瓜式在线训练模型的功能，这使Leonardo更像是Stable Diffusion模型分享社区Civitai（civitai.com）和Stable Diffusion的集合体。

AI视频生成工具

随着文生图技术的精进与成熟，文生视频赛道也逐渐变得热闹起来，以Runway为代表的文生视频公司不断涌现。国内外互联网行业的巨头，如谷歌、Meta、微软、阿里、字节同样投入人员和精力参与其中。

Runway Gen-2

Runway是一家成立于2018年的美国AI创企。2023年2月，Runway发布了文本生成视频模型Gen-1和Gen-2，通过Web界面访问Runway官网即可使用。

2023年11月2日，Runway Gen-2迎来了一次里程碑式的更新。以往AI生成视频饱受诟病的画面闪烁、不连贯、扭曲变形等问题，在这次更新后得到很大改善。

现在无论是用Gen-2文生视频还是图生视频，视频的保真度和一致性都有了重大提升，分辨率提升至4K水平。

截至目前，Runway已经发布了大约30余个AI创作工具，包含音频、图片、视频、3D和生成五个大类，涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。

2023年7月，Runway在谷歌领投的D轮融资中募集到约1亿美元，估值现已达到15亿美元。

Pika Labs

Pika Labs被称为Runway Gen-2的最强竞品，它的出现拓展了投资圈对AI视频创业领域的想象空间。

2023年11月29日，Pika Labs发布了第一个产品Pika1.0，并迅速因惊艳的视频生成效果而火出圈。12月26日，Pika1.0开启免费公测。

Pika Labs的创始人是两位华人，郭文景（CEO）和孟晨琳(CTO)，均为来自斯坦福AI实验室的博士生。

11月29日，Pika labs宣布完成5500万美元A轮融资，目前估值已近2亿美元。

Stable Video Diffusion

11月21日，Stability AI上线视频生成模型“Stable Video Diffusion”。该模型基于Stable Diffusion现有的文本转图像模型，能够通过对现有图像进行动画化生成视频。

Stable Video Diffusion提供两个模型，分别为SVD和SVD-XT。其中，SVD将静止图像转换为14帧的576x1024视频，而SVD-XT在相同的架构下将帧数提升至24帧。这两者都能以每秒3到30帧的速度生成视频。

目前，Stable Video Diffusion已经开放了用户候补名单注册。

Morph Studio

文生视频领域的“黑马”。Morph Studio是世界第一个推出公众可随意测试text-to-video产品的团队，比Runway开放Gen2公测的时间还早。

和一些仅提供720P免费服务的同类产品不同，Morph Studio从一开始就提供默认1080P以及最长7秒生成时间的免费服务，注册Discord即可免费体验。

Animate Anyone

Animate Anyone是一款可以把静态图像变成动画视频的软件，由阿里巴巴智能计算研究院开发。它可以应用于人类、动漫、卡通等不同类型的角色，只需要提供一张角色图像和一些预设的动作序列，就可以生成逼真的动画视频。

与Animate Anyone类似的工具还有Magic Animate，这是新加坡国立大学和字节跳动联合推出的一款“人体图像动画生成工具”，它同样能够根据用户指定的人物图片和动作序列，生成对应的动效视频。

AI音频工具

感受过Midjourney、SD等AI绘画工具带来的视觉震撼后，AI生成音频领域也正在掀起一场革命。

从震撼华语乐坛的AI歌手“孙燕姿”到霉霉说普通话的视频走红，AI音频生成产品在音乐创作、语音合成和音效设计等方面取得了显著的突破。

ElevenLabs

ElevenLabs是一个Text to Speech软件，可以通过将输入的文本转化成情感和语调都十分逼真的语音。

其背后的ElevenLabs是一家软件公司，专门利用人工智能和深度学习开发自然语音合成和文本转语音软件。

2023年6月，ElevenLabs筹集了1900万美元的A轮融资，估值约为1亿美元。

2023年10月，ElevenLabs推出“AI Dubbing”，这是一种能够将语音翻译成20多种语言，并且保留说话者原始语音、情感和语调的AI工具。

Suno AI

Suno AI是一个音乐生成模型，可以通过简短的文本提示生成音频，包括语音、音乐和音效。

其中，Suno AI的语音生成模型BaRK，可以根据用户需求生成各种语音，适用于广告、动画和游戏行业。

Suno AI的音乐生成模型Chirp可以生成包括乐器、歌词和人声演唱等在内的约30秒音乐片段，涵盖流行、古典、电子等多种音乐风格。

Suno AI的音效生成模型可以生成各种类型的音效，为音视频项目增添表现力、氛围感和情感。

Mubert

Mubert是一个AI音乐生成平台，用户可以在Mubert实时生成特定长度、风格流派和情绪的音乐，并支持自定义。主要面向音乐制作人、创作者和品牌，使他们在人工智能的帮助下创作免版税音乐。

Google MusicLM

Google MusicLM是谷歌开发的一个文本到音乐的生成模型，是“AI Test Kitchen”计划的一部分。

MusicLM可以从类似于自然语言提示的简单文本描述中创作高保真的音乐。它以24kHz的高采样率生成音乐，意味着生成的音频质量很高。此外，MusicLM的音乐生成速度非常快，几乎是即时的。

AI数字人生成工具

伴随着人工智能技术的突破性进展，AI数字人以其逼真的外貌、智能的对话能力和个性化的服务，成为2023年一大热门领域。

不过，在技术层面，AI数字人产品未来还需要进一步突破在图像合成、语音合成和情感模拟等方面的技术壁垒，提高数字人的真实感和交互能力。在商业层面，随着竞争的加剧，产品差异化和用户体验或将成为决定市场竞争力的关键因素。

此外，还需要加强对数据收集、存储和使用的监管，以保护用户的隐私权益，并确保数字人技术的合法、公正和透明的使用。

Synthesia

Synthesia是一个AI视频创作平台，主要面向大型企业客户等B端客户，可以生成虚拟人视频等。

Synthesia CEO曾在博客中透露，全球财富100强中有35%的公司正在使用Synthesia进行培训和营销，并且有超过5万个团队使用这一工具大规模制作视频，节省了80%的预算。

其背后的公司Synthesia是一家成立于2017年的英国AI创企，2023年6月，该公司获得约9000万美元融资，估值达到10亿美元。

HeyGen

2023年10月底，美国知名女歌手Taylor Swift说普通话的视频片段在网络疯传，其背后使用的工具HeyGen一时间也受到广泛关注。

HeyGen是一个数字人生成平台，于2022年7月29日上线。用178天的时间达成了100万美元的ARR（年度经常性收入）。

如果说Runway和Pika主要面向创意人员和消费者，HeyGen则专注于解决B端客户营销、培训和教学视频的需求。

2023年11月29日，HeyGen宣布获得由Sarah Guo领投的Conviction Partners的560万美元风险投资。这轮投资使得HeyGen的估值达到7500万美元。

D-ID

D-ID是一家提供人工智能仿真人视频产品服务和开发的公司。用户只需上传人像照片，输入要说的内容（台词），D-ID就能利用AI 语音机器人自动将用户输入的内容转化为视频。

D-ID的主要技术是人脸去识别化技术服务，可以创造一个虚拟化讲解员，在视频中代替真人出镜，介绍视频内容。

AI效率工具

由于有着庞大的用户基数，众多工作场景也与AIGC的各项能力相适配，办公是天然适合AI落地的场景之一。

随着越来越多的办公软件卷起了AI，现在只要我们用自然语言描述自己的需求，AI就可以直接满足。写会议纪要、文案、画图、开发应用、自动生成PPT和Excel表格等，统统不在话下。

QuillBot

QuillBot是一款基于NLP的文章汇总写作和增润色工具，可以通过语义分析，自动帮助用户改写文章、总结文章、扩展文章。

这类文章助手在过去一年发展迅猛，但QuillBot近期面临一定用户流失。有分析称，这主要与ChatGPT强大的零样本学习能力有关。后者可以通过简单提示实现无限主题的创作，显然更具吸引力。

但就实际效果而言，QuillBot等专业写作助手仍占优。它们可以提供更加丰富的语法、逻辑和风格指导，输出更流畅和更具逻辑性的文章。

Novel AI

Novel AI是一个针对内容创作者设计的AI工具，主要用于辅助写作，可以帮助作家和创作者产生新的创意，提供写作灵感，甚至自动完成或编辑故事。

Jasper AI

Jasper AI是一个流行的AI写作助手，旨在帮助用户更快、更高效地创建内容，主要面向广告专业人士、内容营销人员、企业家等用户群体。

Jasper AI还提供各种写作模板，包括博客文章、社交媒体帖子、营销邮件和网页内容等。

Copy AI

Copy AI是一个AI驱动的内容生成工具，可以自动生成创意文案、营销文本和其他类型的写作内容，特别适用于营销和广告领域。

此外，Copy.AI还提供一个内置的文档编辑器，用户可以在左侧输入指令或问题，在右侧编辑和优化输出结果。

Notion AI

Notion AI是集成在Notion产品中的AI功能。Notion是一个笔记和项目管理工具，其集成的AI功能包括文本生成、内容整理、数据分析等，旨在帮助用户管理笔记、组织项目、自动化常规任务等，提高工作效率。

回顾2023年，我们见证了人工智能领域的蓬勃发展和创新。

除了大模型及生成式AI独角兽企业饱受关注外，有着明星创始团队和广阔应用前景的新兴AI产品也很容易获得各路资本青睐。

随着AI技术的不断进步，数据的不断积累，以及算力的进一步提升，可以预见，未来几年，AI产品和应用会越来越丰富，AI技术将继续向更广泛的领域渗透，包括医疗、金融、制造业等等。AI将为这些领域带来更多的智能化解决方案，从而提高效率、降低成本，并推动产业的转型升级。

与此同时，如何确保AI系统的公平性、透明性和可解释性，如何平衡AI的发展与隐私保护之间的关系，以及如何避免AI技术被滥用或引发潜在的风险等等，也将成为重要议题。

一文盘点2023年度最热AI应用，打工人必备！建议收藏

AI聊天机器人