*今日头图使用Midjourney V6生成,描述:whimsical diorama collage, surrealism, a boy sitting in front of a computer at night looking at beautiful starry sky out of the window,--ar16:9
2023年,是AI行业的一个分水岭。
这一年,我们见证了AI技术的跃进式发展。
从深度学习到自然语言处理,从图像生成到视频生成,从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星,不仅重塑了人们的生活方式,也重新定义了未来的商业图景。
正如约翰·卡尔金所说:“我们塑造我们的工具,然后我们的工具塑造我们。”
“头号AI玩家”通过梳理和盘点过去一年AI领域颇受关注的热门工具,希望能帮助各位更好地回顾AI技术的突破与最新进展,预见它们将如何继续影响我们的世界。
我们参考估值、影响力、用户评价等维度,选取了几大常见领域一些具有代表性的AI产品,梳理了其迭代历程、最新性能等,每个类别都有其独特的技术特点和应用场景。
AI聊天机器人
AI聊天机器人是AI领域最热门、最具代表性的发展趋势之一,代表了人们获取信息、做出决策和沟通的变革。
目前,市面上的人工智能聊天机器人有多种形式,包括独立的移动应用程序、集成在社交网络或搜索引擎中的消息应用程序等。
ChatGPT
地表最强AI聊天机器人,由OpenAI研发,于2022年11月30日发布。
ChatGPT的出现不仅推动了自然语言处理技术的发展,还推动了AI技术的普及化,提高了AI的社会认知度和影响力。
用户可以通过订阅ChatGPT Plus访问GPT-4(OpenAI最先进的语言模型),获得更快的响应速度、更多的功能、更稳定的服务和更灵活的使用方式,订阅费用为每月20美元。
2023年11月6日,OpenAI召开了首届开发者大会(OpenAI DevDay),宣布了GPT的一系列更新,包括推出GPT-4Turbo(GPT-4的超级版本)和多模式API等。
值得一提的是,OpenAI将在本周正式推出GPT商店,用户可以在其中创建自定义GPT并从中获利。
Claude
美国AI创企Anthropic(由OpenAI前成员创立)旗下的AI聊天机器人,2023年3月15日正式发布。
2023年7月,Anthropic发布Claude2。升级后的Claude2在编码、数学和推理方面的性能都有所提高,处理能力提升至100K个token,可以处理数百页的技术文档,甚至整本书。
2023年11月22日,Anthropic发布Claude2.1版本。上下文窗口达到200000个token,相当于Claude此前处理能力的两倍,大幅高出GPT-4企业版3.2万个token的上限。
Anthropic还称,Claude2.1出现“幻觉”或谎言的频率是以前的一半。
截至目前,Anthropic的估值接近50亿美元,总融资额近15亿美元。
Bard
2023年2月6日,Google推出由LaMDA大模型驱动的AI聊天机器人Bard。
2023年4月10日,Bard改用更强大的PaLM大型语言模型,运算能力得到增强。
2023年5月10日,PaLM被进一步更新为PaLM2,多语言翻译和逻辑推理能力得到增强。
Bing Chat
2023年2月7日,微软正式将GPT-4集成进新版必应(New Bing)和Microsoft Edge浏览器中,集成后的聊天机器人称为Bing Chat。
2023年3月4日,微软为Bing Chat引入“精确”、“平衡”和“创意”模式,用户可在这三种模式之间进行切换,以体验不同的聊天语气。
2023年3月22日,Bing Chat集成Bing Image Creator功能。该功能基于OpenAI的DALL-E,可以基于用户输入的文本内容自动生成图像。
由于免费易用,Bing Chat被认为是ChatGPT Plus每月20美元订阅的替代品。
Character.ai
2021年由前谷歌LaMDA团队成员Noam Shazeer和Daniel De Freitas共同创立,2022年9月推出测试版。
Character.ai构建了一个AI角色扮演社区,用户可以和动漫人物、明星大佬,以及自定义的各种角色交流对话。
2023年5月23日,Character.ai移动端正式登陆全球iOS和Android系统。Character.ai官方公布的数据显示,自2023年5月发布以来,其安卓应用市场下载量已经超过300万次。
2023年9月,Character.ai的估值就被披露超50亿美元。
Pi
Pi是美国AI创企Inflection AI于2023年5月推出的AI聊天机器人。不同于ChatGPT等产品的生产力工具定位,Pi主打陪伴和情感智能。
Inflection AI成立于2022年,由前DeepMind高管Mustafa Suleyman创建,先后拿到微软、英伟达等公司的投资,目前估值已达40亿美元。
Perplexity.ai
Perplexity.ai是一个免费的人工智能聊天机器人,支持联网搜索,点击文本框下方的“现在流行”,即可查看最流行的提示和新闻。
Perplexity.ai是一个由AI驱动的搜索引擎,与传统搜索引擎不同,Perplexity.ai有着类似聊天机器人的界面,允许用户用自然语言提问,并在回答搜索查询时直接提供答案,而非网站链接,Perplexity公司将这项产品称为“答案引擎”。
2024年1月4日,Perplexity完成了7360万美元的B轮融资,估值5.2亿美元,由Institutional Venture Partners领投,这也是近年来互联网搜索初创公司筹集的最大一笔资金。
在此轮融资前,Perplexity.ai的月活用户已增至1000万。
Grok
Grok是马斯克旗下xAI推出的首个AI大模型产品,2023年11月上线,背后的大模型也与之同名,目前的版本是Grok-1,它的原型Grok-0在xAI宣布成立后即开始训练。
相较于ChatGPT等大模型有具体的知识库截止时间,Grok可以实时地从?平台获取最新信息,为用户提供更及时的新闻检索和观点获取服务。
此外,不同于常见AI助手一板一眼的回答,Grok的回答具有幽默和反叛的风格。
Gemini
2023年12月6日凌晨,谷歌发布了多模态大模型Gemini。
Gemini共有三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备(手机、PC)的Gemini Nano。
目前,Bard已集成Gemini Pro的微调版本。未来,Gemini将逐步整合进Google Search、广告、Chrome浏览器和Duet AI等多项产品和服务中,以提升Google生态系统的智能化水平,为用户提供更精确、个性化的体验。
Janitor AI
Janitor AI是一款角色扮演AI聊天机器人平台,核心功能在于允许用户创建虚构聊天机器人角色,并与这些角色进行自然语言交互。
用户可以选择不同的角色模板,包括性格、语言风格、兴趣爱好等方面的设定,为他们的聊天机器人角色注入多样的个性。此外,Janitor AI提供了丰富的API和SDK,方便开发者将其融入到自己的应用程序中。
文心一言
2023年3月16日,百度大语言模型产品“文心一言”正式发布,这是继OpenAI发布ChatGPT后,中国第一款生成式语言大模型产品。
文心一言具备五大能力:文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。
2023年10月,文心大模型4.0上线,并带来全线重构的新搜索等十余款AI原生应用。截至12月底,文心一言用户规模已突破1亿。
讯飞星火
2023年5月6日,科大讯飞正式发布“讯飞星火认知大模型”,在文本生成、知识问答、数学能力三大能力上超过ChatGPT。
2023年6月,讯飞星火认知大模型通过中国信通院组织的国内首个官方可信AIGC大模型基础能力(功能)评测,并且获得认证通过全部功能项。
2023年10月,讯飞星火认知大模型V3.0版本发布,七大能力持续提升,整体超越ChatGPT,医疗六大核心能力超越GPT-4。
通义千问
阿里推出的对话式AI大模型,2023年4月7日开始内测。
2023年9月,通义千问成为国内首批通过备案的大模型,通义千问APP上线后功能持续升级,目前可提供文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等几十项功能。
同时,阿里云陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B和视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio。12月初,720亿参数的大语言模型通义千问Qwen-72B正式开源,被称为“业界最强的中文开源模型”。
豆包
豆包是字节跳动基于云雀大模型开发的AI对话产品,8月17日正式开始对外测试。
豆包提供聊天机器人、写作助手以及英语学习助手等功能,可以回答各种问题并进行对话,支持网页Web,iOS以及安卓平台,但iOS需要使用TestFlight安装。
Kimi Chat
Kimi Chat是由北京月之暗面科技有限公司(Moonshot AI)开发的一款大模型产品,于2023年10月9日正式上线。
Kimi Chat的独特优势在于具有超长上下文支持能力,支持输入20万汉字的文本内容。还能够处理多种文件格式,如TXT、PDF、Word 文档、PPT 幻灯片、Excel电子表格等,且具备浏览网址的能力,可以阅读相关内容后回复用户。
AI图像生成工具
2023年,是AI文生图领域高歌猛进的一年。但目前来看,AI生成的图像仍存在一些局限有待进一步突破,例如在细节、精度方面不足,多数情况下仍存在画面瑕疵、缺陷,光影、色调的调整更依赖后期人工处理等等。
Midjourney
Midjourney作为文生图领域的开拓者和领导者,其生成的图片质量一直是行业标杆。
2022年,一张用Midjourney生成的图像在科罗拉多州博览会数字艺术竞赛中获得第一名,引发了大众对于AI绘画和Midjourney的关注。
目前,Midjourney已更新至V6版本,生成的图像质量逐步提高,功能也越来越多元、完善。
最初,Midjourney搭载在Discord上,用户只能通过向其官方Discord服务器上的Discord机器人发送消息来访问。
2023年12月13日,Midjourney上线了网页版,但使用门槛是用Midjourney生成了超一万张图(可以在Discord里输入“/info”,查看生成的图片数量)。相较于Discord,网页版Midjourney操作更简便,但功能少很多。
Stable Diffusion
Stable Diffusion是一款基于扩散模型的AI绘画工具,由Stability AI公司研发,能够完成文生图和图生图等任务,于2022年8月22日发布。
Stable Diffusion是一个完全开源的项目,包括模型代码、训练数据、论文等,这使得其快速构建了强大繁荣的上下游生态,比如AI绘画社区Civitai、基于SD的自训练模型,以及丰富的辅助AI绘画工具与插件等。
2023年6月,Stable Diffusion发布了SDXL0.9版本的更新,升级了Stable Diffusion文生图模型。
2023年11月29日,Stability AI发布了新一代文生图模型SDXL Turbo,将生成图像所需的步骤数从50步减少到1步,并且大幅提升了推理速度,可以做到实时生成图像。在A100上,SDXL Turbo可以在207毫秒内生成一幅512x512的图像。
不过,Stable Diffusion的安装和使用对硬件有较高要求。
DALL·E3
DALL·E3是OpenAI于2023年9月21日发布的图像生成模型,于2023年10月初向ChatGPT Plus和Enterprise客户提供。
DALL·E3的最大特点是与ChatGPT的集成,它原生构建在ChatGPT之上,通过ChatGPT来创建、拓展和优化prompt。当用户输入一个想法时,ChatGPT会自动为DALL·E3生成量身定制的、详细的prompt,同时用户也可以使用自己的prompt。
这种集成使得DALL·E3具备更强的理解能力,能够更好地理解和处理抽象冗长的提示,使用户更轻松地将自己的想法转化为准确的图像。
Adobe Firefly
Adobe Firefly,也被称为“萤火虫”,是一款由Adobe开发的Web应用程序,它的发布标志着Adobe在人工智能和AI绘图领域的一次重要突破。
主要AI功能包括文本生成图像和生成式填充,用户可以通过简单的文本提示进行描述,移除图像的一部分、向图像添加其他内容,或替换为所生成的内容。
此外,Adobe Firefly还支持在Creative Cloud应用程序中使用简单的文本提示,拓展了应用程序工作流程和生成式AI结合的可能性。
Leonardo AI
Leonardo是一个AI绘画社区,同时也是一个AI绘画工具。
Leonardo深度集成了Stable Diffusion的各种插件,比如ControlNET的openpose姿势参考、局部重绘、prompt提示等等,甚至还提供了傻瓜式在线训练模型的功能,这使Leonardo更像是Stable Diffusion模型分享社区Civitai(civitai.com)和Stable Diffusion的集合体。
AI视频生成工具
随着文生图技术的精进与成熟,文生视频赛道也逐渐变得热闹起来,以Runway为代表的文生视频公司不断涌现。国内外互联网行业的巨头,如谷歌、Meta、微软、阿里、字节同样投入人员和精力参与其中。
Runway Gen-2
Runway是一家成立于2018年的美国AI创企。2023年2月,Runway发布了文本生成视频模型Gen-1和Gen-2,通过Web界面访问Runway官网即可使用。
2023年11月2日,Runway Gen-2迎来了一次里程碑式的更新。以往AI生成视频饱受诟病的画面闪烁、不连贯、扭曲变形等问题,在这次更新后得到很大改善。
现在无论是用Gen-2文生视频还是图生视频,视频的保真度和一致性都有了重大提升,分辨率提升至4K水平。
截至目前,Runway已经发布了大约30余个AI创作工具,包含音频、图片、视频、3D和生成五个大类,涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。
2023年7月,Runway在谷歌领投的D轮融资中募集到约1亿美元,估值现已达到15亿美元。
Pika Labs
Pika Labs被称为Runway Gen-2的最强竞品,它的出现拓展了投资圈对AI视频创业领域的想象空间。
2023年11月29日,Pika Labs发布了第一个产品Pika1.0,并迅速因惊艳的视频生成效果而火出圈。12月26日,Pika1.0开启免费公测。
Pika Labs的创始人是两位华人,郭文景(CEO)和孟晨琳(CTO),均为来自斯坦福AI实验室的博士生。
11月29日,Pika labs宣布完成5500万美元A轮融资,目前估值已近2亿美元。
Stable Video Diffusion
11月21日,Stability AI上线视频生成模型“Stable Video Diffusion”。该模型基于Stable Diffusion现有的文本转图像模型,能够通过对现有图像进行动画化生成视频。
Stable Video Diffusion提供两个模型,分别为SVD和SVD-XT。其中,SVD将静止图像转换为14帧的576x1024视频,而SVD-XT在相同的架构下将帧数提升至24帧。这两者都能以每秒3到30帧的速度生成视频。
目前,Stable Video Diffusion已经开放了用户候补名单注册。
Morph Studio
文生视频领域的“黑马”。Morph Studio是世界第一个推出公众可随意测试text-to-video产品的团队,比Runway开放Gen2公测的时间还早。
和一些仅提供720P免费服务的同类产品不同,Morph Studio从一开始就提供默认1080P以及最长7秒生成时间的免费服务,注册Discord即可免费体验。
Animate Anyone
Animate Anyone是一款可以把静态图像变成动画视频的软件,由阿里巴巴智能计算研究院开发。它可以应用于人类、动漫、卡通等不同类型的角色,只需要提供一张角色图像和一些预设的动作序列,就可以生成逼真的动画视频。
与Animate Anyone类似的工具还有Magic Animate,这是新加坡国立大学和字节跳动联合推出的一款“人体图像动画生成工具”,它同样能够根据用户指定的人物图片和动作序列,生成对应的动效视频。
AI音频工具
感受过Midjourney、SD等AI绘画工具带来的视觉震撼后,AI生成音频领域也正在掀起一场革命。
从震撼华语乐坛的AI歌手“孙燕姿”到霉霉说普通话的视频走红,AI音频生成产品在音乐创作、语音合成和音效设计等方面取得了显著的突破。
ElevenLabs
ElevenLabs是一个Text to Speech软件,可以通过将输入的文本转化成情感和语调都十分逼真的语音。
其背后的ElevenLabs是一家软件公司,专门利用人工智能和深度学习开发自然语音合成和文本转语音软件。
2023年6月,ElevenLabs筹集了1900万美元的A轮融资,估值约为1亿美元。
2023年10月,ElevenLabs推出“AI Dubbing”,这是一种能够将语音翻译成20多种语言,并且保留说话者原始语音、情感和语调的AI工具。
Suno AI
Suno AI是一个音乐生成模型,可以通过简短的文本提示生成音频,包括语音、音乐和音效。
其中,Suno AI的语音生成模型BaRK,可以根据用户需求生成各种语音,适用于广告、动画和游戏行业。
Suno AI的音乐生成模型Chirp可以生成包括乐器、歌词和人声演唱等在内的约30秒音乐片段,涵盖流行、古典、电子等多种音乐风格。
Suno AI的音效生成模型可以生成各种类型的音效,为音视频项目增添表现力、氛围感和情感。
Mubert
Mubert是一个AI音乐生成平台,用户可以在Mubert实时生成特定长度、风格流派和情绪的音乐,并支持自定义。主要面向音乐制作人、创作者和品牌,使他们在人工智能的帮助下创作免版税音乐。
Google MusicLM
Google MusicLM是谷歌开发的一个文本到音乐的生成模型,是“AI Test Kitchen”计划的一部分。
MusicLM可以从类似于自然语言提示的简单文本描述中创作高保真的音乐。它以24kHz的高采样率生成音乐,意味着生成的音频质量很高。此外,MusicLM的音乐生成速度非常快,几乎是即时的。
AI数字人生成工具
伴随着人工智能技术的突破性进展,AI数字人以其逼真的外貌、智能的对话能力和个性化的服务,成为2023年一大热门领域。
不过,在技术层面,AI数字人产品未来还需要进一步突破在图像合成、语音合成和情感模拟等方面的技术壁垒,提高数字人的真实感和交互能力。在商业层面,随着竞争的加剧,产品差异化和用户体验或将成为决定市场竞争力的关键因素。
此外,还需要加强对数据收集、存储和使用的监管,以保护用户的隐私权益,并确保数字人技术的合法、公正和透明的使用。
Synthesia
Synthesia是一个AI视频创作平台,主要面向大型企业客户等B端客户,可以生成虚拟人视频等。
Synthesia CEO曾在博客中透露,全球财富100强中有35%的公司正在使用Synthesia进行培训和营销,并且有超过5万个团队使用这一工具大规模制作视频,节省了80%的预算。
其背后的公司Synthesia是一家成立于2017年的英国AI创企,2023年6月,该公司获得约9000万美元融资,估值达到10亿美元。
HeyGen
2023年10月底,美国知名女歌手Taylor Swift说普通话的视频片段在网络疯传,其背后使用的工具HeyGen一时间也受到广泛关注。
HeyGen是一个数字人生成平台,于2022年7月29日上线。用178天的时间达成了100万美元的ARR(年度经常性收入)。
如果说Runway和Pika主要面向创意人员和消费者,HeyGen则专注于解决B端客户营销、培训和教学视频的需求。
2023年11月29日,HeyGen宣布获得由Sarah Guo领投的Conviction Partners的560万美元风险投资。这轮投资使得HeyGen的估值达到7500万美元。
D-ID
D-ID是一家提供人工智能仿真人视频产品服务和开发的公司。用户只需上传人像照片,输入要说的内容(台词),D-ID就能利用AI 语音机器人自动将用户输入的内容转化为视频。
D-ID的主要技术是人脸去识别化技术服务,可以创造一个虚拟化讲解员,在视频中代替真人出镜,介绍视频内容。
AI效率工具
由于有着庞大的用户基数,众多工作场景也与AIGC的各项能力相适配,办公是天然适合AI落地的场景之一。
随着越来越多的办公软件卷起了AI,现在只要我们用自然语言描述自己的需求,AI就可以直接满足。写会议纪要、文案、画图、开发应用、自动生成PPT和Excel表格等,统统不在话下。
QuillBot
QuillBot是一款基于NLP的文章汇总写作和增润色工具,可以通过语义分析,自动帮助用户改写文章、总结文章、扩展文章。
这类文章助手在过去一年发展迅猛,但QuillBot近期面临一定用户流失。有分析称,这主要与ChatGPT强大的零样本学习能力有关。后者可以通过简单提示实现无限主题的创作,显然更具吸引力。
但就实际效果而言,QuillBot等专业写作助手仍占优。它们可以提供更加丰富的语法、逻辑和风格指导,输出更流畅和更具逻辑性的文章。
Novel AI
Novel AI是一个针对内容创作者设计的AI工具,主要用于辅助写作,可以帮助作家和创作者产生新的创意,提供写作灵感,甚至自动完成或编辑故事。
Jasper AI
Jasper AI是一个流行的AI写作助手,旨在帮助用户更快、更高效地创建内容,主要面向广告专业人士、内容营销人员、企业家等用户群体。
Jasper AI还提供各种写作模板,包括博客文章、社交媒体帖子、营销邮件和网页内容等。
Copy AI
Copy AI是一个AI驱动的内容生成工具,可以自动生成创意文案、营销文本和其他类型的写作内容,特别适用于营销和广告领域。
此外,Copy.AI还提供一个内置的文档编辑器,用户可以在左侧输入指令或问题,在右侧编辑和优化输出结果。
Notion AI
Notion AI是集成在Notion产品中的AI功能。Notion是一个笔记和项目管理工具,其集成的AI功能包括文本生成、内容整理、数据分析等,旨在帮助用户管理笔记、组织项目、自动化常规任务等,提高工作效率。
回顾2023年,我们见证了人工智能领域的蓬勃发展和创新。
除了大模型及生成式AI独角兽企业饱受关注外,有着明星创始团队和广阔应用前景的新兴AI产品也很容易获得各路资本青睐。
随着AI技术的不断进步,数据的不断积累,以及算力的进一步提升,可以预见,未来几年,AI产品和应用会越来越丰富,AI技术将继续向更广泛的领域渗透,包括医疗、金融、制造业等等。AI将为这些领域带来更多的智能化解决方案,从而提高效率、降低成本,并推动产业的转型升级。
与此同时,如何确保AI系统的公平性、透明性和可解释性,如何平衡AI的发展与隐私保护之间的关系,以及如何避免AI技术被滥用或引发潜在的风险等等,也将成为重要议题。