大神卡帕西安利爆火AI应用，称「或是下一个ChatGPT」

大神卡帕西墙裂推荐!

甚至预言这个AI应用，有可能开启「和ChatGPT一样大的机会」。

它就是来自谷歌的实验性AI产品，Notebook LM，背后由谷歌现在最强大的模型Gemini1.5Pro提供支持。

最近这应用要多火就有多火，全因上线了一项新功能——

上传文件（文字、音频、视频），AI不仅能帮忙用文字提炼要点，还可以通过音频概述(Audio Overview)功能，把文件转换成AI生成的对话播客，根据文档内容进行讨论。

2个AI，用真人般的语音和口吻，围绕文件内容激情讨论，最后总结陈词。

这真的很酷!

而且不是卡帕西一个人在夸。逛了下互联网几大平台，网友们对Notebook LM普遍还是挺买账的。

AI界的KOL@elvis也在卡帕西评论区留言:

Notebook LM怎么玩?

玩法很简单，打开试玩页面，拖拽上传需要处理的文件。

可以是谷歌文档，可以是网站和视频链接，甚至干脆粘贴一大段文本都可以。

每个笔记本支持上传50个文件，每个文件内容上限500000个单词。

这里我们上传了OpenAI o1的System Card文档，接下来就可以选择需要创建的内容。

内置支持问答、小测验、目录、时间线、摘要等文字版功能，以及两个主持人的深度对话音频内容。

如果有更个性化的需求也可以自己敲prompt。

我们尝试用中文提问，结果AI是可以理解的。

很可惜的是Notebook LM不支持用中文回答，即使刻意要求也不行。

选择创建音频的话，视文档长度需要等待几分钟到十几分钟。

趁这个时间来了解一下这背后的Gemini模型叭～

NotebookLM由Gemini1.5Pro来支持，也就是谷歌家目前旗舰级大模型。

Gemini1.5Pro支持超长128k上下文，这是能解读长文档的基础。

在最近的一次升级中，Gemini1.5Pro数学和推理能力还反超OpenAI o1预览版。

好了，刚才生成的音频也处理完毕，英语好的朋友可以来听听看。

英语没那么好的朋友，也可以看看套娃AI转写、翻译出来的AI播客文字版，感受一下。

单纯的上传文档，生成内容，还只是Notebook的实用玩法之一。

还有人介绍了学生上课录音，回家用AI整理重点的玩法，也广受好评。

（不是自己不听课了的意思）

具体来说，可以遵循以下步骤:、

一种与单纯Chat不同的交互范式

其实，NotebookLM并不是出道即爆火。

早在去年5月的Google I/O大会上它就已经出现了，不过那个时候，作为AI笔记本项目的它还叫Project Tailwind。

到了去年7月，NotebookLM它才改成现在的名字。

起初，只支持美国局部地区的用户食用;功能也还是围绕着基础的Chat模式展开。

△NotebookLM自动生成文档指南（来自谷歌官网）

到了这个月11号，NotebookLM突然宣布面向全球玩家开放，并且新增了重磅功能，音频概述。

谷歌给的官方介绍是这样的:

“新的音频概述功能，可以一键将文档、幻灯片、图表等转化为引人入胜的讨论。”

因为交互形式很新、AI语音逼真、讨论起来真的很像真人播客，大家一下就玩嗨了。

到这两天，Notebook LM不仅已经能够把Youtube视频作为输入，还已经支持超100种语言。

现在，卡帕西的下场“示爱”，更为Notebook LM的热度添了一把火。

如卡帕西所说，Notebook LM爆火最主要的原因，是它提供了一种与单纯Chat不同的交互范式。

卡帕西表示，Notebook LM消除了大模型的两大享受障碍:

第一点，聊天其实挺难的。

有些人在日常生活中跟人交流都费尽心力，更别提要和Chatbot聊天，还得不停提问、追问。

NotebookLM好就好在，生成的二AI播客，其中有一方就会处于提问、引导角色。

咱把文档、音视频放进去，等待生成，美美听AI根据文件唠就是了。

第二点，阅读不是件容易的事。

信息爆炸的碎片化时代，挑个舒服的姿势，或者开车时候听别人讨论我需要的东西，比自己费劲吧啦搁那儿看容易得多。

——哪怕看的是AI已经帮我们总结出来的凝练版本（哎，没错，咱就是这么懒!doge）。

本着精益求精的精神，也有网友表示了对Notebook LM更上一层楼的期待。

Hyperbolic Labs的联创兼CTO Yuchen Jin试玩过后，总结了两个局限性:

一个是它“看不到”，也就是没法处理文档里的图片信息。

不过背后的Gemini是多模态的嘛，相比Notebook LM长眼睛不会太晚。

另一个是用户无法引导AI播客的内容。

Yuchen Jin喂给它两条推文，它就生成了近13分钟的音频内容，但它默认听众是普通受众，所以讲了很多很基本的概念。

如果能指定生成播客的目标群体，或者谈论主题、方向、角度，那真的是棒上加棒。

One More Thing

说时迟那时快，开发者搞出开源版的NotebookLM了!

不过暂时只能喂给它PDF嗷。

咱就是说，人类真有意思哈!

以前在音频转文字方面费劲，追求把广播、会议录音啥的转成文字。

现在又开始用大模型把文字转成播客了……

有意思哇有意思哇（狗头）。

参考链接:

[1]https://notebooklm.google/

[2]https://x.com/karpathy/status/1840112692910272898

[3]https://x.com/omarsar0/status/1840145774874898506

[4]https://x.com/Yuchenj_UW/status/1840203324571943403

[5]https://github.com/gabrielchua/open-notebooklm

—完—

总结

### 文章总结
#### **推荐与预测**
- 卡帕西墙裂推荐谷歌的实验性AI产品Notebook LM，并预言这个AI应用可能与ChatGPT一样带来巨大机遇。
#### **产品介绍**
- **Notebook LM**：谷歌推出，由Gemini1.5Pro大模型支持。
- **新功能**：上传文字、音频、视频文件，AI能提炼要点并通过“音频概述”功能生成AI对话播客，讨论文件内容。
#### **功能亮点**
- 支持多种格式上传（谷歌文档、网站链接、视频链接、文本等），每个笔记本可上传50个文件，内容上限500,000个单词。
- 内置功能包括问答、小测验、目录、时间线、摘要及深度对话音频内容。
- 中文提问能被理解，但当前不支持中文回答。
- 音频生成根据文档长度需等待数分钟至十几分钟。
#### **用户反响**
- 互联网用户普遍对Notebook LM持积极态度，包括AI界知名人士如@elvis也表达了认可。
#### **使用方法**
- **步骤**：打开试玩页面，拖拽上传文件，选择需要创建的内容类型（问答、摘要、对话等），等待AI处理并生成结果。
- 可通过输入prompt进行更个性化的内容创作，但当前不支持直接用中文回答。
#### **Gemini1.5Pro模型介绍**
- 谷歌目前的旗舰级大模型，支持超长128k上下文，具备出色的数学和推理能力，超越OpenAI o1预览版。
#### **用例与优势**
- 不仅限于文档处理，还可用于录制学生课堂笔记并整理重点，提高学习效率。
- 提供了一种新的交互范式，相比直接的聊天形式更加轻松愉快，降低了与大模型交互的难度。
#### **未来展望**
- Notebook LM不断迭代，现已支持YouTube视频输入及超过100种语言。
- 网友期待改善包括处理文档图片信息、允许用户引导AI播客内容等方面的功能。
#### **最新发展**
- 已有开发者推出开源版Notebook LM，目前仅能处理PDF文件。
#### **结论**
- Notebook LM通过创新的“音频概述”功能，展示了多任务处理能力和广泛的应用场景，有望成为新一代AI应用的佼佼者。

gemini 大模型 chat 笔记本音频内容 openai ai应用开发者谷歌文档实验性互联网时间线 ai产品上下文 google prompt youtube视频个性化 pdf gpt