不想炸薯条的Ilya和不送GPU的英伟达，Hinton最新专访：道路千万条，安全第一条

从谷歌离职一年之际，「人工智能教父」Hinton接受了采访。

——也许是因为徒弟Ilya终于被从核设施中放了出来？（狗头）

视频地址：https://www.youtube.com/watch?v=tP-4njhyGvo

当然了，采访教父的小伙子也非等闲之辈，Joel Hellermark创立的Sana已经融资超过8000万美元，

他本人也曾因为在推进AI方面的工作，而入选福布斯30 under 30（30位30岁以下精英）。最近，《卫报》又将Joel评为35岁以下改变世界的前10名。

——这个13岁学编程、16岁开公司的小天才，与真正的科学家之间，又能碰撞出怎样的火花呢？

下面，让我们跟随两人的对话，一同探寻AI教父的心路历程，以及幼年Ilya的一些趣事。

剑桥白学了

为了弄清楚人类的大脑如何工作，年轻的教父首先来到剑桥，学习了生理学，而后又转向哲学，但最终也没有得到想要的答案。

「That was extremely disappointing」。

于是，Hinton去了爱丁堡，开始研究AI，通过模拟事物的运行，来测试理论。

你在爱丁堡时候的直觉是什么？

「在我看来，必须有一种大脑学习的方式，显然不是通过将各种事物编程到大脑中，然后使用逻辑推理。我们必须弄清楚大脑如何学会修改神经网络中的连接，以便它可以做复杂的事情。」

「我总是受到关于大脑工作原理的启发：有一堆神经元，它们执行相对简单的操作，它们是非线性的，它们收集输入，进行加权，然后根据加权输入给出输出。问题是，如何改变这些权重以使整个事情做得很好？」

Ilya：我不想炸薯条了

某个星期日，Hinton坐在办公室，突然有人在外面哐哐敲门（原话：that's sort of an urgent knock）。

Hinton去开门，门外的年轻人正是Ilya。

Ilya：这个夏天我在炸薯条，实在是干够了，还不如来你实验室干活。

Hinton：你应该先预约，然后我们谈一下。

Ilya：就现在怎么样？

——Hinton表示，这就是Ilya的性格特点。

Hinton给了Ilya一篇关于反向传播的论文，两人于一周后再次见面。

Ilya：I didn't understand it.

Hinton：？这不就是链式法则吗，小伙子你怎么回事？

Ilya：不是那个，我不明白你为啥不用个更好的优化器来处理梯度？

——Hinton的眼睛亮了一下，这是他们花了好几年时间在思考的问题。

Hinton表示，Ilya总是有很好的直觉，他从小就对人工智能感兴趣，并且显然很擅长数学。

Hinton还记得，有一次的项目比较复杂，涉及到大量的代码重组，以进行正确的矩阵乘法。

Ilya受够了折磨，于是有一天跑过来找Hinton，

Ilya：我要为Matlab写一个接口，自动做这些转换。

Hinton：不行，Ilya，那需要你一个月的时间。我们必须继续这个项目，不要分散注意力。

Ilya：没关系，我今天早上写完了。

Ilya的直觉

Ilya很早就有一种直觉：只要把神经网络模型做大一点，就会得到更好的效果。Hinton认为这是一种逃避，必须有新的想法或者算法才行。

但事实证明，Ilya是对的。

新的想法确实重要，比如像Transformer这样的新架构。但实际上，当今AI的发展主要源于数据的规模和计算的规模。

或许正是因为Ilya的这种直觉，才有了后来OpenAI的惊人成就。

当时过境迁、沧海桑田，光阴让Ilya变为了成熟的大人，同时也带走了他的头发。

模型真的能思考

2011年，Hinton带领Ilya和另一名研究生James Martins，发表了一篇字符级预测的论文。他们使用维基百科训练模型，尝试预测下一个HTML字符。

模型首次采用了嵌入（embedding）和反向传播，将每个符号转换为嵌入，然后让嵌入相互作用以预测下一个符号的嵌入，并通过反向传播来学习数据的三元组。

当时的人们不相信模型能够理解任何东西，但实验结果令人震惊，就像是模型已经学会了思考。

预测下一个符号，与传统的自动完成功能有很大的不同。传统的自动完成功能会存储一组三元组单词。然后，你会看到不同的单词出现在第三位的频率，这样你就可以进行预测。

但现在，情况已经不同了。要预测下一个符号，你必须理解所说的内容。我认为通过预测下一个符号可以强迫模型进行理解，它的理解方式与我们非常相似。

举个例子，如果你问GPT-4，为什么堆肥堆像原子弹？大多数人都无法回答这个问题，因为他们认为原子弹和堆肥堆是完全不同的东西。

但GPT-4会告诉你，两者能量尺度不同，时间尺度也不同。但相同的是，当堆肥堆变热时，它会更快地产生热量；而当原子弹产生更多的中子时，其产生中子的速度也会随之加快。

——这就引出了链式反应的概念。通过这种理解，所有的信息都被压缩到模型权重中。

在这种情况下，模型将能够对我们从未见过的各种类比进行处理，这就是人类能从模型中获得创造力的地方。

大型语言模型所做的是寻找共同的结构，使用共同的结构对事物进行编码，这样效率更高。

超越训练数据

在与李世石的那场著名比赛中，AlphaGo在第37步做出了所有专家都认为是错误的举动，——但后来被证明是AI绝妙的创造力。

AlphaGo的不同之处在于它使用了强化学习，使它能够超越当前状态。它从模仿学习开始，观察人类如何玩游戏，然后通过自我对弈，逐渐超越了训练数据。

Hinton还举了训练神经网络识别手写数字的例子，他把训练数据的一半答案故意替换成错误的（误差率50%），但是通过反向传播的训练，最终模型的误差率会降到5%或更低。

这就像是聪明的学生最终会超过自己的老师。大型神经网络实际上具有超越训练数据的能力，这是大多数人未曾意识到的。

此外，Hinton认为当今的多模态模型将带来很大的改变。

仅从语言角度来看，模型很难理解一些空间事物。但是，当模型成为多模态时（既能接收视觉信息，又能伸手抓东西，能拿起物体并翻转），它就会更好地理解物体。多模态模型需要更少的语言，学习起来会更容易。

预测下一个视频帧、预测下一个声音，我们的大脑或许就是这样学习的。

英伟达不送GPU

Hinton是最早使用GPU处理神经网络计算的人之一。

2006年，一位研究生建议Hinton使用GPU来计算矩阵乘法。他们最开始使用游戏GPU，发现运算速度提高了30倍。之后Hinton购买了一个配备四个GPU的Tesla系统。

2009年，Hinton在NIPS会议上发表了演讲，告诉在场的一千名机器学习研究人员：「你们都应该去购买英伟达的GPU，这将是未来的趋势，你们需要GPU来进行机器学习。」

然后，Hinton给英伟达发了一封邮件，说我已经告诉一千名机器学习研究人员去购买你们的显卡，你们能否免费给我一个？

——英伟达并没有回复。

很久以后，Hinton把这个故事告诉老黄，老黄赶紧送了一个。

硬件模拟神经网络

在谷歌的最后几年里，Hinton一直在思考如何尝试进行模拟计算。这样，我们就可以使用跟大脑一样的功率（30瓦），来运行大型语言模型，而不是一兆瓦的功率。

每个人的大脑都不相同，所以在这种低功耗的模拟计算中，每个硬件都会有所不同，各个神经元的精确属性也不同。

人终有一死，大脑中的权重在人死后就会丢失，但数字系统是不朽的，权重可以被存储起来，计算机坏了也不影响。

假设有一大批数字系统，它们从相同的权重开始，各自进行微量的学习，然后共享权重，这样它们都能知道其他系统学到了什么。然而，我们人类无法做到这一点，因此在知识共享方面，数字系统远胜于我们。

快速权重

到目前为止，神经网络模型都只有两个时间尺度：接收输入时的快速变化，和调整权重时的缓慢变化。

然而在大脑中，权重的时间尺度有很多。

比如我说了一个词「黄瓜」，五分钟后，你戴上耳机，听到很多噪音和一些模糊的单词，但你能更好地识别「黄瓜」这个词，因为我五分钟前说过这个词。

大脑中的这些知识是如何存储的呢？显然是突触的暂时变化，而不是神经元在重复「黄瓜」这个词——Hinton称之为快速权重。

Hinton的担忧

Hinton认为，科学家应该做一些有助于社会的事情，当你被好奇心驱使时，你会做最好的研究。但是，这些事情会带来很多好处，也可能会造成很多伤害，我们需要关注它们对社会的影响。

比如坏人使用AI做坏事，将人工智能用于杀手机器人，操纵公众舆论或进行大规模监视。这些都是非常令人担忧的事情。

而人工智能领域的发展不太可能放缓，因为是它是国际性的，即使一个国家放缓，其他国家也不会。

这种担忧也让小编想起了与Hinton一脉相承的Ilya。

从多伦多的实验室，到OpenAI的核设施，Ilya一直牢记恩师的教诲：道路千万条，安全第一条。监管不规范，教父两行泪。