当前位置:AIGC资讯 > AIGC > 正文

贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样

Transformer大模型尺寸变化,正在重走CNN的老路!

看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。

拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:

在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。

听起来,是不是和GPT哐哐往上卷模型参数,业界普遍认同Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma2B如出一辙?

贾扬清笑称,“这是前大模型时代的事儿,很多人可能都不咋记得了:)”。

而且,贾扬清不是唯一一个感知到这一点的人,AI大神卡帕西也这么觉得:

他甚至拍着胸脯打赌,表示我们一定能看到又好、又能可靠地思考的模型。

而且是参数规模很小很小的那种。

连马斯克都在卡帕西的评论区连连称是:

以上,大概可以称之为“大佬所见略同”。

展开说说

贾扬清的感慨,要从只在最强王座上短暂待了一天的LLaMA3.1说起。

那是首次实现“最强开源模型=最强模型”,不出意外,万众瞩目。

However,贾扬清在这个时候提出了一个观点:

“但我认为,行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型,贾扬清也说得很清楚,比如以Patrouns AI的Iynx(该公司的幻觉检测模型,在幻觉任务上超过GPT-4o)为代表的那些很棒的中小模型。

贾扬清表示,就个人喜好而言,他本人是非常喜欢千亿参数模型的。

但现实情况里,他观察留意到,7B-70B参数规模之间的大模型,大家用起来更顺手:

它们更容易托管,不需要巨大的流量即可盈利;

只要提出明确的问题,就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时,他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

“如果我的理解是正确的,那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点,“即在现实世界中,使用适用的、具有成本效益、且仍然强大的模型。”

于是乎,贾扬清简单梳理了CNN的发展历程。

首先,是CNN的崛起时代。

以AlexNet(2012)为起点,开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次,是缩小规模时期。

2015年,GoogleNet把模型大小从“GB”缩小到了“MB”级别,即缩小了100倍;但模型性能并没有因此骤减,反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间,发展重点在追求平衡。

后续研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一个适中的模型规模。

值得注意的是,模型规模的控制并没有带来计算量的减少——其实,大伙儿都愿意投入更多的计算资源,寻求一种“同等参数但更高效”的状态。

紧接着就是CNN在端侧起舞的一段时期。

举个例子,MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少,但是性能却非常优异。

就在上周,还有人跟贾扬清提到:“Wow~我们现在还在用MobileNet,因为它可以在设备上运行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

最后,贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

并再一次发出自己的疑问:

大模型尺寸,会遵循与CNN时代相同的趋势来发展吗?

网友怎么看?

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后,立马有人点头如捣蒜,还拿出了一些别的类似例子,证明他们看到了相同的趋势。

有人立马跟上:

还有网友表示,开发更大的模型,意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来,较小的大模型在特定领域,能与现在参数巨大的大模型一样聪明,甚至更聪明。

一言以蔽之,模型必须先变大,然后才能变小。

大多数讨论此观点的人,还是对这个趋势比较认同,有人直言“这是一件好事,比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是,当然了!

翻遍网络评论区,也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言:

面对这个问题,贾扬清倒也及时回复了。

他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路,绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道,这么说的本意是,随着技术(包括CNN和大模型)落地实践越来越广,大家已经开始越来越关注性价比更高的模型了。”

所以,或许更高效的小·大模型,能够重新定义AI的“智能”,挑战“越大越好”的假设。

你赞同这个观点不?

请在手机微信登录投票

你赞同Transformer大模型尺寸会按CNN时代趋势发展,“先大后小”吗?单选我赞成我反对我就看看

总结

### 文章总结
**主题**:Transformer大模型尺寸的变化可能正在重走卷积神经网络(CNN)的老路,从大尺寸转向更小、更高效的模型。
**核心观点**:
- **对比CNN发展**:在ImageNet时代,CNN经历了参数规模快速增长后,又向更小、更高效模型转变的趋势。
- **当前Transformer趋势**:GPT模型参数不断增加,但最近出现了如GPT-4o mini等更小模型,业界开始反思模型“越大越好”的观点。
- **专家观点**:
- **贾扬清**:认为小型垂直模型将促进行业真正蓬勃发展。他提到7B-70B参数规模之间的大模型更易托管且成本低,同时实用性强。
- **AI大神卡帕西**:断言未来模型将更小、更可靠地思考。
- **业界趋势**:OpenAI等公司也开始研发更小、速度更快的模型。
**CNN发展历程回顾**:
- **崛起阶段**:以AlexNet为起点,模型规模快速增长。
- **缩小规模阶段**:GoogleNet、SqueezeNet等模型将模型大小大幅减小,性能仍保持良好。
- **追求平衡**:如ResNet、ResNeXT等模型维持适中规模。
- **端侧应用**:MobileNet等模型以其资源占用少、性能优异的特点在端设备上有广泛应用。
**网友与专家讨论**:
- 大多人认同这一趋势,认为更高效的小模型更符合实际需求,能重新定义AI的“智能”。
- 也有人提出异议,认为大型模型对训练未来的小型模型有重要作用。
- 贾扬清回应称,他的意思并非要停止训练大型模型,而是强调随着技术落地应用的广泛,性价比更高的模型将受到更多关注。
**投票话题**:你赞同Transformer大模型尺寸会按CNN时代趋势发展,“先大后小”吗?提供了“我赞成”、“我反对”、“我就看看”三个选项供读者选择。

更新时间 2024-08-02