2月21日,谷歌正式对外发布开源大模型Gemma。
这距离谷歌上一次大模型Gemini 1.5的发布,还不到一周的时间,事关大模型的竞争愈演愈烈。
2月15日,OpenAI发布Sora,Sora文生视频的能力,再度震惊整个行业。
彼时,就连此前在文生视频领域搅弄风云的Runway、Pika等公司的创始人,也都不得不甘拜下风。
Sora在全球形成的“病毒式”传播,再次证明了OpenAI奥特曼的天才营销能力,也让仅仅早于Sora两小时发布的Gemini 1.5没能在最佳传播时间里获得本应属于它的全球关注度。
无论二者同期发布是奥特曼有意为之,还是一场意外,在巨头之间的大模型竞争已经到了白热化的现在,谷歌都需要再亮出一张底牌,重新赢得市场的关注。
显然,昨天发布的Gemma就是谷歌的又一张底牌,不过,这次谷歌瞄准的是开源大模型。
这次谷歌发布的Gemma包含两个“小”模型,Gemma 2B和Gemma 7B,由于参数规模分别为20亿和70亿,参数规模并不大,谷歌将这两个模型归为轻量级开放模型系列。
值得注意的是,Gemma采用了和谷歌此前发布的主力大模型Gemini相同的技术架构,同时这也是一个可以直接下放到笔记本和台式机上运行的端侧大模型。
在此之前,谷歌在2023年12月首次对外发布Gemini大模型时,谷歌CEO Sundar Pichai就一口气对外公布了Ultra、Pro、Nano三个版本,并称,“这些是进入Gemini时代第一个模型,也是Google DeepMind成立时的愿景。”
这其中,Gemini Nano参数规模为1.8B和3.25B,正是被谷歌用作端侧大模型。
实际上,在2023年更早些时候谷歌发布的Pixel 8 Pro,已经因显著的AI特性被视为划时代的智能手机,站稳AI手机潮头后的谷歌,又在今年将Gemini Nano放到了三星Galaxy S24中,帮助三星进入到了“Galaxy AI时代”。
至顶网认为,在手机厂商、PC厂商联合芯片厂商一同全力推进端侧AI的这一年,谷歌此次发布的2B、7B开源大模型Gemma,更重要的功效预计将会在端侧AI领域体现出来。
从开源方面来看,谷歌Gemma并不是第一个开源大模型。
早在2023年7月,Meta就对外发布了免费可商用的大模型Llama 2,而这一动作其实是Meta和微软合作的杰作,拥有7B、13B、70B三个参数级版本的Llama 2,当时被视为是OpenAI的ChatGPT的平替产品。
就在Meta开源Llama 2时,Yann LeCun不无感慨地公开表示,Llama 2的开源可商用将极大地改变大模型的市场格局。
而从国内来看,阿里是另一个开源大模型的推动者。
2023年8月,阿里云对外开源了通义千问7B大模型,成为国内最早推动大模型开源的企业,随后,阿里云又先后对外开源了14B、72B、1.8B参数规模的大模型,参数规模最大的72B版本,甚至超过了Llama 2。
之所以科技巨头愿意开源大模型,是为了借助开源力量,加速技术发展。
这自然也是谷歌此次开源Gemma的主要目的。
因此,就在谷歌Gemma对外开源时,谷歌还公布了Gemma对一系列开发工具和系统的支持,以及跨设备的兼容,具体Gemma的兼容和支持情况如下:
多框架工具:Gemma提供Keras 3.0、原生PyTorch、JAX和Hugging Face Transformers多个框架的参考实现;
跨设备兼容:Gemma模型可以在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备类型上运行;
硬件平台支持:谷歌与NVIDIA合作,可以使用NVIDIA GPU来优化Gemma模型;
基于Google Cloud的优化:Vertex AI提供广泛的MLOps工具集,其中包含一系列微调选项和内置推理优化的一键部署功能。
基于此,谷歌抢先在Meta发布Llama新版本之前,终于推出了开源大模型,谷歌官方甚至将这一模型在关键基准测试集上的测试表现与Llama 2进行了对比,并得出了Gemma 7B完胜Llama 2 7B和13B版本的结论。
不过,出门问问创始人李志飞就谷歌开源的Gemma指出,“时间有点晚”、“开源力度不够”、“感觉这次开源还是被动防御”。
他还提到,谷歌在AI领域经常起大早赶晚集,这次的Sora借鉴的ViT、ViViT、NaVit、MAGVit等核心组件技术都是谷歌团队此前的论文。
当然,无论是“攻”还是“守”,Gemma最重要的还是表明了谷歌在AI领域的开源态度。
接下来的2024,关乎大模型的竞争,也将会愈演愈烈。