当前位置:AIGC资讯 > AIGC > 正文

图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞

中关村论坛举办以来的首个主题日活动:「人工智能主题日」今日开启!

到场嘉宾,也是星光熠熠,大佬云集,还有着浓浓的国际范儿,与世界顶尖水平接轨。

一共161位嘉宾,近一半是外籍AI大佬和从业者。

而嘉宾阵容也是非常豪华,汇集了国内外30多名院士,还有诺奖、图灵奖得主,清北港科大等知名高校的校长副校长。

百度、蚂蚁、微软、亚马逊等世界领军科技企业,也都前来参会。

可以说,「人工智能主题日」堪称如今AI界的顶级盛会,亮点满满,精彩纷呈。

重磅技术成果发布

国产Sora,又上新了!

在今天的中关村论坛「人工智能主题日」上,生数科技联合清华大学,共同发布了最新的视频大模型「Vidu」。

Vidu生成的画面一亮相,就让全场惊呼——这个效果也太像Sora了!

在人物和场景时间一致性的保持上,Vidu的表现令人印象深刻。

而且,它生成的视频最长可达16秒左右,在时长上破了纪录。

甫一亮相,Vidu就得到了业内公认——

综合考虑时长、一致性、真实度、美观性等因素,它是「国产Sora」模型中当之无愧的佼佼者,是国内最能和Sora全面对标的视频模型。

清华大学人工智能研究院副院长、生数科技首席科学家朱军为我们放出了Vidu的以下演示。

一只小狗在游泳池里游泳,毛发纤毫毕现,狗脚划水的动作十分自然,和水的相互作用十分符合物理学原理。

人物眼睛的特写、做陶罐的女人手中正在转动的陶罐、一对坐着的男女同时抬头的动作,都刻画地细致入微,逼真到仿佛现实。

总的来说,Vidu具有以下几大特点——

模拟真实物理世界

森林里的湖边风光,无论是树、水面、云朵,还是整体的光影效果,很逼真写实。

汽车行驶在崎岖山路上的场景,也是非常经典的Sora演示。

Vidu模拟了非常真实的光影效果,连扬起的灰尘,都十分符合物理规律。

富有想象力

在这艘AI视频模型必考题中,Vidu生成的视频效果实在太惊艳!

画室里的一艘船驶向镜头的场景。

这道题,考验了模型虚构场景的能力,为了生成超现实主义的画面,它们需要具有超强的想象力。

理解多镜头语言

可以看出,Vidu能够理解多镜头的语言,不再是简单的镜头推拉。这样,就能模拟我们的摄影过程。

生成的这个视频中,要求它包含海边小屋、镜头过渡到阳台、俯瞰大海、帆船、云朵等元素。

Vidu生成的视频,具有复杂的动态镜头,远、近、中景、特写,以及长镜头、追焦等效果,都十分惊艳。

一镜到底,16s时长

而在这个视频中,Vidu展现出了16s的超长「一镜到底」。

而且,视频完全是由单一大模型生成的,不需要任何插帧、剪切,直接就实现了端到端的生成。

超强时空一致性

要求它以《戴珍珠耳环的少女》为灵感,生成一只蓝眼睛的橙色猫,可以看出,Vidu生成了连贯的视频。

从旋转的各个视角看,都非常逼真,甚至让人产生了「这是一个3D模型」的错觉。

它生成的视频中,人物和场景在时空中始终保持一致。

理解中国元素

相比国外的AI视频模型,Vidu也更理解中国元素。

熊猫、龙这样的中国元素,它都能理解和生成。

和Pika、Gen-2比起来,Vidu的表现也丝毫不弱。

一艘木头玩具船在地毯上航行。

两位对手的视频一个只有4s,一个更是画面简单的循环播放,而Vidu的视频以16s的自然画面秒杀了它们,在一致性的保持和语义理解上,也都非常突出。

用和Sora同样的prompt,Vidu的表现甚至更好。

Sora并未理解旋转的镜头是什么意思,而Vidu不仅表现出了旋转,还保持了一致性的效果。

几分钟的视频结束,全场响起经久不息的掌声。

之所以能在短时间做出如此惊艳的视频AI模型,离不开团队的长期积累和多项原创成果。

团队的技术路线,竟也和Sora的高度一致。

全球首个低碳、高性能多语言LLM

此外,全球首个低碳、高性能、低幻觉多语言大模型Tele-FLM,由北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)在今天正式联合发布——所有核心技术、权重、训练过程中的各种细节全面开源。

520亿参数的Tele-FLM在2T token的数据上,用时2个月完成训练。

值得一提的是,据Meta3官网信息,Llama 3-70B模型的训练,可能使用了近5万块H100。而Tele-FLM仅用了896×A800的算力,完成了训练。

此外,模型训练过程还对数据质量进行严格把控。

通过使用高质量的中文数据,虽然只占30%,但Tele-FLM的中文能力明显超越了对标的模型,取得了领先的成果。

未来,还将推出千亿、六千亿、甚至万亿参数版本,而且都将全部开源,供所有人使用。

顺便提一句,会上最精彩的部分,莫过于机器人上台表演了。

看看来自宇树科技的这只机器狗,倒立行走,简直太飒了。

除了颇有前沿范儿的技术成果发布,人工智能主题日上,国内大佬的演讲也是干货满满。

大佬演讲精彩亮点

北大教授、中科院院士鄂维南的演讲,让我们重新审视,大模型+大数据库相结合的价值所在。

如今,我们能够畅想人工智能的未来,那都是因为有一个最基本的工具——深度学习。

其实,深度学习很早就诞生了。

但真正将其带向世界,释放出重大威力的标志性事件便是——2012年,Hinton和两位学生训练的大型深度神经网络一举赢得ImageNet大赛。

每个人都知道,若想开展机器学习研究,需要有三个最基本的工具:

一是模型工具,借助诸如Pytorch、TensorFlow、MindSpore等工具,AI开发者才能写出深度神经网络。

二是算力工具,当然非GPU莫属,再结合CUDA这样的架构,实现高效的算力利用率。

三是数据工具。

现在,全世界包括OpenAI、谷歌等在内的公司,都希望获取高质量的数据。同时,数据稀缺已然成为LLM训练的一大难题。

也正是在数据这个领域,现在的发展还不是很成熟,缺少可以利用的工具。

对于数据的处理,大家还是主要凭经验,没有一个完整的系统,去解决这一问题。

其中,「非结构化数据」处理,是机器学习方法的主要困难之一。

如果我们可以将文本、视频之类的数据,能够将其放在一个表格当中,那将会大大降低ML门槛。

就在这个月初,国际上第一个AI「非结构化数据库」MyScale正式宣布开源。

通过自研高性能和高数据密度的向量索引算法,成为目前综合性能最好,功能最强的AI数据库。

LLM+大数据双轮驱动

那么,现在有了如上这些能力,接下来可以做什么?

或者说,下一个技术路线是什么?

当我们将所有数据放在「数据库」中,基于此,就可以构建各种各样的小模型,由此产生了「模型库」。

最后,就可以通过操作系统对模型进行调度。

这样的优势在于,不仅可以将所有结构化数据,以及非结构化数据,放在同一个数据库中,还能通过常见的SQL语言实现搜索查询。

此外,还可以很高效地训练出小样本的数据模型。与训大模型不同,训练小模型,如何选取数据是非常困难的。

比如针对自动驾驶场景,无用样本只会影响模型的效率和精度问题。

有了AI数据库,就可以快速获取相应的样本数据,比如红灯、左转弯等。

由此一来,训练后的自动驾驶模型,准确率可以提升50%-90%。

除此以外,模型管理平台,可以提供对模型全周期的管理。

一个很典型的场景是——政府智慧城市管理,以前遇到的是数据孤岛的难题,到现在的模型孤岛。

每个企业基于不同的模型做一个应用,由此带来的问题是,正度很难实现全面、方便快捷的管理。

而云平台的出现,可以让企业基于此做低门槛的开发,根据需求即可调用成千上万的模型。

而现在,大模型诞生可以大大提升基础AI能力,还有可以实现具体任务的Agent。

接下来,就可以在原来框架下稍作改动:

- 小模型改成Agent

- 模型生产平台以预训练模型作为基座

另一方面,模型操作系统可以将模型和任务完成对接。

比如,把政府的需求梳理后,针对每个需求去做一个模型,结果就会产生很多模型。甚至一个需求,需要做不同的模型。

然而,针对复杂场景,模型操作系统却很难将模型和任务完成对接。

鄂维南院士表示,「这恰恰是未来大模型能够提供的真正的核心能力——一个能完全将模型和任务匹配的操作系统」。

另外,大模型还可以和大数据库进行结合。

比如,鄂维南院士预告的团队成果——Science Navigator平台。

它是将所有理工科的文献塞到一个数据库里,由此训出的文献大模型,具备了查询文献、提供论文写作灵感等能力。

未来,还可设想将国家图书馆所有资料塞进数据库中,让模型释放出更大的潜力。

总而言之,想要训出优质大模型,构建一个高效的数据处理的系统,是关键所在。

光电智能计算登上Nature

接下来,是中国工程院院士、中国人工智能学会理事长戴琼海对于光电智能计算方面的介绍。

要说大模型再发展下去,面临的最大危机是什么?

大家都知道,答案无疑就是算力和电力的巨大缺口了。

如今,GPT系列的研究,已经累计投入了超过30亿美元。

AI模型的耗电,实在是太猛了!

ChatGPT每天的能耗高达70万美元,而在十年内,大模型计算将消耗我国每年发电量的5%到10%!

黄仁勋、Sam Altman、马斯克等大佬,也都纷纷预言:下一波AI消耗的电力将远远超过预期,能源系统难以应对。超级AI,将成电力需求的无底洞!

如今的主流通用芯片就是GPU,此外还有延长线,即专用芯片,这些都是基于电子电路的发展。

而第三条路,就是新型的计算架构,比如量子计算、存算一体、光电计算。

能否从电子电路,改变成光的载体?1966年,「光纤之父」高锟打开了光通信的大门。

不过有一个问题是:功耗下来了,算力却一直提不上去。

为此,我国在国际上第一个提出了一个,大规模可重构衍射计算处理器(DPU)。

在架构突破上,我国团队首次提出了光-电-光融合可重构计算方法;在非线性突破上,首次提出了光电探测非线性激活函数。

光电之间的ADDA转换,要花费巨大的功耗,这就是一个最重要的瓶颈。

在此基础上,团队提出了光电混合全模拟的智能计算架构,研制了ACCEL芯片,突破了光电模数的转换瓶颈,直接让系统级能效提升了百万倍!

这项研究去年已在Nature上发表,同样属于中关村创新成果。

如今,ACCEL芯片已经在很多任务级开展了工作,让能耗大大下降。

相比英伟达A100,ACCEL芯片让系统级算力提升了3个数量级,能效提升了6个数量级。

在国际上的整个光芯片领域,都处在最前沿。

不过,真正的大模型训练和推理,还是存在一个关键的问题:深度网络做不了深,层数就非常有限。

于是,团队又提出了一个新的架构——大规模智能光计算芯片「太极」。

电子的深度网络架构可以做一百层、两百层,但光却做不了深,怎么办?

团队的办法是,化「深」为「广」,其中有干涉也有衍射,用干涉来做广,用衍射来做深,这就把以前的深度架构改成了拉伸的架构。

横纵结合,是为太极。

两种光性质结合在了一起,就建立了任务编码宏观拆分机制。具有「广度」的光神经网络,就能支撑复杂的智能任务。

甚至能做100多层的深度网络。

而下图中的蓝色线条,即为衍射。干涉和衍射,就像乐高拼玩具一样,拼在一起,就可以做大模型的光计算应用。

大规模的太极光计算芯片,完全可以支持现在的图像分类、多种音乐风格的生成。

在未来5G和智慧城市结合,会带来庞大的瞬时数据通道,让端侧处理面临着严峻挑战。

比如下面这个超大的视频,如果由A100来跑,还需要8台到10台以上才可以。而光芯片只需要一台,就可以进行这方面的应用了。

因此,光电智能计算,可以支撑智慧城市、智能安防等产业链。

未来, 团队还计划构建一个光算力实验室,总之,太极芯片非常有望实现工业场景的应用。

海淀区优势聚集

以上重磅成果,恰好都诞生在海淀。为什么?

仔细分析可以知道,这种现象是一种必然。

人才+生态

在海淀,汇集了高密度的人才和生态土壤。

要说海淀区的AI人才浓度,说一声全国TOP 1应该不算过分。

在这里,汇聚起了1.23万人工智能学者,和89位AI2000全球顶尖学者。

全国AI人才看北京,北京AI人才看海淀。

已经「出厂」的人才,密密麻麻地分布在海淀的近千家企业。海淀的AI企业,直接占全北京的2/3,全国的1/5。

还在校的人才,也正紧锣密鼓地培养中。

全海淀的37所高校中,设立AI专业的高校,就高达21所。

人才、企业、算力基础设施布置,海淀是妥妥的一条龙布局。

说一声AI建设创新策源地和产业高地,海淀区是当之无愧。


更新时间 2024-04-28