旷视实战大模型：把多模态扎进行业

距离ChatGPT、GPT-4等引爆新一轮人工智能变革的时刻，已经过去了整整一年的时间。在这一年里，国内外大量公司涌入大模型的“斗兽场”，加速大模型技术的迭代与跃迁。

大模型前所未有的通用任务处理能力，让所有人看到了解锁更多应用场景的可能性。各行各业开始从自身业务出发，探索与大模型结合的可能性，对大模型的渴求远胜以往。

但在这喧嚣的背后，越来越多的业内外人士开始冷静思考这样的问题：

大模型能做什么？大模型何时变现？

置于中国独特的技术创新土壤，这是一道难以回避的命题。

△图：由DALL·E 3生成

中国AI行业经过多年发展，虽然在生物识别、工业机器人、自动驾驶这样的领域，取得了一定程度的突破，但真正被技术颠覆、大规模落地的产品和应用并未出现。

过去在小模型时代没有解决的难题，会随着大模型的到来迎刃而解吗？

作为国内最早一批人工智能创业公司，旷视经历过AI技术创新和商业化探索的起起伏伏。面对大模型引爆的新一轮AI浪潮，旷视是如何看待和布局的？

锚定多模态大模型

“从技术演进看，无论是之前的AlphaGo，还是如今的大模型，本质上都是深度学习的延续。这轮人工智能技术的发展浪潮只有一项核心技术能力，那就是深度学习。”旷视联合创始人、CEO印奇表示，从CNN、ResNet到Transformer，深度学习是底层最核心的技术主轴。

大模型的爆发，源于学术界和产业界过去十几年在NLP、视觉、语音等深度学习核心领域研究成果的积累，这是一个从量变到质变的过程。

从小模型走向大模型，变化的是模型的规模与性能，不变的是深度学习这条主线。在印奇看来，深度学习引发的创业潮中，虽然很多公司声称自己是AI公司，但大多数还是在做AI行业应用。

旷视从成立开始就一直沿着计算机视觉的方向，坚持做深度学习的基础科研。“旷视在深度学习领域有核心能力积累，这是我们持续引领创新的根基”。

如今，随着大模型技术的跃迁，视觉模型领域呈现出“大”和“统一”的趋势。“大”意味着大数据、大算力和大参数量，“统一”体现在NLP、视觉、语音等模态的融合，以及感知、理解和生成能力的融合。

作为一家以视觉技术见长的AI公司，旷视将视觉模型和语言模型结合，大力发展多模态大模型，实现对多模态信息的综合理解与分析。

印奇表示，旷视的目标从第一天就没有变过，就是走向AGI。而我们的路径也比较明确，就是要软硬结合。多模态大模型是当前最重要的环节，我们会专注这个领域的科研。

△图：由DALL·E 3生成

旷视的研究院团队从很早开始就投入大模型的研究，在视觉技术、底层框架和数据闭环等方面积累了大量基础科研成果和科研人才，为多模态大模型的持续迭代奠定了基础。

旷视提出的多模态大模型，是视觉在走向“大”和“统一”的过程中，与NLP深度结合的产物，是多模态的语言与视觉理解模型。

基于长期积累的行业经验，旷视将⾃⾝多模态⼤模型定位在数⼗亿⾄数百亿参数级别的中⼤模型上。位于这个区间的大模型，本身具备较强的通用属性，同时在行业部署成本、效率以及硬件适配等方面也是更优解。

随着OpenAI Sora模型的问世，多模态大模型近期引燃了各行各业。虽然视频生成是Sora最直观的亮点，但更令人惊叹的是它揭示出多模态模型对于图片、视频等强大的理解能力。

“Sora展现出的是OpenAI在走向AGI的过程中一个重要的中间态技术关键点，我们重点是要理解其底层的技术框架，而不是Sora应用本身。”印奇认为，在图像视频的领域，要将“生成”和“理解”分开来看。

如果将Sora作为独立应用来看，它体现的是生成能力，核心应用场景更偏C端。而旷视会聚焦在感知理解能力上，其多模态大模型是针对图片、视频、文字等不同模态，综合实现感知、理解和推理的引擎。

旷视会更专注于理解能力上，并在此基础上面向2B业务打造行业应用。相信多模态大模型一定能解锁更多的行业应用场景。

把多模态大模型扎进行业中去

尽管行业内外对于大模型的期待颇高，但一个普遍的行业共识是，目前的基础大模型对于需求多元化的行业不具备广泛的适用性。

在将大模型能力迁移到各行各业的过程中，不可避免会遇到复杂的场景需求。企业用户在评估大模型的时候，会综合考量应用场景、数据安全、升级维护和成本效益等因素。

对于大模型公司而言，这就意味着有大量“最后一公里”的工作要做，例如场景技术匹配、端到端部署、软硬件适配和安全性等。

在印奇看来，随着大模型时代的到来，“最后一公里”的效率会大幅提升、成本会显著下降。但是，行业落地“最后一公里”的问题仍然存在。他表示，旷视的路径选择，是要坚定地走B端商业化的路径。

△图：由DALL·E 3生成

对于B端业务而言，仅仅凭借基础大模型是难以切实落地的，ROI很难转正。因此，旷视会重点推动多模态大模型在行业的应用，切入行业去做行业大模型。

大模型应用到具体行业，需要端到端的方案，门槛并不低，必须具备对于模型、系统、数据和行业的综合理解能力。

首先，从技术角度看，绝不是将开源模型稍微调整一下就好，必须具备端到端的大模型能力。

其次，从行业角度看，本质上还是要以客户为中心，与客户共创行业大模型。行业know-how的积累，在大模型时代依然是稀缺的能力。

多年来，旷视服务了众多的行业头部客户，在重点行业积累了专业的知识与经验。目前，旷视正在与金融、运营商、手机、智能汽车等领域的客户一起，推动大模型在行业的落地。

“目前走得比较快的还是金融行业。”旷视科技资深副总裁、云服务事业部负责人赵立威解释道，“从去年年中开始，我们服务的一些金融类的客户就开始大模型探索了。因为它们本身具有一定的基础能力储备，再加上对新技术敏感，因此对创新的渴求异常迫切。”

赵立威表示，大模型在像金融行业这样典型的数据密集型、知识密集型行业一定大有可为。在他看来，从实际效果来看，大模型在短期内“增效”的效果要大于“降本”，也更能为客户所接受。

但是，大模型要做到行业增效，是一项异常复杂的工程。很多行业客户基于大数据、ERP、CRM等传统IT能力，已经形成了标准业务流程。

如果仅仅是将大模型简单地替换原有的IT体系，增益将会非常有限。只有充分理解已有的业务需求和逻辑，颠覆以往的业务流程、组织关系甚至是决策体系，才能发挥大模型在增效方面的作用。大模型落地，绝不是简单的技术问题，而是复杂的业务问题。这一轮大模型的落地，一定是要与客户共创才能实现。

目前，围绕金融行业，旷视正在与银行、保险等客户合作，在金融风控、智能客服、文档/代码写作、图文分析、市场营销等业务场景进行大模型的探索。

赵立威表示，“今年肯定是一个从0到1的过程，最重要的还是从重点客户入手，找到一些适合大模型的业务场景，并实现业务闭环。这是我们的第一优先级。”

大模型多模态深度学习 sora 端到端 nlp 人工智能 dall·e dall·e 3 业务流程商业化视觉模型技术创新 ai行业 openai 大数据 gpt 智能客服自动驾驶 erp