对话蜜度CTO刘益东：价格战、MoE......中国AI大模型下一步“卷”什么？

2024-07-06 06:46 来源：网络点击：

对话蜜度CTO刘益东：价格战、MoE......中国AI大模型下一步“卷”什么？

7 月 4 日 -6 日，2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海召开。

作为国内在政务领域开展 AI 大模型的公司，蜜度科技股份有限公司（MIDU，以下简称 " 蜜度 "）今年在 WAIC 期间发布自研的蜜巢 3.0 大模型，支持 MoE（专家混合）架构，在预训练、微调与 RLHF 阶段分别新增 200 亿、10 万、1 万高质量语料数据，并且从训练到推理全流程融入国产化软硬件生态，为客户提供安全可控的落地解决方案。

会前独家对话时，蜜度首席技术官（CTO）、蜜度蜜巢总裁刘益东对钛媒体 App 表示，基于去年政务垂类的蜜巢 2.0 模型，今年 3.0 模型更加注重落地场景的针对性训练，利用 MoE 架构实现细分场景的业务应用，用更泛化的系统解决 20 多个场景的实际问题。他指出，从整体来看，蜜巢 3.0 MoE 模型的性能提升 10% 左右，而更大的效果提升将体现在基于高质量数据集、多任务架构和全流程国产化的新模型所广泛应用的落地场景当中。

蜜度 CTO、蜜度蜜巢总裁刘益东

据悉，蜜度成立于 2009 年，是一家以 AI 技术为核心的语言智能和垂直大模型企业，专注于多模态、多语言智能科技，利用跨模态检索（CMR）、多语言校对（MLC）、计算机视觉（CV）、自然语言处理（NLP）、知识图谱（KG）等技术，为政府、媒体和企业各类场景提供 AI 产品以及 "AI+" 解决方案。

2015 年，蜜度获新浪微博股权投资；2020 年公司获人民网旗下投资基金的股权投资。

2023 年，蜜度完成股改，并发布蜜巢政务大模型、文修智能校对大模型，并于 2024 年初，蜜巢、文修两个垂直大模型均完成备案。与此同时，蜜度还与华为昇腾深度合作，目前蜜度已使用华为基础设施产品展开业务商业落地。

去年 WAIC 发布蜜巢大模型时，刘益东向钛媒体 App 直言，团队一直致力于打造优质数据构建、数据训练输出能力，以此形成 ChatGPT、DALL · E 2 这类产品体验。而与 GPT 不同的是，蜜巢大语言模型更多用于政务、媒体行业等垂直领域，并非 ChatGPT 这种千亿级通用大模型。（详见钛媒体 App 前文：《蜜度推出自研行业大模型蜜巢系列》）

而相较于蜜巢 2.0，蜜巢 3.0 主要新增 3 个核心点：首先，蜜巢 3.0 在预训练、微调与 RLHF 阶段分别新增 200 亿、10 万、1 万高质量语料数据，进一步提升模型输出内容的专业性、精准度与安全对齐能力，使其在实际应用场景表现增强；蜜巢 3.0 采用 Llama Pro+MoE 架构，在蜜巢 2.0 基础上采用 Llama Pro 架构训练，并进一步将其扩展为 MoE 架构进行训练，让其具备处理多种复杂领域任务的能力；此外，蜜巢 3.0 从训练到推理全流程融入国产化软硬件生态，为客户提供安全可控的落地解决方案。

那么，在大模型 " 价格战 " 和 MoE、多模态等技术不断延展下，国内 AI 大模型下一步应该 " 卷 " 什么？

刘益东表示，大模型应用已经进入到了 " 白热化 " 阶段，一部分在打造自己的模型优势，另一部分可能在同质化基础上 " 卷 " 价格战。比如 230 多个大模型公开招投标结果当中，很多头部大厂的解决方案已经下探到百万、甚至数十万以下，因此，To B 大模型的确进入了一个非常内卷的阶段。

" 相对于其他的基座模型，我们主要针对的是注重安全、国产本地化部署的政务垂直场景，我们认为还是能够去很好地满足客户想要的东西，并且我们的服务响应还是很及时的。那么，我们希望在这样的一个‘内卷’阶段，能够用比较优质高效的服务去打动我们的客户，从而能够在某几个场景实现规模化，后续边际成本才有可能是越来越低的，我们的竞争力就起来了。" 刘益东对钛媒体 App 表示。

但与此同时，刘益东也坦言，相较于传统 AI 时期，近两年，国内大模型热潮一下子完成了整个市场的教育，导致客户对于 AI 的预期拉的很高。

" 所以，现在我们遇到的客户需要我们要去做两类预期管理：一是说明大模型要做的工作是否能达到客户想要的效果，是一步到位还是有更多的工作要做；二是蜜巢聚焦的方向主要是智能知识管理、文稿智能写作和智能舆情分析，所以客户需要了解这三个核心能力能够解决什么业务场景，如何在某一些能力、某些场景上能够实现大模型的规模化落地，这个才能形成持续的成本和收益交叉点。" 刘益东表示。

刘益东指出，下一步，蜜度将计划推进多模态的大模型应用，科研团队正探索在蜜度已知场景、客户效能提升等方面，多模态大模型能够发挥怎样的作用。" 这一部分研发是探索的路，我们有专门的同事在跟进。"

谈到是否相信 Scaling Law（规律效应）的发展，刘益东坦言，无论是基础模型，还是垂直模型，目前都在遵循 Scaling Law 的落地，这是一个指引性规律，所以至少从定量角度来说已经被证明（正确）了。

刘益东强调，" 我们一定要找到一些比较垂直的场景，实现规模化落地的场景解决方案。因为如果纯粹去追求技术前沿发展，那就背离了我们商业的本质，我们的技术研发最后是要赋能客户，给客户带来价值，从而给企业自身带来价值。"

在刘益东看来，当前中美 AI 存在的差距很难用时间来估算。而对于蜜度本身，更像是在做 " 爬坡 " 阶段，通过小的行业场景切入，推动大模型技术落地、场景标准化和规模化。" 这个过程中‘爬山’就是最辛苦的时候。一旦在 3-5 个场景跑通，以及获得语料数据的积累，可能慢慢速度就会快起来，之后与别人的差距可能慢慢拉大，优势就出来了。"

" 大模型技术绝对降低了人与机器打交道的门槛，可完全用自然语言交互，让更多智能体连接等方式解决更多需求。所以从这个角度上来说，大模型促使我们实现一个 AI 效率工具时代，从而普及到更多的人，推动 AI 产业革命。" 刘益东表示。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）