​对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?

2024-07-06 06:46 来源:网络 点击:

对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?

7 月 4 日 -6 日,2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)在上海召开。

作为国内在政务领域开展 AI 大模型的公司,蜜度科技股份有限公司(MIDU,以下简称 " 蜜度 ")今年在 WAIC 期间发布自研的蜜巢 3.0 大模型,支持 MoE(专家混合)架构,在预训练、微调与 RLHF 阶段分别新增 200 亿、10 万、1 万高质量语料数据,并且从训练到推理全流程融入国产化软硬件生态,为客户提供安全可控的落地解决方案。

会前独家对话时,蜜度首席技术官(CTO)、蜜度蜜巢总裁刘益东对钛媒体 App 表示,基于去年政务垂类的蜜巢 2.0 模型,今年 3.0 模型更加注重落地场景的针对性训练,利用 MoE 架构实现细分场景的业务应用,用更泛化的系统解决 20 多个场景的实际问题。他指出,从整体来看,蜜巢 3.0 MoE 模型的性能提升 10% 左右,而更大的效果提升将体现在基于高质量数据集、多任务架构和全流程国产化的新模型所广泛应用的落地场景当中。

蜜度 CTO、蜜度蜜巢总裁刘益东

据悉,蜜度成立于 2009 年,是一家以 AI 技术为核心的语言智能和垂直大模型企业,专注于多模态、多语言智能科技,利用跨模态检索(CMR)、多语言校对(MLC)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等技术,为政府、媒体和企业各类场景提供 AI 产品以及 "AI+" 解决方案。

2015 年,蜜度获新浪微博股权投资;2020 年公司获人民网旗下投资基金的股权投资。

2023 年,蜜度完成股改,并发布蜜巢政务大模型、文修智能校对大模型,并于 2024 年初,蜜巢、文修两个垂直大模型均完成备案。与此同时,蜜度还与华为昇腾深度合作,目前蜜度已使用华为基础设施产品展开业务商业落地。

去年 WAIC 发布蜜巢大模型时,刘益东向钛媒体 App 直言,团队一直致力于打造优质数据构建、数据训练输出能力,以此形成 ChatGPT、DALL · E 2 这类产品体验。而与 GPT 不同的是,蜜巢大语言模型更多用于政务、媒体行业等垂直领域,并非 ChatGPT 这种千亿级通用大模型。(详见钛媒体 App 前文:《蜜度推出自研行业大模型蜜巢系列》)

而相较于蜜巢 2.0,蜜巢 3.0 主要新增 3 个核心点:首先,蜜巢 3.0 在预训练、微调与 RLHF 阶段分别新增 200 亿、10 万、1 万高质量语料数据,进一步提升模型输出内容的专业性、精准度与安全对齐能力,使其在实际应用场景表现增强;蜜巢 3.0 采用 Llama Pro+MoE 架构,在蜜巢 2.0 基础上采用 Llama Pro 架构训练,并进一步将其扩展为 MoE 架构进行训练,让其具备处理多种复杂领域任务的能力;此外,蜜巢 3.0 从训练到推理全流程融入国产化软硬件生态,为客户提供安全可控的落地解决方案。

那么,在大模型 " 价格战 " 和 MoE、多模态等技术不断延展下,国内 AI 大模型下一步应该 " 卷 " 什么?

刘益东表示,大模型应用已经进入到了 " 白热化 " 阶段,一部分在打造自己的模型优势,另一部分可能在同质化基础上 " 卷 " 价格战。比如 230 多个大模型公开招投标结果当中,很多头部大厂的解决方案已经下探到百万、甚至数十万以下,因此,To B 大模型的确进入了一个非常内卷的阶段。

" 相对于其他的基座模型,我们主要针对的是注重安全、国产本地化部署的政务垂直场景,我们认为还是能够去很好地满足客户想要的东西,并且我们的服务响应还是很及时的。那么,我们希望在这样的一个‘内卷’阶段,能够用比较优质高效的服务去打动我们的客户,从而能够在某几个场景实现规模化,后续边际成本才有可能是越来越低的,我们的竞争力就起来了。" 刘益东对钛媒体 App 表示。

但与此同时,刘益东也坦言,相较于传统 AI 时期,近两年,国内大模型热潮一下子完成了整个市场的教育,导致客户对于 AI 的预期拉的很高。

" 所以,现在我们遇到的客户需要我们要去做两类预期管理:一是说明大模型要做的工作是否能达到客户想要的效果,是一步到位还是有更多的工作要做;二是蜜巢聚焦的方向主要是智能知识管理、文稿智能写作和智能舆情分析,所以客户需要了解这三个核心能力能够解决什么业务场景,如何在某一些能力、某些场景上能够实现大模型的规模化落地,这个才能形成持续的成本和收益交叉点。" 刘益东表示。

刘益东指出,下一步,蜜度将计划推进多模态的大模型应用,科研团队正探索在蜜度已知场景、客户效能提升等方面,多模态大模型能够发挥怎样的作用。" 这一部分研发是探索的路,我们有专门的同事在跟进。"

谈到是否相信 Scaling Law(规律效应)的发展,刘益东坦言,无论是基础模型,还是垂直模型,目前都在遵循 Scaling Law 的落地,这是一个指引性规律,所以至少从定量角度来说已经被证明(正确)了。

刘益东强调," 我们一定要找到一些比较垂直的场景,实现规模化落地的场景解决方案。因为如果纯粹去追求技术前沿发展,那就背离了我们商业的本质,我们的技术研发最后是要赋能客户,给客户带来价值,从而给企业自身带来价值。"

在刘益东看来,当前中美 AI 存在的差距很难用时间来估算。而对于蜜度本身,更像是在做 " 爬坡 " 阶段,通过小的行业场景切入,推动大模型技术落地、场景标准化和规模化。" 这个过程中‘爬山’就是最辛苦的时候。一旦在 3-5 个场景跑通,以及获得语料数据的积累,可能慢慢速度就会快起来,之后与别人的差距可能慢慢拉大,优势就出来了。"

" 大模型技术绝对降低了人与机器打交道的门槛,可完全用自然语言交互,让更多智能体连接等方式解决更多需求。所以从这个角度上来说,大模型促使我们实现一个 AI 效率工具时代,从而普及到更多的人,推动 AI 产业革命。" 刘益东表示。

(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)