​微软的Copilot + PC 是革命性产品吗?

2024-05-30 16:52 来源:网络 点击:

微软的Copilot + PC 是革命性产品吗?

文 | 坚白鸣

2023 年 3 月,微软推出第一款生成式 AI 意义上的 Copilot(副驾驶)——面向 CRM(客户关系管理)、ERP(企业资源规划)的 Dynamics 365 Copilot。此后,一系列基于原有产品的 " 副驾驶 " 接连发布,令人眼花缭乱:Microsoft 365 Copilot、Windows Copilot、Microsoft Security Copilot、Power Platform Copilot ……从命名规则看,主次分明,Copilot 是辅助存在。

现在,这场声势浩大的改造运动烧到了 PC(个人电脑)本地端。今年 5 月下旬,在一年一度的 Bulid 开发者大会前一天,微软定义了 PC 新形态—— Copilot + PC。惯常作为后缀存在的 Copilot 被提格至前端,是微软对于副驾驶作用前所未有的强调,透露着以人工智能接管 PC 的雄心。

难言惊艳:技术和硬件的简单演化

首批发布的两款 Copilot + PC —— Surface Pro 11、Surface Laptop 7,将大模型落地 PC 本地端,能够实现实时 " 读屏 "、" 召回一切 ",以及相对常规的文生图、翻译等 AI 功能。

部分功能让人眼前一亮,但从产品概念及功能形态的角度,其实难言惊艳,更多的是基于现有技术及硬件的简单演化。

根据现场演示,新款 PC 中的 Copilot 能够 " 看懂 " 屏幕上正在显示的游戏画面,并可基于自身理解实时提供操作建议,这相当于在电脑中内置了一个永远不厌其烦的游戏专家,而且所能提供的建议是开放式的,远远超出了只有固定剧本的 NPC(非玩家控制角色)概念。这样的功能确实令人耳目一新,但这是 Copilot 抢先接入云端 OpenAI GPT-4o 的结果,本质上其实只是 GPT-4o 的最新用例。

相比之下,可以召回一切的 "Recall" 是 Copilot 本地原生功能。它的原理是在电脑运行期间,每隔几秒钟捕捉一次屏幕快照,并持续堆积至电脑硬盘,以备你在以后某个时间根据模糊的记忆找到它们。由于有 PC 本地端大模型的加持,召回的过程超越了常规精准检索,从而更加便捷高效。不过,在产品概念层面,Recall 与 Windows 过去放弃的 " 时间线 " 并没有本质不同,只是实现方式上加入了 AI 技术。而 Mac 平台上的部分第三方应用如 Rewind,同样也能实现相似功能。

为了将 AI 能力本地化,微软为 Copilot + PC 配备了强大的 AI 芯片——高通骁龙 X Elite 和骁龙 X Plus,它们集成了 CPU、GPU、NPU 三大处理器模块,总算力达到 75 TOPS,其中专门用于 AI 计算的 NPU 算力即达到 45 TOPS,甚至高于竞品芯片的总体算力,比如英特尔去年 12 月发布的 Meteor Lake,提供 34 TOPS 的 AI 整体算力。

但这并不是 PC 设备首次搭载 AI 芯片,也不是微软首次为旗下 PC 产品配备 AI 芯片。去年 12 月,与英特尔发布 Meteor Lake 同步,联想已推出两款搭载该芯片的 PC 产品,而今年 3 月,微软同样跟进发布配置该芯片的新款 PC —— Surface Pro 10 商用版和 Surface Laptop 6 商用版。不过,按照微软的定义,两个月前的这两个版本不属于 Copilot+PC,因为它们的 AI 芯片的算力没有达到 40 TOPS。

但按照业界的基本共识,硬件性能的差异并不构成 AI PC 的真正区隔,判断一款 PC 是否是 AI PC 的终极标准,是能否提供基于本地端的大模型的 AI 服务。

市场研究机构 IDC 在《AI PC 产业 ( 中国 ) 白皮书》提出,AI PC 的发展是一个不断演进的过程,应分为 AI Ready 和 AI On 两个阶段。其中,AI Ready 阶段是硬件准备阶段,主要对应 PC 端芯片计算架构的升级以及由此带来的 AI 算力的提升,主要体现为集成了 NPU 计算单元的 CPU 陆续推向市场,以更高的能效比实现计算速度的提升,并在运行过程中具备更高的稳定性和可靠性,为大模型落地本地端打下基础。AI On 阶段是大模型开始在 PC 本地端运行,并与云端大模型高效协同,在核心场景提供划时代的 AI 创新体验,甚至能够基于个人数据和使用历史,在边缘私域环境下实现个人大模型的微调训练,最终实现个性化的 AI 服务。

Copilot + PC 将大模型落地至 PC 本地端,突破了以往 PC 仅能通过云端大模型获取 AI 服务的局限。这对于微软旗下 PC 产品而言,无疑是划时代的。但这同样不是大模型首次落地 PC 本地端。今年 4 月,联想发布 6 款 AI PC,其中内置了基于阿里巴巴 70 亿参数大模型开发而来的个人助理 " 联想小天 "。这些产品在微软发布 Copilot + PC 前一天已正式开售。

但与联想作为全球第一大 PC 厂商内置单一大模型不同,微软作为全球第一大 PC 操作系统厂商,选择的则是多模型方案,Copilot + PC 内置的大模型数量多达 40 个。这或许才是微软此次重新定义 AI PC 的最大看点。整机厂商与系统厂商被认为是推动 AI PC 演化的关键力量,两者在落地大模型范式上的分野,或将产生深远的影响。

背离梦想:40+ 小模型的拼盘

在保护个人隐私之外,加速大模型从云端落地终端的另一大驱动力是成本。云端大模型普遍千亿级的参数,意味着高昂的推理成本。将推理环节下放至终端,则相当于让终端用户平摊成本,其中包括服务器成本和电力成本。

但落地终端同样要考虑成本,其中真正的难点,在于如何在用户可接受的硬件价格之内,实现具备吸引力的 AI 体验。这就要求在保证大模型 AI 能力的前提下,尽可能缩减模型的参数规模。目前市面上有两大实现路径,其一是通过萃取将大参数模型压缩,比如联想的方法是,先对大模型中的关联子结构进行识别,并评估其重要性,然后按照重要程度进行裁剪和量化。高通此前将文生图大模型 Stable Diffusion 装进手机端,也用了相似的方法,高通 CEO 安蒙(Cristiano Amon)认为,如果模型训练良好,准确率就不会随参数减小而同等幅度下降。

另一种方案是从头训练小模型。为了在小参数体量的情况下提升模型的能力,不同的科技公司采用了不同的策略,比如 Meta 选择 " 加量 ",持续打破大模型训练的 Scaling Laws,给模型投喂了更多的数据,在训练 80 亿参数的 Llama 3 时,Meta 把训练数据提升至 15 万亿 Token(15 万亿个词),作为对比,Google 70 亿参数的 Gemma 模型用了 6 万亿 Token。

而微软则更注重 " 提质 "。去年 6 月,微软首次发布了轻量级语言模型 Phi-1,并提出了 " 教科书是你所需要的一切 "(Textbooks Are All You Need)的数据筛选原则,据媒体报道,它甚至使用 GPT-4 生成的高质量数据来训练自己的小模型。今年 4 月,微软将这款语言模型更新到 Phi-3,按照参数规模分为三个版本,分别是 38 亿的 Phi-3-mini、70 亿的 Phi-3-smal、140 亿的 Phi-3-medium。5 月份,微软在 Build 大会上又发布了参数量为 42 亿的 Phi-3-vision,该版本是基于语言模型 Phi-3-mini 开发的多模态模型,增加了执行图像任务的能力。

但微软并未将这四个版本直接用于 Copilot + PC,而是另外开发了一个轻量级模型 Phi-Silica,用于新版 PC 的智能搜索、实时翻译、图像生成和处理等任务。而 Phi-Silica 只是 Copilot + PC 中附带的多达 40 个端侧 AI 模型中的一个。

这表明,尽管微软早在去年 6 月即开始押注更适合终端部署的轻量级模型,而且实现了快速迭代,但截至目前并没有开发出可以独立承担 PC 端 AI 功能的小模型,而为了实现微软所认为的 AI 功能,需要引入多达 40 个模型。

当然,这并不意味着现存轻量级模型真的没有一款可以独挑大梁,微软选择采用拼盘的模式,或许是希望将关键技术攥在自己手中,毕竟这些模型需要深植于 Windows 内部,未来将成为其核心。但作为目前市占率高达 70% 的全球桌面操作系统厂商,微软的拼盘战术,无疑将产生巨大影响。

微软重新定义的 AI PC 获得了主流 PC 制造厂商的支持,在微软的发布会上,联想、宏碁、华硕、戴尔、惠普等纷纷响应,宣布推出对应的 Copilot + PC 产品。首批产品包含 20 多款型号,将于 6 月上旬陆续出货。与此同时,微软在 Build 大会上还推出了 "Windows Copilot Runtime" 工具套件,支持开发者利用 Windows 内建的 40 多个 AI 模型,催生出全新的应用程序体验。未来随着 Copilot + PC 逐步放量,一个基于拼盘模式的 AI 生态也将逐步建立。

然而,这种基于 " 拼盘 " 的生态,或许正在背离微软的梦想。在刚刚过去的微软 Build 2024 开发者大会上,微软 CEO 萨蒂亚・纳德拉(Satya Nadella)说,三十多年来,微软对于计算机一直有两个梦想,首先是让计算机理解我们,而不是我们去理解计算机。在发布最新款 Copilot + PC 时,他又强调,微软做的不仅是可以理解我们的电脑,更是可以预测我们想要什么的电脑。

充分理解进而精准预测的前提,毫无疑问是获取全面的用户行为信息,然后再根据这些个性化的数据对个人大模型不断地进行微调训练。某种意义而言,这需要大模型具备上帝视角,它可以俯瞰用户的一切。但如果是调用多达 40 个模型来提供服务,那么必然意味着用户的数据信息将散布在 40 个模型之中,随之而来的则是,每个模型对于用户的理解和预测都将是片面的。

从这个角度来看,微软目前选择的策略,或许只是大模型落地 PC 端的权宜之计,是在端侧大模型独立性能欠佳的现状下,不得不采用的过渡策略。而随着大模型落地端侧的潮流持续推进,它最终会被取代。但也有可能,它将成为一种范式,从而奠定了 AI PC 模型端的基本架构。一切还要静等潮流继续演化。