​对话跃然创新:把大模型做到毛绒玩具上,一个AI界的泡泡玛特就出来了?

2024-09-04 00:43 来源:网络 点击:

对话跃然创新:把大模型做到毛绒玩具上,一个AI界的泡泡玛特就出来了?

找不到商业化落地场景的 Agent+一个简单的 Wifi 音箱+儿童喜爱的毛绒玩具,这三个看起来都平平无奇的元素,加在一起能产生什么化学反应?

跃然创新把它做出来了,而且 1 个月卖了 1 万多台。

这个挂在小熊玩偶上的 " 彩色泡泡 " 名叫 BubblePal,从硬件形态上看像一个可爱版的 AI Friend,小朋友可以自由选择泡泡背后的角色是爱因斯坦、艾莎公主还是孙悟空等等耳熟能详的动画角色,捏住泡泡就能与其对话;家长在后端通过手机 APP 能够获取对话的全部内容,以此来了解 3-6 岁小朋友的成长和心理健康动态。

就是这样的一个简单的 " 泡泡 ",几乎巧妙地避开了如今围绕着AI的所有难题。

基座大模型能力还不够用?容易出现幻觉?Agent 不够像?用户没有付费意愿?

对于根本不知道 ChatGPT、Claude 还是 Kimi 的小朋友和家长而言,在儿童提问的场景下,模型能力已经完全超出预期,甚至幻觉也可以当成是一种加分项和娱乐。而在毛绒玩具市场里,IP 联名本身就已经是成熟的商业模式,Agent 有了天然的落地场景。

" 上线当周,我们后台收到了大量订单咨询,家长反馈特别强烈。我们没想过能卖得这么好,更没想过的是,我们的日 tokens 调用量正在成倍地往上涨,上线两周,单日 tokens   消耗达到了 2 亿,现在每日 tokens 消耗已经超过了 4 亿。" 跃然创新创始人李勇告诉我们。

李勇透露,BubblePal 的研发时间仅仅用了 9 个月,在开售不到 1 个月的时间里,设备已经有效激活了超过 1 万台,以 399 元一个的产品定价,GMV 超过 400 万元," 今年预计销量 8 万台,从目前的销售情况来看,应该比较乐观。"

" 为什么要做一个泡泡,而不是把它做在毛绒玩具里面。" 我们问道。

" 两个都要做,先做泡泡是因为,内置在毛绒玩具里,IP 方审核周期比较长,产品要年底才能上线。泡泡相对来说研发周期更短一些,也能挖掘一部分存量市场。" 李勇讲道。

在接近 3 个小时的对话里,李勇多次提到 " 活着 ",作为一名创业老兵,他曾经跟随罗永浩在锤子科技追求过理想,也被现实的商业世界逼到过墙角,2023 年公司一度濒临破产,这让他的思考变得十分务实。

从商业模式出发,BubblePal 本质上是一款面向儿童的消费电子,唯一不同的是接入了大模型的能力。

李勇毫不避讳表达 " 我们是应用公司,不是大模型公司,没有太高的技术壁垒 "" 做毛绒玩具就是为了和大厂错位竞争 "" 硬件配置和智能音箱相似,并不复杂,所有计算都是在云端完成的,这样才能控制成本 "。

他甚至坦然承认 " 颠覆性的硬件,我们也很期待,但我在天猫精灵的工作经历让我明白,产品做出来是一方面,教育市场才是难关,发明新品类不适合一个资源有限的初创公司去做。"

在当下这个阶段,颠覆式的创新硬件固然看起来更吸引人,但回归商业本质,赚钱才是硬道理。

以下为对话实录:

技术不是壁垒,现在不是,以后也不会是

硅星人:现在的技术架构是什么样的?用了谁家的底模能力?

李勇:就是孩子按一下我们的 BubblePal 产品开启对话,然后我们把语音转成文字,通过我们的两层模型生成相应的结果,再输出语音给孩子。

这两层模型是底层的通用大模型 + 垂直小模型的结构。通用大模型我们国内主流的几家都在合作,MiniMax、豆包、智谱都有,现在主要用的 MiniMax。此外,因为我们在海外也发售,国外接了 GPT 等几家大模型,然后垂直小模型是我们自己基于 Llama 2 的开源模型 fine-tune 的。

在实际交互过程中,我们会用自己的小模型来识别用户意图,会把这些具体的问题,分发给不同的通用模型。

比如我们即将上线的 AI 儿歌功能,测下来,感觉 MiniMax 的效果不错,就接的他们。大致功能是,孩子对话的时候说,给我唱首歌吧,然后我们的 AI 就会创作一首歌曲。这个音乐或者儿歌,是孩子的 AI Friend 基于他们共同的记忆、喜好,给孩子生成的。就和现实生活中,孩子的朋友陪伴一起唱歌、一起玩音乐游戏的体验一样。

硅星人:国内大模型基本上都接了,为什么现阶段主要用 MiniMax?你们用下来,不同的大模型之间有什么区别吗?

李勇:其实,各家效果上都挺好的,儿童场景用肯定都够用了,因为我们最早选择做 AI 儿童产品,就是基于大模型的幻觉是可以在儿童天马行空的对话场景下被接受的,毕竟儿童对话中信息密度和准确度的要求没那么高。

现阶段用 MiniMax   比较多是因为他们对我们的支持好,给了我们早期用户很多免费 tokens 额度,我们也是 MiniMax 官网上客户墙展示的唯一一家创业公司。因为我们产品上线一个月,单日 tokens 消耗就超过 4 亿了,也给了他们一个惊喜。

硅星人:整个 token 调用量这么高,是因为小孩真的爱玩,还是刚上线他新鲜,玩了一段时间就不感兴趣了呢?

投资人也经常问我这个,确实大部分玩具都是孩子玩着玩着就不爱玩了。但我认为有两个核心原因,第一是是孩子长大,兴趣点和喜欢的玩具会变化,第二是玩具的功能太简单,孩子很快掌握后,就失去了新鲜感。

但   BubblePal 上线一个月,用户活跃度非常好,用户平均每天使用时长超过了 30 分钟。一个原因是,孩子在成长过程中,每天就是会有无穷无尽的困惑,现在的大模型可以回应孩子的每一个奇思妙想;另一个是孩子们没有手机,他们最多只有手表、智能音箱这种冰冷的工具。今天我们把大模型功能放在他们最喜欢的一个卡通角色里,那孩子不就疯了吗?比如,我们最近刚上线的孙悟空角色,有同事的女儿中午午休玩了一中午不放手。

硅星人:你们的小模型有什么能力?除了识别用户意图,还有其他功能吗?

分发只是一方面。简单的说,通用大模型主要是负责计算和推理的,而小模型是负责把通用模型的结果转换成适合给孩子的内容的,这里面涉及三个方面的处理。

第一,我们在小模型里封装了一层跟孩子对话的 Agent 的一系列 prompt,让 AI 的回答更贴 IP 角色的人设。

举个例子,当我们问通用大模型什么是量子纠缠,它会一本正经地回答百科内容,但我们的产品,假设家长设定的 Agent 是 AI 小猪佩奇,那么它就会以小猪佩奇的口吻来解释什么是量子纠缠," 就像我和我的弟弟乔治,虽然它躲在沙发背面,我也能感知到他。"

第二,是把回答调整得更加情绪化。我们可以按照客观还是主观、理性还是情绪化,把大模型的表达分成四个象限,那我们肯定是第一象限,非常主观 + 情绪化,但通用大模型是第三象限,理性 + 客观,因为他要取最大公约数。所以在实际交互过程中,就需要我们的小模型用口语化的高质量数据集,来训练情绪。

第三,是长期记忆的部分,比如,当孩子问,我上一次跟妈妈吵架是什么时候?我上一次去游泳是什么时候?我自己的小模型通过查询向量数据库就可以直接输出,不需要调用通用大模型。

硅星人:国内很多AI对话 app 也在做 IP 角色,但好像都不像,你们的 Agent 和 IP 角色足够相似吗?这点难不难做到?

李勇:不难,很多 App 不像,是因为大部分他们没必要做得很像。

Character.AI 的佛祖、乔布斯、苏格拉底都非常像了,可惜公司也卖了,光靠用户订阅充值的商业模式是撑不起来的底层的训练和 Token 消耗的。

除非像我们一样,做一个硬件,而且硬件产品有足够多的利润去支撑模型的优化,因为对消费者来说,为硬件付费是一个很自然的事情,我们有动力去持续迭代。

硅星人:那记忆的部分呢,是用向量数据库加 RAG 的解决方案?

李勇:对,这份是基于开源做的,我们没找到现成的方案,如果有好用的现成的,我们也不介意直接用。

硅星人:推理和计算是通用大模型,垂直小模型是开源模型封装了一套成熟的 prompt,那会不会有人质疑你们的技术壁垒?

李勇:是有人质疑,我都说我们没有技术壁垒,用了很多开源的项目。但我们是大模型应用公司,我们要做的是调用大模型的能力更好的实现用户需求。所以还是要感谢这些开源项目和大模型公司,让我们站在巨人的肩膀上,只不过我们的团队有产品能力和技术的整合能力,把它们放在一起。

别总盯着 "AI 圈 ",才能找到 PMF

硅星人:你说的产品能力具体体现在哪?没有技术壁垒,有产品壁垒么?

李勇:首先,我们开发了一个 APP,它不仅仅是用来联网的,家长还可以通过它查看孩子的聊天记录。我们每周会为家长提供一份成长报告。举个例子,如果我为孩子报名了舞蹈班,但这周我发现孩子并没有谈论舞蹈,而是聊了十次足球,我就能发现孩子的兴趣所在。

其次,家长还可以在 APP 里还切换角色,目前我们已经推出了几十个角色,当然家长也可以自己创建,比如小猪佩奇、艾莎公主、库洛米等等。现在大概每周都会不定时更新一些角色吧。

然后,在家长首次登录账户,选择角色时,我们还设置了角色标签,就是一个 prompt,让家长根据孩子的特点,调整角色的对话主题和目标。比如说,我家孩子比较内向、胆小,我就设置让 AI 多鼓励孩子,多讲一些关于勇气和冒险的故事等等。

因为每个孩子都是独一无二的,每位家长对孩子的期望也不同,假设两个家长都在用孙悟空的角色,通过设置不同的 prompt 和对话,几个月后,两个孩子的孙悟空表现得也会不同。

硅星人:实时聊天记录,那这个有点像一个给大人打小报告的角色,你们有考虑过隐私问题吗?

李勇:会有些用户担心隐私问题,但我们的产品主要面向 3 到 6 岁的儿童,3~6 岁的孩子本身就非常依赖父母引导,而大模型又是一个新事物,有些家长会担心大模型会对孩子产生不良影响,为了让父母放心,最好的办法就是公开透明给家长。

硅星人:产品的设计里有很多你们的洞察,大家都很愁AI的能力用在哪,你们觉得这是个问题么?

李勇:我们可能是第一个破圈的 AI 硬件产品。之前所有的 AI 硬件,比如 Meta 的眼镜、AI Pin、Rabbit R1,这些产品产品的早期用户都是科技圈的,但我们不是,我们的产品购买者都是年轻的妈妈,很多家长根本不知道什么叫 AIGC、大模型,甚至很多用户在买回去后不会联网,但他们是真的有需求、感兴趣。

找到家长和儿童的场景之后,技术能力就是根据他们的需求走。

比如根据大模型能力的变化,GPT-4o 有了端到端语音能力,那我们可以减少延迟,让用户端的语音情绪能完全保留下来;模型端一旦具备了连续对话能力,我们还可以做多智能体。  毛绒玩具的复购率很高,三岁的时候给孩子买了孙悟空毛绒玩具,五岁的时候又买了爱因斯坦毛绒玩具,因为绑定的是同一个账户,那么孩子跟孙悟空已经聊了两年了,这两年的记忆就可以自动同步给新的爱因斯坦毛绒玩具。

而且玩偶打通了之后还可以干嘛呢?我们就可以开启 " 玩具总动员 " 的多智能体模式。孩子可以让孙悟空扮演船长,爱因斯坦扮演大副,三个人一起去冒险,我们在云端设置一个虚拟 Agent 去调配这两个角色,当孩子说了一句话之后,虚拟 Agent 就直接决定接下来轮到谁说话、说什么内容,沉浸式过家家。

如果你身边有小孩子,你就会发现,他们天然喜欢做这件事,平常一个人在家就喜欢拿着一堆娃娃、玩具摆来摆去地讲故事。

硅星人:做玩具总动员,不停复购好有意思。我们和很多AI应用的创业者聊过,大家都说技术没有壁垒,应用的壁垒是用户网络效应,或者用户使用量的滚雪球效应,用户迁移成本是你们的壁垒吗?

李勇:我觉得是的。壁垒是用户的记忆。孩子如果他们在三四岁时就接触我们的产品体系,把珍贵的童年记忆和情感寄托留在我们产品里,即使未来别人也做出 AI 毛绒玩具,那么孩子们的童年不会重来一遍。

我不知道你们发现没有,哪怕网络再发达,在人类历史上,有关儿童早期与朋友的交流数据都是缺失的。我们不知道孩子会抱着 TA 的毛绒玩具聊些什么,我们也不记得自己小时候那些天马行空的奇思妙想。但现在,通过我们的设备可以做到了。虽然我还不知道这些数据具体的商业化意义,但当你已经 18 岁了,甚至 80 岁了,还能回忆起三四岁时那些不靠谱的、奇思妙想的东西,这不是很美好么?

和一切 " 错位竞争 "

硅星人:你们的硬件是怎么做的?有AI硬件创业者说过,最困难就是把硬件造出来,因为这是一个全新的东西,需要单独开模,但产品很难倒推供应链做改变,这个问题在跃然创新上有发生吗?

李勇:没有。我在硬件行业 19 年了,硬件方面这次没有踩坑,相对于我之前做过的手机、XR 硬件,其实我们硬件参数很简单,就是一个 Wi-Fi 音箱,算力都在云端,硬件方案非常成熟、稳定。我们的供应链合作伙伴也是当年天猫精灵的合作伙伴,我对这个供应链的成本也非常熟悉了。

硅星人:今年的AI硬件一直很火,有人做 R1、AI Pin、AI Friend,你为什么选择做 AI 毛绒玩具?

李勇:2017 年,我在做天猫精灵的时候,就从后台看到了孩子对语音交互的兴趣,成年人觉得   AI 太幼稚,但孩子能聊几个钟头。所以我就一直想做 AI 硬件 + 儿童的产品,大模型就出来以后,把很多我以前想做的角色扮演、连续对话的功能都实现了,我们就在想做一款大模型儿童硬件。

至于为什么是AI毛绒玩具,是我们思考了很久,找到的最优解

第一个原因,我吃过一次亏了,我知道一定要跟巨头错位竞争。创业公司资源有限,就要看什么是巨头不做的 AI 硬件呢?在推演的时候发现,工具类的   AI 硬件,大概率科技巨头们都会做,所以我们只能做他看不上的情绪价值赛道。比如你能想象做手机和车的小米自己做一个毛绒玩具品牌吗?

硅星人:即使是情绪类的,他们更想做AI机器狗吧?

李勇:对,因为大厂会思考做战略性、颠覆性的东西。类似 AI Pin 这些穿戴设备,我觉得很酷,未来也可能有我想不到的   AI 硬件形态出现,但这都不是我现阶段考虑的事情,这也是我年做天猫精灵得出的经验,音箱原本是不能说话的,我们做智能音箱,让它能说话了,我就要教育市场,告诉用户,一个音箱如果可以语音交互了体验会怎么样,你知道花了多少精力和钱吗?

我现在是创业公司,没那么多钱,钱只够让产品做出来,没有几千万、几个亿教育市场。

但毛绒玩具不一样,在孩子们眼里,毛绒玩具本身应该会说话的,甚至是有生命的。

还有,第二个原因就是大模型在什么时候表现最好?就是你给他一个明确的角色的时候,而 AI 毛绒玩具恰好就有一个明确的角色。

硅星人:听起来像是你叠 Buff 叠出来的 idea。

李勇:我觉得核心是跨界。一般做硬件的、AI 行业的,可能离情绪价值比较远,他们想的是机器人、故事机、学习机、音箱。我算是一个比较理性的人,但我们团队女性员工占百分之七十,产品负责人、设计负责人、营销负责人等核心岗位都是年轻的妈妈,如果我们是一个科技直男的团队,我们可能也做不了。

硅星人:决定做AI玩具之后,你们设想的形态是哪个,是这个塑料泡泡,还是之后要做的一体化的 AI 玩偶?

李勇:我告诉团队都要做,先做这个泡泡,再做内置 AI 硬件的毛绒玩偶,原因很简单,因为我得先活下来。

这两款产品在技术研发上是差不多的,区别就是完整的毛绒玩具我们找了很多国际一线的 IP 联名,而 IP 方审核很慢,可能要几个月时间。我当时算了一下,那得到年底产品才能上市。

硅星人:所以这是一种退而求其次?

李勇:如果我有足够多的钱,我确实直接做完整的 AI 毛绒玩具就完了,因为它更有革命性。

但如果资源有限,我就要先做泡泡。因为孩子们是有存量需求的,就是他们本身就有喜欢的玩偶了,甚至很多孩子还有一种阿贝贝旧物依恋症,那么泡泡就是一个很好的解决方案,买回去直接挂在喜欢的玩偶上,就可以和心爱的玩偶聊天了。

硅星人:因为你们在做一个全新的产品,在泡泡的设计上,你们是怎么思考的,为什么要做成这样?

李勇:花了很多小心思,比如形状,大小,我们经过好多调研。最理想的状态是更小一点,甚至可以缝在孩子们的玩偶上,不用挂。但技术还做不到,电池续航和散热都是问题,我们现在期望家长一周充一次电,所以是现在这个大小。

目前这个外观设计是一个泡泡,童话里,泡泡代表魔法和梦幻,掉落到床头的毛绒玩具身上,就可以让毛绒玩具开口说话;另外泡泡也代表了对话的含义,你看微信的图标就是两个气泡,代表这是一个语音交互的产品。

硅星人:那为什么是捏一下,不是直接语音唤醒呢?毕竟你们之前做的天猫精灵也是语音唤醒的。

李勇:天猫精灵这种远场交互的固定在一个地方的产品,用语音唤醒是最顺应用户习惯的,而随身携带的、单手可以握持的小产品,最好还是和微信一样,按住说话,这样效率更高。另外也是考虑电池续航的用户体验。

做一个 AI 界的泡泡玛特

硅星人:之后会和这些 IP 做联名玩偶吗,还是会自己做 IP?

李勇:我们下一个新品就是和小猪佩奇以及德国的一个老牌玩具品牌 Steiff 史戴芙合作的,我们把 AI 硬件内置在他们的毛绒玩具里,之后还会继续做联名。除此之外,我们也会自己做 IP,现在已经有和一些独立设计师合作了。

因为毛绒玩具品类是这个样子的,现在增速很快,背后是情绪价值崛起的大趋势。但全球排名前十位的毛绒玩具没有一个中国品牌,这也是我们的机会。

硅星人:所以你们会和一些大 IP 公司一起做AI玩具,问题是作为一个创业公司,大 IP 为什么要跟你合作?

李勇:这还得叠一个 Buff,我之前做天猫精灵的时候,跟全球的 20 多个一线 IP 都合作过,所以有这些资源,这个也很重要,因为在玩具行业,这么多年来,用户购买的第一决策要素就是 IP。

除了和国际一线 IP 厂商的良好合作关系之外,很多 IP 方本身也有拥抱科技、拓宽受众的需求。

硅星人:那 IP 联名的成本高吗,是你们最大的成本支出吗?

李勇:那不是的,最大的还是研发。

硅星人:目前的售卖渠道是哪些?表现如何?

李勇:主要是抖音直播间。整个 8 月,卖出并激活的产品已经超过 1 万台了,我们中间还停了一周,因为上线后,销量突破预期,我们客服咨询量实在太大了,主播和客服都没准备好,紧急招人、培训客服和主播花了一周。

硅星人:你们接下来的商业化目标是怎样的?还要研发吗,还是说接下来重点就在卖货上了?

李勇:坦白讲,第一代产品研发基本完成了,还有就是根据用户需求在功能上做一些更新,例如儿歌和一些 APP 的功能正在陆续上线中。算法方面也同步看大模型的发展吧,按照我们的架构,如果端到端语音模型可用了,我们可以随时上线。明年如果视觉多模态成熟了,我们会进一步投入研发,给玩偶安上眼睛,这个是重磅升级,会有很多互动的场景,我们正在规划。

商业化上的目标就是在 Q4 能打平赚钱。我算了一下,大概几万台就够了,目前看这个应该问题不大,年底预计出货量能达到   8-10 万台。现在我们的抖音渠道刚开始做,海外还没顾上来,接下来,包括达人带货、天猫、京东这些渠道建设都会陆续做。

硅星人:你们虽然是创业公司,但很多商业化的考虑很成熟,这是 80 后创业者的优势吗?

李勇:我是三年前开始创业的,团队从爱奇艺智能独立出来,我正好 40 岁,但刚好遇到了大环境的变化,眼高手低,犯了很多错,公司差点关门清算了,那之后,我们整个团队所有人的心态就都发生了变化,对创业、对创造价值这个事儿的理解更深了,对于这次大模型的机会,我们很乐观,也很谨慎。

硅星人:投资人可能会觉得年轻人的想法,更贴近愿意使用AI的人群。虽然你们的产品购买者是父母,但大概也是年轻父母为主,你会担心不理解他们的想法吗?

李勇:确实有很多不理解,我孩子已经上初中了。但我在公司主要是管研发、供应链的,这也是因为我本身就是技术出身的,过去的从业经历也一直在做硬件。公司的产品是我的联创高峰在管,他是一个年轻的爸爸,孩子   3 岁多。整个团队 30 人左右,只有 4 个 80 后,95 后居多,很多都有海外留学背景,他们确实在情绪价值方面更专业、更有想法,有一些产品定义和设计,基于成本考虑,我就觉得没必要,但他们从用户的角度如果很坚持,我往往会听他们的意见。所以这是一个很综合、很有凝聚力的团队,这也是我们三年创业,一起奋斗建立起来的彼此信任。