字节跳动账户被封禁!用 Open AI 训练自家 AI?背后是 90 万亿生意
字节跳动账户被封禁!用 Open AI 训练自家 AI?背后是 90 万亿生意
全文共 2065 字,阅读大约需要 7 分钟
字节跳动:正与 OpenAI 联系沟通。
记者丨杨月涵
一向低调的字节跳动大模型走上了风口浪尖。近日,有媒体报道称,字节跳动在使用 OpenAI 技术开发自己的大语言模型,违反了 OpenAI 服务条款,因此暂停了字节跳动的账户。
对此,字节跳动回应称,GPT 的 API 服务仅在初期探索时用于较小规模的实验性项目。字节跳动与 OpenAI 的风波背后,不难看出 " 百模大战 " 的激烈竞争仍暗流涌动。
冻结
" 字节跳动使用 OpenAI 的技术,用以打造自己的大模型。"12 月 16 日,科技媒体 TheVerge 发布了这样一篇报道。随后,OpenAI 发言人尼克 · 菲利克斯确认,字节跳动账户已被暂停。
12 月 17 日,字节跳动回应北京商报记者称,公司在使用 OpenAI 相关服务时,强调要遵守其使用条款。" 我们也正与 OpenAI 联系沟通,以澄清外部报道可能引发的误解 "。
服务条款是这场风波的核心。作为商业化的重要一步,今年 3 月,OpenAI 开放 API(应用程序编程接口),允许第三方开发者通过 API 将 ChatGPT 集成至他们的应用程序和服务中。但 OpenAI 的服务条款中曾明确提及,OpenAI 提供的模型能力,不允许用来被 " 开发任何与其产品和服务形成竞争的 AI 模型 "。
根据字节跳动的回应,今年初,技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。
据介绍,早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。
9 月,字节跳动内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样检测模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。
" 未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。" 字节跳动如此说道。但对于账号的恢复时间计划,截至记者发稿,暂未收到回复。
接口
一个是风靡全球的互联网新贵,一个是新一轮人工智能大潮的领头羊,双方本就自带流量,以这种形式产生交集,自然引发诸多讨论。
" 在案例中,API 可狭义地理解为一种商业用途的接口服务 ",在接受北京商报记者采访时,无界 AI 联合创始人马千里解释称,一款应用提供服务可以分为两种方式,一种是通过应用自身(比如 App)完成,另一种就是用 API 提供接口服务,从而将来自应用的要求接入到后端,可实现批量操作,实现商业化落地。
马千里补充称,包括计价模式、使用权限等在内,API 很多服务都是和传统的 C 端服务不一样的。正常来讲,大模型企业很支持以 API 的形式完成商业化," 但若要用来训练自己的竞争对手的模型,那肯定就不愿意了 "。
凭借着 Llama 2 的成功,Meta 冲出了 OpenAI 的闭源重围,扛起了大模型开源的大旗。饶是如此,Meta 也在其软件协议中做了保留,比如强调不得将 Llama 用于改进任何其他大型语言模型,但 Llama 2 或其衍生作品除外。
此前,创新工厂董事长兼 CEO 李开复旗下的 " 零一万物 " 大模型也被质疑套壳 Llama。不久前,零一万物再度发声表示,公司内部经过几个周的国际国内法律研判,已经确认完全不涉及套壳、抄袭,并给出了进一步的澄清。
马千里解释称," 套壳 " 并不是法律上的禁止行为,很多时候只要符合供应商的协议,后者其实是鼓励套壳以实现商业化的。这一行为之所以会被诟病,可能是有些企业宣传存在偏差。
北京市社会科学院副研究员王鹏也对北京商报记者提到,自从 OpenAI 的技术路径得到广泛应用,国内、国外的一些厂商以及相关企业都在进行扎实的跟进,也有部分企业选择站在巨人的肩膀上进行二次开发。
" 但大模型的训练确实需要大量资金和资源的投入,在这个过程中也可能存在着鱼龙混杂的情况,有些企业声称自己在做开发,本质是套壳。" 王鹏称。
追赶
以服务条款为中心,OpenAI 和字节跳动的矛盾背后,是全球大模型的激烈竞赛。截至今年 10 月,我国 10 亿参数规模以上的大模型厂商及高校院所共计 254 家,分布于 20 余个省市 / 地区。
工业和信息化部赛迪研究院近日的数据显示,今年,我国生成式人工智能市场规模有望突破 10 万亿元。专家预测,2035 年生成式人工智能有望为全球贡献近 90 万亿元的经济价值,其中我国将突破 30 万亿元,占比超过四成。
今年 6 月的世界互联网大会数字文明尼山对话中,百度创始人、董事长兼首席执行官李彦宏说,无论从技术趋势,还是产业应用来看,大模型都绝不是昙花一现的风口,而是影响人类发展的重大技术变革,是拉动全球经济增长的引擎,是绝对不能错过的重大战略机遇。
在大模型的激烈竞争中,字节跳动的步伐并不快。公开资料显示,今年 6 月,字节跳动火山引擎发布大模型服务平台火山方舟;8 月,字节跳动自研的通用大模型 " 云雀 " 通过《生成式人工智能服务管理暂行办法》。同月,字节跳动基于云雀大模型的 AI 对话产品 " 豆包 " 正式开启对外测试。
谈及大模型的进展,字节跳动相关负责人向北京商报记者表示,云雀大模型目前还处于初级阶段,与国外公司还有比较大的差距。
字节跳动在加速追赶。11 月末,节跳动成立新 AI 部门 Flow。公开报道显示,Flow 是字节跳动旗下 AI 创新业务团队,目前已在国内和海外分别上线了豆包和 Cici 两款产品,还有多个 AI 相关创新产品在孵化中。业内普遍认为,这也许是字节跳动在收缩游戏业务的同时,加码 AI 应用开发的信号。
" 和其他大厂相比,字节跳动可能会在多模态领域占有更多的优势 "。马千里认为,在语言模型方面,与以搜索引擎起家的企业相比,字节跳动掌握的数据资源并不具有明显优势。字节跳动的数据大多是多模态数据,团队也相对顶尖,或许可以在这方面打出差异化。
王鹏也提到,字节跳动做大模型的优势就是平台大、资源多、本身应用场景多元,能够形成较好的商业模式,而且字节跳动的日活高、内容产出多、数据量大,也有利于其进行大模型的开发。
编辑丨杨博
图片丨北京商报、壹图网、微博 @李开复 截图
-
- 健康 160 谋港股上市:七成收入靠卖药,递表前和解一起诉讼
-
2023-12-20 08:16:42
-
- 阿根廷 11 省进入经济紧急状态,新总统挑战不小
-
2023-12-20 08:14:26
-
- 额吉家的冻哥哥
-
2023-12-20 08:12:10
-
- 为了这个“土”里“土”气的展览,这家美术馆搬来 20 吨土
-
2023-12-20 08:09:54
-
- 安踏是哪个国家的品牌(安踏凭啥超越阿迪、耐克,甩了李宁“两个特步”的距离
-
2023-12-19 08:28:50
-
- 悉尼是哪个国家(“雪梨”悉尼:澳大利亚最大的城市,被誉为南半球的“纽约”)
-
2023-12-19 08:26:34
-
- 全网期待的大雪人回归了!今年,它还带了小伙伴
-
2023-12-19 08:24:19
-
- 罗永浩连续发文炮轰:荒唐、恶心!
-
2023-12-19 08:22:03
-
- 俞敏洪并不理解流量从何而来
-
2023-12-19 08:19:47
-
- 马雅舒:26岁嫁给吴奇隆,结婚4年离了,嫁美国富商连生两娃
-
2023-12-19 08:17:31
-
- 垫圈材料标准(10种国家标准平垫圈的区别)
-
2023-12-19 08:15:15
-
- 完美世界海外项目关停 - 热点
-
2023-12-19 08:12:59
-
- 乔丹是哪个国家的品牌(中国乔丹VS美国乔丹,两者有着怎样的关系?)
-
2023-12-19 08:10:44
-
- 摩纳哥是哪个国家(摩纳哥面积仅2平方公里,历史上法国为何没有兼并?)
-
2023-12-19 08:08:28
-
- 男多女少,1∨1,死神,病娇占有欲:《异世珍宠》《哥,你养我》
-
2023-12-17 14:45:48
-
- 当年35岁产妇产下全国首例“5胞胎”,20年过去了,他们过得咋样
-
2023-12-17 14:43:33
-
- 村上春树《挪威的森林》:直子和绿子在渡边生命中的意义
-
2023-12-17 14:41:16
-
- 《复仇者联盟4》里的亚裔面孔,庞克莱门捷夫饰演的螳螂女很特别
-
2023-12-17 14:39:00
-
- 越南的纸币之四:越南统一后的纸币
-
2023-12-17 14:36:44
-
- 杀死 Windows 10 的,是微软和 AI?
-
2023-12-17 14:34:28