​智谱AI 正研发对标Sora的国产文生视频模型,最快年内发布

2024-05-06 20:17 来源:网络 点击:

智谱AI 正研发对标Sora的国产文生视频模型,最快年内发布

(图片来源:钛媒体 App 编辑拍摄)

5 月 6 日消息,钛媒体 App独家获悉,估值超 200 亿的国内 AI 大模型独角兽公司 " 智谱 AI" 正在研发对标 OpenAI Sora 的高质量文生视频模型,预计最快年内发布。

" 文生视频目前处于一个快速发展的阶段,预计今年将是文生视频大模型的爆发期。国内公司在文生视频技术方面的客户需求非常多样,从电影拍摄到短视频、游戏制作等。智谱也将通过使用更高质量的数据和更大的参数,开发高质量的文生视频产品。" 一位智谱 AI 内部人士对钛媒体 App 表示。

据悉,成立于 2019 年的智谱 AI,由清华大学计算机系的技术成果转化而来,源自清华大学知识工程(KEG)实验室。智谱 AI CEO 张鹏毕业于清华大学计算机系,与总裁王绍兰同为清华创新领军博士,董事长刘德兵师从高文院士,曾任清华数据科学研究院科技大数据研究中心副主任,三位创始成员都是 KEG 实验室核心成员。

智谱 AI 是国内最早入局大模型赛道的公司之一,也是目前国内头部大模型厂商代表之一。

2023 年 3 月,智谱 AI 推出千亿开源基座对话模型 ChatGLM 系列,并在过去一年内完成 4 次升级,于 2024 年 1 月推出 GLM4 系列。

同时,基于全自研基座大模型的能力,智谱 AI 亦已构建了 AIGC 模型产品矩阵,包括 AI 提效助手智谱清言、高效率代码模型 CodeGeeX、多模态理解模型 CogVLM 和文生图模型 CogView 等。

张鹏在今年 3 月透露,截至 2023 年底,智谱 AI 已拥有超 2000 家生态合作伙伴、超 1000 个大模型规模化应用,另有 200 多家企业跟智谱 AI 进行了深度共创,覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景的多个头部企业。

张鹏强调,由于智谱对多个模型版本进行开源,所以到目前为止,智谱 ChatGLM-6B 全球累计下载量已经超过了 1300 万,GitHub Star 星数达到 5 万,整个量级超过了 Meta Llama 两个版本的总和。智谱 AI 已获得全球最受欢迎的开源机构的第五名,是全球唯一一家上榜的中国机构和组织," 力压了包括 OpenAI、谷歌,还有微软 "。

融资方面,智谱 AI 已完成五轮融资。投资方包括君联资本、启明创投、中科创星、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss 直聘、好未来、红杉、高瓴等多家机构,2023 年融资额超过 25 亿元人民币,最新一轮是 2024 年 3 月北京市人工智能产业投资基金参与投资。

截至目前,智谱 AI 公司估值超过 200 亿元人民币,是国内 AI 领域独角兽(超过 10 亿美元)企业。

钛媒体 App 了解到,对于智谱 AI   当前的综合能力水平,内部人士称 "性能接近海外顶级模型 "。

" 最新基座大模型 GLM-4,整体性能相比上一代大幅提升,逼近 GPT-4。如果做一个比较量化的对比,我们当时对标的对象是 GPT-4,其性能的对比可以在很多方面上做到 95% 左右。在比如中文对齐的任务下,我们甚至可以略微超过它。根据最新的海外伯克利 Arena Hard 基准测试 ,GLM 排名仅次于 GPT-4 Turbo 和 Claude 3 Opus,在国内外模型中均处于领先地位。" 智谱内部人士称。

智谱内部人士反复强调,公司是投入时间比较早,拥有完全自主、自研、国产化的千亿级模型算法,并且实现全栈国产化,从底层到模型层、应用层、应用接口 PaaS 层等实现全栈的自主研发。同时,在整个大模型体系里边,除了语言模型,智谱还有文生图模型、图生文模型、代码模型等多种模型,与目前全球最先进的 OpenAI 相比,其模型种类跟它形成了一一对标。

钛媒体 App 了解到,虽然智谱 AI 已研发出多模态模型 GLM-4,但据悉,今年 2 月 Sora 发布之前,智谱 AI 已经在研发文生视频模型。

智谱 AI 内部人士坦言,对标 Sora 的文生视频模型发展突破的关键主要包括技术路线选择、训练所用的高质量视频素材语料两个方面。

"技术路线上,Transformer 与 Diffusion 的结合架构如何在效率和效果上进行优化,如何解决连续帧之间的抖动问题,如何在满足高分辨率的同时实现高一致性的长序列生成,如何获取高质量数据泛化到更多更细节的真实场景,都是技术上需要解决和通过大量实验试错的问题;数据集方面,此前 Sora 被评价模型对摄影术语 ( 跟拍、平移、镜头切换 ) 的理解有限,所生成的视频后期还需要对视频素材进行超分处理。公司会注重更全面的优质数据版权与使用。" 上述人士称。

但值得注意的是,早前智谱 AI 投资的生数科技与清华大学联合发布中国首个长时长、高一致性、高动态性视频大模型 Vidu,被称为 " 国内首个 Sora 级视频模型 ",也是中国首个纯自研视频大模型。

一旦智谱也发布类似的文生视频模型的话,智谱 AI 将与被投公司生数科技产生竞争关系。

据钛媒体 App 编辑梳理,截止目前,智谱 AI 以产业型投资方式,已经投资、入股超过 13 家 AI 产业链的初创公司。

张鹏曾向钛媒体 App 等表示,今天的智谱 AI 正在经历一个从量变到质变的过程,特别是像大模型所谓的涌现。而公司目标是瞄准 AGI,实现超过人类水平的超级认知智能、实现 AI 的自我解释、自我评测、自我监督,同时还将确保模型安全、可控。

(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)