贝果

MiniMax闫俊杰：大模型快就是好可有时候慢是为了更快

2024-09-03 06:09 作者：李玉洋来源：中国经营网

本报记者李玉洋上海报道

大模型是拼速度的领域，但有时候慢可能是另一种快。

8月31日，国内AI独角兽企业MiniMax上海稀宇科技有限公司（以下简称“MiniMax”）在首届开发者大会“MiniMaxLink伙伴日”上低调发布视频模型abab-video-1，输入提示词就可生成时长最高6秒的视频，主打高分辨率、高帧率。

换个说法，MiniMax所说的视频模型类似于OpenAI的Sora这种文生视频模型。作为MiniMax的创始人兼首席执行官，闫俊杰认为“快”是该公司底层大模型的核心技术研发目标，不过，该视频模型晚了Sora好几个月。

“为什么我们的推出要晚一两个月？核心是我们在解决一个更难的技术问题，即如何能原生训练算力比较高的东西。”闫俊杰对《中国经营报》记者表示，在训练视频生成能力时，需要先把视频转化为一个个token（令牌），而这些token会非常长，随之复杂度就越高，“我们其实上半年主要干的事是把复杂度降低一些，把压缩率变得更高，所以晚了一两个月”。

MiniMax介绍，根据内部评测以及跑分，该公司的视频模型比Runway的效果更好。目前，可灵已推出会员订阅计划的商业化模式。那么，MiniMax视频模型的商业模式会如何？对此，闫俊杰表示：“我们的策略先再等一两周，新的东西出来之后，到了一个更加满意的状态后，可能会考虑（采取）一些商业化（举措）。”

他还提到，由于模型进步速度很快，AI生成视频尽管还不能替代传统的渲染引擎，但为创造出《黑神话：悟空》这样的3A游戏，“至少能提供一种可能性”。

到更加满意状态才考虑商业化

尽管未提及视频模型的商业化路径，但闫俊杰表示：“整个公司的商业化基本上分成两个形式，一个形式是我们的开放平台，现在已经有2000多家的客户，包括很多知名的互联网公司，也包括传统的企业。这里面本来就有用户使用声音和视觉的能力，不是所有的公司都像快手一样可以自己做，我们是一个很好的合作伙伴，这是2B部分。”

“第二个是我们自己的产品里也有广告的机制，广告可以做商业化的变现。”闫俊杰认为在目前的阶段，“最重要的东西还不是商业化，而是真正地让技术达到广泛可用的程度。”

技术相对复杂的AI生成视频（视频模型），成为今年大模型厂商的展示实力或“秀肌肉”的一个惯常操作，OpenAI开了这个头。今年2月，OpenAI发布视频大模型Sora，但跳票至今未公测。4月，生数科技发布视频大模型Vidu；6月，快手发布视频大模型可灵；7月，智谱AI生成视频模型清影正式上线……

MiniMax出于什么考虑要做视频模型？闫俊杰表示，本质在于人类每天消费的大部分内容是图文和视频，文字占比不高，“为了能够有非常高的用户覆盖度，以及更高的使用深度，作为大模型厂商，唯一的办法是能够输出多模态的内容，而不是只输出单纯的基于文字的内容，这是一个非常核心的判断”。

他进一步提到：“只是在之前我们先做出来文字，又做出来声音，很早前做出来了图片，现在技术变得更强，（可以）把视频也做出来。这个路线是一以贯之的，一定要能做多模态。”之前MiniMax做出大语言模型，又做声音模型，接着是图片模型，“只是现在技术变得更强，把视频也做出来。这个路线是一以贯之的，一定要能够做多模态”。

在AI算法工程师张昱轩看来，虽然MiniMax并未公布视频模型的具体参数和技术要点，但从所展示的模型生成视频中可以看出公司的算法还是很强的，而快手的可灵相对来说工程技术更好。

而闫俊杰对记者表示：“不管是视频、文本、声音，MiniMax团队的核心研发思路不在于要让算法提升5%、10%，比较重要的是能否提升几倍，如果能提升几倍就一定要做出来，只提升5%就不太值得做。”

据了解，MiniMax的视频模型目前只是第一版，将先免费提供给用户使用一段时间，很快会有新版本。“后续会在数据、算法本身，包括更加方便使用的细节，比如现在只提供了文生视频，未来图生视频、文+图生成视频，以及可编辑、可控性都会陆续出来。”闫俊杰说。

《黑神话：悟空》的热度依旧，AI又在游戏中创造了新玩法。日前，谷歌在一篇论文中指出，他们打造出了首个完全AI驱动的实时游戏引擎——GameNGen，能以每秒20帧实时生成经典射击游戏《毁灭战士》的游戏画面，所有游戏画面都是根据玩家操作，与复杂环境进行交互而实时生成，每一帧都由扩散模型预测。

那么，未来AI实时生成3A游戏大作还会远吗？闫俊杰表示，《黑神话：悟空》采用的还是传统建模渲染的方式，这种方式进步速度已经很慢了，而生成视频和生成文本是一样的，两年前生成文本可能完全不可用，但现在变得可用，且发展速度很快。

“（视频生成）其实都只是一个开始，因为这只是第一年，接下来的进步速度一定会变得非常快。我不太知道能否替代掉传统的渲染引擎，但是至少能够提供一种可能性，因为进步速度快，越长期看，进步越快的东西就越好。”闫俊杰表示。

使用量显著增长模型竞争力增强

快，是闫俊杰多次提到的关键词。“不管是做MoE还是Linear attention，还是其他的探索，本质上还是让同样的效果模型变得更快。”闫俊杰表示，快就是好，意味着同样的算力可以变得更好，这是MiniMax做底层研发的思路。

同时，他还指出，如何让模型的错误率持续降低、无限长的输入和输出以及多模态，是行业需要持续解决的三个挑战。

据公司介绍，MiniMax在过往经历了两次关键的底层技术变革，包括MoE（Mixture of Experts，混合专家模型）和Linear Attention（线性注意力）。今年4月，该公司研发出的新一代基于MoE+ Linear Attention的模型，水平比肩GPT-4o。

公开资料显示，MiniMax是一家成立于2021年12月的人工智能初创公司，由商汤科技前副总裁、研究院前副院长闫俊杰创立，成员主要来自商汤科技这些知名AI公司。

天眼查显示，今年3月，MiniMax完成了B轮的6亿美元融资，投资方为阿里巴巴，其估值达到25亿美元。此前的2023年6月，MiniMax完成了超2.5亿美元的A轮融资，投资方为腾讯投资。

创立一年后，MiniMax自研了文本到视觉、文本到语音、文本到文本三个模态的基础模型架构，并在基础模型之上构建起一个计算推理平台。

在产品上，MiniMax同时兼顾B端和C端市场，C端应用有角色扮演类AI聊天应用Glow、AI社交软件星野、AI语音对话助手海螺问问等，B端则是为企业提供定制化的API接口，允许企业接入ABAB模型的各种能力，火山引擎、金山办公、钉钉、智联招聘、阅文等公司都在使用其服务。官方数据显示，目前MiniMax的模型每天与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音。一年前，MiniMax交互时长仅为ChatGPT的3%，现在这一比例已提升至53%。

自5月以来，大模型领域掀起价格战，API降至“白菜价”。谈及大模型价格战时，闫俊杰指出，有了价格战后，很多传统的企业开始愿意使用大模型，“客观地来说，非常大地提高了模型的调用量”。

同时，这也从侧面推动模型性能的进步，中国的大模型在东南亚等海外也有了竞争力。“国内的模型正是这么激烈的竞争，推着大家一定要往前赶，目前至少在非英语国家的语种上也能够有一个跟GPT不相上下的水平。”闫俊杰表示，竞争不可避免，就要努力做到最好，乐观的一面显示两个积极的变化：一是国内大模型的使用量在显著地增长，二是中国的模型在海外确实越来越具有竞争力。

闫俊杰表示，大部分公司本认为大模型很贵，之后很多人认为大模型很便宜，可以放心地使用。最终惊奇地发现，有许多传统企业非常愿意使用大模型，他们觉得反正成本低，出错了之后也不要紧，多调用一次就好了。客观来说，这极大提高了模型调用量，从而推动模型做得更好，至少目前在非英语语种上，国内大模型水平已与GPT不相上下。因此，乐观角度看，国内大模型的使用量确实在显著地增长，并且中国AI大模型在海外确实越来越具有竞争力。

当谈及与互联网大厂可能发生正面竞争时，闫俊杰表示，能做的就是把有可能变强的事无限地放大，一个是技术如何做提升，另一个是如何跟用户做更好的共创。

（编辑：吴清审核：李正豪校对：翟军）