DeepSeek“鲇鱼效应” 2025年大模型价格战或将持续
2025-01-10 01:01      作者:曲忠芳     来源:中国经营网

本报记者 曲忠芳 北京报道

“性价比”是商业社会中的制胜法宝之一,从消费电子到零售服务,从传统制造业到互联网经济,高性价比在撬动市场、赢得用户方面屡试不爽。而如今,在“规模法则”(Scaling Law)主导下、“大力出奇迹”的大模型“烧钱”竞赛中,来自中国杭州的大模型初创企业深度求索(DeepSeek)凭借高性价比迅速出圈,被冠以“AI界的拼多多”称号,吸引了国内外的广泛关注。

截至1月10日,深度求索的最新大模型产品DeepSeek V3已发布并开源半个月之久,如同“鲇鱼”般给原本卡在“瓶颈”中的全球大模型市场注入了新的活力,《中国经营报》记者通过采访业内人士,希望深度探讨DeepSeek这条“鲇鱼”将搅起市场的哪些变化。

“AI界的拼多多”验证新思路?

DeepSeek被冠以“AI界的拼多多”称号,主要是因为它极高的性价比,与拼多多在电商领域以高性价比著称的模式相似。有趣的是,在DeepSeek V3生成的“自我介绍”中也使用了这一称谓。

深度求索公司创立于2023年7月,是由中国量化私募公司“幻方量化”创始人梁文峰创立,2024年5月推出了第二代开源模型DeepSeek V2,到2024年12月26日又推出最新的开源模型DeepSeek V3。DeepSeek官网显示,在多项基准测试——涵盖英语、中文、数学、代码等结果中,DeepSeek V3的成绩超过了阿里的千问“Qwen2.5-72B”、Meta公司的Llama3.1-405B等开源模型,而且与OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet两大闭源模型的表现也不相上下。更为重要的是,DeepSeek方面披露,其训练成本仅为557.6万美元和2000块英伟达H800 GPU(图形处理器)。

与之形成鲜明对比的是,据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元,同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息,2024年7月面世的开源模型Llama3.1-405B,训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群,使用10万个英伟达 H100 GPU。另据美国媒体报道,GPT-4o的训练成本约在1亿美元,GPU数量预计在万个级别;而Claude3.5-Sonnet的训练成本或略低于1亿美元,使用的GPU数量推测为数千至上万个。从这些直观的数据对比中不难看出,DeepSeek大幅度降低了模型训练和推理成本。

关于DeepSeek如何实现高性价比的问题,本报记者咨询了数名来自高校、企业的技术专家,他们做出了一些专业技术方面的解释,涉及多头潜在注意力机制(MLA架构)、稀疏专家混合模型(MoE)架构、FP8混合精度训练、数据蒸馏与算法优化等。简单来说,DeepSeek没有“堆砌算力”,而是在算力限制下转而探索效率优先的途径。

“DeepSeek V3出现后,对于一些中小型团队来说是有利的。”一位业内人士如是说道。近两年来,规模法则被视为大模型发展的黄金定律,大模型的性能指数与模型参数、数据量、算力的增加正相关,因此全球范围内呈现一场“大力出奇迹”的竞赛。然而,随着模型规模的不断膨胀,规模法则的边际效益逐渐递减。一方面,超大规模模型的训练成本高昂,算力需求呈几何级数增长;另一方面,数据质量和模型架构的优化空间有限,导致性能提升逐渐趋缓。在这种趋势下,大模型日渐成为巨头与资本的游戏,直到DeepSeek验证了大模型性能提升的新思路。

深度科技研究院院长张孝荣指出,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现了高性能与低成本的平衡,为大模型的发展提供了新的思路和可能性,降低了大模型对先进算力的依赖程度。DeepSeek为整个行业的发展注入了活力,也对大模型的技术路径和工程实践产生了积极影响,推动了高效训练、轻量化模型和工程优化。

价格战或持续,AI加速普惠落地

“DeepSeek加速了AI和大数据技术的普及,有望使更多企业和开发者能够接触并应用这些技术。同时,也迫使竞争对手重新评估定价,这可能引发行业内的价格战,推动整体价格下降,使更多企业能够采用先进技术。”张孝荣说道。

事实上,早在DeepSeek V2发布开源之时,深度求索这条“鲇鱼”引发了2024年国产大模型的第一波降价热潮,参与其中的包括智谱AI等大模型初创公司以及字节跳动、阿里巴巴、百度、腾讯等科技大厂。其中,智谱AI公司CEO张鹏此前接受本报记者采访时回应称,降价并非出于市场压力,而是因为技术的进步带来了成本的降低,由此让利给用户,同时也是为了更好地拓展市场。深度求索创始人梁文峰在接受媒体记者采访时也表示:“我们不是有意成为一条‘鲇鱼’,只是不小心成了一条‘鲇鱼’。我们只是按照自己的步调来做事,然后核算成本定价。原则是不贴钱,也不赚取暴利,在成本之上稍微有点利润。”

到了2024年年底,即在DeepSeek V3发布前后,国产大模型在2024年的第二波降价潮再起。2024年12月中旬,字节跳动旗下豆包大模型率先更新价格,豆包视觉理解模型的输入价格为0.003元/千tokens,相比行业平均价格降低了85%。按照这一价格,1元钱可以处理284张720ppi的图片。抖音集团副总裁李亮称,此次降价不是“价格战”,而是豆包大模型在算法、软件工程和硬件方案上进行了大量优化,有效降低了成本,目前的定价仍能保持可观的毛利。而DeepSeek官方信息显示,最新的DeepSeek V3输入价格为0.5元/百万tokens,输出价格最低为8元/百万tokens,远低于Claude3.5-Sonnet、GPT-4o等。

在海外社交媒体中,DeepSeek的高性价比已引起了大模型竞争对手的高度关注,而在国内市场,记者从多位消息人士处了解到,国产大模型厂商也在密切关注DeepSeek的训练方案,尽管还没有公开的动作,但一个行业性的共识在于,算力堆砌或许仍能“大力出奇迹”,但同时在数据质量、训练模式、架构优化方面仍有可挖掘的创新空间,大模型正在加速朝着普惠落地的方向前进。

谦询智库创始合伙人龚斌指出,其他大模型厂商或许会通过技术追赶和资源投入快速跟进,不排除复制甚至超越DeepSeek高性价比优势的可能性,DeepSeek能否持续建立起优势壁垒还有待观瞻。另有业内人士提到,DeepSeek开发过程中利用已有的模型进行训练,也存在一些漏洞。

除此之外,盘古智库学术委员、DCCI-未来智库与FutureLabs-未来实验室首席专家胡延平发文提醒道,尽管DeepSeek V3在效率和性能上表现出色,但“不宜过高评价”其创新性。在他看来,该模型的成功主要依赖于已有技术的有效整合,如合成数据、知识蒸馏等,而缺乏底层原理的创新,呈现的是“又一次是我们一直最擅长的性价比”。“DeepSeek V3能不能持续有流量不太好说。”

关于AI大模型未来价格的进一步下降、商业化应用,以及深度求索公司后续的发展,本报记者将持续关注报道。

(编辑:吴清 审核:李正豪 校对:颜京宁)