DeepSeek动的奶酪超乎想象 硅谷打响“命根子”保卫战?
2025-01-31 03:01      作者:吴清     来源:中国经营网

本报记者 吴清 北京报道

一股来自东方的神秘力量,在春节期间不仅刷爆了朋友圈,搅动了美国的科技圈,也吸引了全球的关注和热议。

2025年1月27日,DeepSeek应用超越ChatGPT,登顶苹果美国地区应用商店免费APP下载排行榜。同时DeepSeek也成为中国区第一 。

同日,美国科技股重挫、总市值一日蒸发约1万亿美元,仅英伟达一家就“失血”近6000亿美元,创美股史上市值损失之最。

2025年1月30日,《中国经营报》记者从网络安全公司奇安信方面获悉,针对DeepSeek线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。

DeepSeek的火爆,源自其10多天前发布的最新大模型,1月20日,DeepSeek正式发布DeepSeek-R1模型,该大模型成本仅为同类型模型的二十分之一,性能却与OpenAI领先的大模型相当,震惊了硅谷和科技圈,并迅速刷屏全球各大媒体和社交网站。

“这一次DeepSeek动的奶酪实在是太大了,大到超乎任何人想象。没有比触动利益更大的事情了。对于资本来说,这就是‘命根子’保卫战。利益逻辑始终是最基础的行为逻辑。” 浙江大学网络空间国际治理研究基地主任、乌镇数字文明研究院院长方兴东告诉记者,所以DeepSeek引发的不仅仅是一场前所未有的技术创新战,更是一场前所未有的认知战。

动了谁的奶酪?

英伟达及美股大跌的原因直指DeepSeek的爆火,即DeepSeek的成功可能削弱市场对英伟达AI芯片需求的预期,也打破了AI大模型领域“拼算力”的惯常逻辑。

与之前AI和大模型领域流行的“大力出奇迹”的范式相比,DeepSeek相信“小力出奇迹”,只花费了相当于OpenAI零头的资金、资源,就拿出了堪与其比肩的产品。

2024年12月底,DeepSeek发布V3模型,与OpenAI的GPT-4o性能接近,使用2048块英伟达H800芯片,耗费约560万美元。相比之下,GPT-4o使用上万块英伟达H100芯片(性能优于H800),训练成本约1亿美元。

关键是,与美国主流大模型相比,DeepSeek-R1模型是完全免费开源的,这直接引发了一系列疑问和连锁反应:ChatGPT凭什么卖那么贵?如果海量用户都转投DeepSeek,那ChatGPT的价值何在?美国科技巨头投入巨资、掌握更多的算力资源,为何做出来的东西,连百人团队的DeepSeek都比不了? AI大模型技术究竟有没有护城河?如果没有护城河,它的估值逻辑在哪里?这些美国技术人员真的值那么高的工资吗?

“可以说,免费开源和低价高效,直接打掉了硅谷科技资本的所谓底气和傲慢。”一位科技产业观察者对记者表示。

Scale AI掌门人亚历山大·王(Alexander Wang)坦诚,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

不过在经历了震惊和错乱以及美股暴跌后,2025年1月28日,多位美国官员指出,DeepSeek是“偷窃”,正对其影响开展国家安全调查。微软和OpenAI则开始调查OpenAI的数据是否被与DeepSeek有关的组织“以未经授权的方式”获取。

就相关质疑及公司在AI大模型领域未来的布局计划等问题,记者联系采访DeepSeek方面,截至发稿,暂未获得回复。

时事评论员刘和平认为,对于DeepSeek的横空出世,一惊一乍、先褒后贬的都是美国自己。“实事求是地说,DeepSeek还算不上是技术上的革命性突破。它的性能和ChatGPT差不多,但DeepSeek最大的优势是,不仅研发成本异常便宜,仅为500多万美元,跟美国的同类公司动辄烧钱数十亿美元相比,简直可以忽略不计。更重要的是,它对终端用户始终免费开放。这就是DeepSeek苹果应用商店下载次数很快跃升第一的原因。”刘和平说。

而对于“偷窃”的指控,《环球时报》前总编辑胡锡进让DeepSeek “现身说法”,为自己进行辩护。

首先,DeepSeek发出了一个反问:“做AI这行谁不是站在巨人肩膀上啊?”因为“开源社区的代码、论文里的公式、全球研究者的智慧结晶,这些都是公共知识财富,大家都在用。”这里的巨人显然也包括了OpenAI和微软。

其次,DeepSeek否认自己偷窃了OpenAI的技术。因为“搞研发的同行都懂,大模型这玩意儿根本不是靠‘复制粘贴’能搞出来的”,更何况“OpenAI的模型又没开源,GPT-4的代码和训练数据连他们自己员工都不一定全知道,我们上哪儿偷去?”

最后,DeepSeek还发出自己的感叹说,“哎,每次听到这种指控其实挺无奈的”,并且将这种指控归结为“商业竞争或者地缘政治”因素。

“互联网数据本来是公开的,很多AI公司都在互联网上获取大量训练数据,如果DeepSeek部分使用了OpenAI模型进行数据提炼,也不足为奇。”上述科技产业观察者说,DeepSeek作为一个开源大模型,其初衷是为了促进人工智能技术的普及与发展,成为供全人类使用的工具。然而,如今却面临来自部分国家的调查与打压,这无疑是对公共产品的一种无理限制。

方兴东表示,DeepSeek事件进入美国政府最熟练的认知战阶段,搅浑、抹黑,百般武艺开始全面上阵。美国认知战能力很强,虽然这一次美国显然措手不及、手忙脚乱,不过,带节奏的超强能力依然不可低估,国内呼应者也大有人在。

方兴东认为,硅谷丢失了公平竞争、创新取胜的硅谷精神,而越来越依赖美国政府霸权帮忙。一个神话的破灭,最终都是自己反对自己,自己走向了自己的对立面,这无疑是观察DeepSeek事件最重要的视角。“当硅谷一大批人的利益开始绑架华盛顿,科技与政治之间要保持初心,越来越难。但是,最终的胜利,肯定是始终坚持创新价值观的一方。”方兴东对记者表示。

改变游戏规则

在DeepSeek横空出世前,AI大模型公司的对标对象是OpenAI,堆砌算力的尺度定律(规模化法则)作用于所有公司。但随着四两拨千斤的R1大模型的到来,所有AI公司都面临全新范式的竞争。

DeepSeek实际体验如何?记者下载登录DeepSeek使用后发现,以往的AI大模型都是只给出结果,但DeepSeek会给出其思考过程,更加可信,也不是传统大模型那种“模式性”答案,而且它完全免费。一些网友体验后感叹,DeepSeek逻辑推理的思路缜密、效率高,判断和回答的问题全面,智能化程度很高。

除了体验更好,对于资本市场来说,DeepSeek更大的惊喜是它的推理成本大幅降低。Noah's Arc资本管理公司表示,DeepSeek-V3模型有可能彻底改变训练和推理领域的游戏规则。

为何可以做到这样的低成本训练?据介绍,DeepSeek通过创新架构,节省了大量的显存,进而实现底层算力的高效利用,以更低的成本训练出更加出色的模型效果;同时,研发团队证明,多Token预测目标有利于提高模型性能,可以用于推理加速的推测解码。此外,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型,蒸馏到标准模型上,在显著提高推理性能的同时,可以进行长度控制。

北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟认为,DeepSeek最大的优势在于它算法的改进和优化,它在算力上得到了节省,在输入数据和语料库上,不像以前要求那么大的数据量和大的算力,这是它的优势。

摩根士丹利表示,DeepSeek的模型现在低成本优势突出,与国际知名大模型相比,其成本大约低了一个数量级。高盛集团也认为,DeepSeek新模型的成本远低于现有模型,这意味着开发利用大模型的门槛降低,互联网巨头将面临初创公司的潜在竞争。

最关键的而是目前DeepSeek R1提供免费开源的服务,用户无需付费即可享受强大AI推理能力,推动AI技术普及,让普通用户在日常工作生活中体验前沿科技的便利。

"锁死芯片出口才能保证美国领导下的单极世界"时,这种技术霸权的傲慢背后,实则暴露了对中国AI创新能力加速迫近的深层焦虑。

“在DeepSeek以成本优势逼近美国顶尖模型的背景下,美国试图通过芯片禁运维持技术代差的策略,恰似在数字时代重演工业革命时期的‘技术围城’。”方兴东表示,这场博弈不仅关乎算力硬件的争夺,更揭示了两种技术发展范式的根本冲突——究竟是依靠垄断优势构建封闭体系,还是通过开放生态激发创新活力?

对于DeepSeek近期的爆火,85后创始人梁文锋回应称:“中国AI不可能永远跟随。”2025年1月28日,DeepSeek继续发布Janus-Pro多模态大模型,进军文生图领域。

曾经的OpenAI是开放开源的代表,然而在商业利润、投资方等的驱动下,OpenAI在GPT-3发布后限制了对模型的访问权限,仅通过API提供服务,在GPT-4发布后更是隐藏了其训练数据和模型权重,完全走向了“闭源”,变成了ClosedAI。

英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究,赋能所有人。”Jim Fan表示,“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”

(编辑:张靖超 审核:李正豪 校对:陈丽)