DeepSeek因996成功？　矽谷「中國焦慮」論的虛實

在眾多理論當中，除了美國科技界自身對AI的狂熱，中國大模型DeepSeek加入賽局被認為是另一個重要推力。一時間，中英媒體圈都出現關於矽谷「中國焦慮」的敘事。

醫療AI企業創始人、前Meta僱員Sandesh告訴我，最早感受到「996」的壓力，是2024年1月DeepSeek R1語言模型（LLM）問世時。當時他還在Meta的AI部門工作，他稱，DeepSeek模型的發布在Meta內部引起了非常大的焦慮：

「坦白說，Meta 當時投入了巨大的資金在 AI 上…..上層管理人員產生了很多懷疑，給了我們很大壓力，要求我們做一些不同的事情。」

不止是Meta，DeepSeek在矽谷、華爾街乃至白宮都引起震動，在此之前，大家普遍相信美國在人工智能（AI）領域擁有不可動搖的霸主地位，但DeepSeek的模型在各項測試參數上都超過Meta當時的大語言模型Llama 3.1-405B，並與美國兩個AI巨頭——OpenAI的ChatGPT和Anthropic的Claude Monent並駕齊驅。

更重要的是，在美國晶片出口管制政策下，DeepSeek只能用更低的算力去打造模型按官方說法，該模型只使用約2048張H800的GPU訓練了2個月，總成本約為560萬美元。由此產生的「DeepSeek-V3」直接威脅到了這些人工智能巨頭的市場地位。

DeepSeek-V3推出後，Meta內部很快專門設立了四個專責部門分析DeepSeek的技術，其中兩個重點關注DeepSeek如何降低培訓成本，另外兩個則徹底分析DeepSeek所使用的數據源，試圖進行「逆向工程」——找出DeepSeek的模式進行模仿，防止下一代Llama 性能被DeepSeek遠遠領先。

「雖然這麼說不太好，但當時管理層提出的疑問是：『中國人都能做到這一點，為什麼我們變成這樣？』」

包括大規模裁員及其他人事變動在內，Sandesh 提到，公司內部開始將中國的成功部分歸功於工作時數，並以此反思美國員工的努力程度——「儘管我們當時已經每週工作超過 50到60小時，但我們仍然覺得我們工作得不夠努力。」

這種「中國焦慮」的論調當然不僅存在於Meta，DeepSeek-V3的問世雖然引爆了這種焦慮，但科技圈對「中國模式」的推崇早就不是新鮮事。只不過，這種敘事在中美AI科技競賽下變得流行起來。

研究中美AI競賽的曾敬涵教授就認為，這種焦慮在很大程度上是人為製造的，尤其當ChatGPT和Claude繼續更新迭代下，這些模型在表現測試上毫無疑問仍然領先DeepSeek：

「在美國的商業模式下，它是有一種系統性的動機來炒作中國的人工智能發展……炒作『中國要贏了』，它才能夠在國內獲得更多的資源。」

曾敬涵認為，媒體與政界討論「贏得AI競賽」的背後，本質上是對整體「國家競爭力」下降的焦慮，這包括AI對經濟、技術乃至軍事地位的全面提升。這自然會在美國國內引發是否應該效法中國的討論，讓政府在AI發展中參與更多、扮演更積極的角色並提供更多資源。

隨着中美兩國在AI方面的競爭持續，「中國焦慮」論可能還會不斷浮現，它一方面為中國成為科技強國提供證據，另一方面則滿足了硅谷行業巨頭爭取資源、企業鞭策員工以在競爭中佔據高地的需求。

這種對於中國「舉國體制」贏得競賽的焦慮，與其說反映了中國體制的優越性，也許更多是美國對自身純商業導向模式的反思。

（01）