deepseek-ai-china-GettyImages-2195797164
掀起波瀾的深度求索(DeepSeek)

過年期間追的除了堆積已久的電影以外,就是DeepSeek橫空出世的大戲了。

畢竟,這是AI時代的「史普尼克危機」,只不過競爭對手從蘇聯變成中國,征服目標從月球轉向人工智慧。 幻方量化,一個中國的量化基金公司,在晶片禁令的枷鎖下,以有限資源所訓練出的模型,效能竟堪比國外科技巨頭下重本打造的頂級模型,這個故事真的太有賣點了! 華爾街眾多資金也被這戲劇化故事所驚嚇,對美國AI相關類股投下不信任票,導致Nvidia在2025/1/27破了一項紀錄:一日大跌17%,市值蒸發近六千億美金。

熱鬧的不只華爾街,網路輿論同樣沸騰,可惜不是「我大中國威武」、就是「中國造假慣犯」。到底真相是什麼,反而越看越模糊。 因此自己簡單進行了一點小小研究,整理出幾個常見的誤解,希望能為像我一樣非技術背景、但又對AI充滿熱情的讀者,提供一個中立的視角。

空出世」的真相

早在2017年Google Brain團隊推出的Transformer模型,顛覆了過往仰賴循環神經網路(RNN)處理自然語言的方式,至今仍是最主流的應用選擇; 2021年Google Research再度推出改良版的Switch Transformer,主打混合專家模型(Mixture of Experts, MoE)架構,可提升計算效率與模型性能。 

這些重要的技術突破,Google都選擇以開源論文形式發表,而非申請專利,促成了全球AI研究社群的蓬勃發展,鼓勵集思廣益的修改與擴展。 DeepSeek顯然也受益於這樣的開源氛圍,因為其V3模型亦採用MoE模型,多頭潛在注意力(MLA)等概念也都非其原創,大家都互相站在彼此的肩膀上。 

因此,把時間點拉長來看,DeepSeek並非突然橫空出世,而是整個AI技術演進歷程中的一個小震幅而已。

不只是「純粹優化」

若說DeepSeek的模型純粹只是優化既有的技術與概念,似乎又過於簡化了他們的聰明與努力。

現有理論與概念都不難理解,但真正實作時,魔鬼總是藏在細節中。DeepSeek展現了不斷試誤找出這些魔鬼的決心,光一個MLA的優化,就花了好幾個月不斷調校。 這樣「精準瘦身」的效果非常明顯,榨出非常可觀的模型計算效率,技術實力十分深厚。

「超少運算資源」的迷思

儘管DeepSeek宣稱訓練只用了2,048顆Nvidia的H800 GPU,但這不代表一家公司只要買2千顆GPU,就能從頭打造自家專屬LLM。 據Semianalysis估計,DeepSeek在完整的資料中心建置、電源與冷卻、RD薪資、後勤支援、前期訓練等所花費用,至少13億美金起跳。 即使單看硬體成本,DeepSeek也可能使用了高達5萬顆Nvidia Hopper架構的GPU,投資額超過5億美元,比一台最新ASML EUV還要貴。

這絕對不是「超少」運算資源。只不過,相較科技巨頭(如Meta在2024年1月就曾規劃年底前要具備60萬顆GPU),這個數字真的「相對」少了點。

 「目前最強」言過其實

如果不精準地將LLM粗略分為兩大類:

  • 「直接回答型」,如ChatGPT 4o/DeepSeek V3,會直接生成答案回覆使用者的任何問題;
  • 「深思熟慮型」,如ChatGPT o1/o3和DeepSeek R1,收到問題後先思考解題步驟,再逐步生成回覆。

V3所對標的是早它七個月發布的ChatGPT 4o,R1對標的是早四個月發布的o1,而且並非所有測試項目都超越對手。 在「度日如年」的AI界,幾個月的差距代表競爭對手也有了長足的進步,因此DeepSeek的成就雖然值得讚賞,但絕非「超級非凡」。

更何況,幾乎同時推出的Google Gemini 2.0 Flash Thinking,以及OpenAI趕緊推出的ChatGPT o3-mini,在各項測試標竿上也不遑多讓。

結語

DeepSeek的模型震撼了西方AI強權,其技術深度不容小覷,但若放大其在AI演進歷程的重要性,似乎又言過其實,畢竟其所採用的概念皆非全新原創。 若跳脫中美在地緣政治和科技競爭的框架,來解讀此次的衝擊,我個人反而感到非常樂觀。

DeepSeek對MoE、MLA等技術的精湛優化,並沒有因為中美競爭而被封鎖在牆內。透過開源,全球的AI開發者都可學習與借鑒DeepSeek的經驗,並將這些優化策略應用到自己的模型中。 與其將DeepSeek的出現僅僅視為一場零和博弈式的競爭,不如視為巧妙的合作契機。DeepSeek乃至其他中國開源模型,或許正在以一種意想不到的方式和全球AI巨頭合作,推動全球AI技術水平的整體提升。

而最終的受益者,當然是享受更平價、更高效、更便捷AI服務的我們了。

5 1 vote
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments