GDPVal:知識白領的警鐘?

因此,與其討論 AI 是否會取代白領,或某個職能是否會消失,不如反思白領工作者是否仍然把自身價值,建立在那些已可被清楚拆解、被量化,並交由工具穩定執行的能力之上。當計算機取代算盤時,被淘汰的不是會計這個職業,而是「以手算速度作為專業核心」的工作方式。

LLM職場能力排行榜

大語言模型出現之後,顧問公司與國際組織陸續提出警告,認為現有工作型態將受到顯著衝擊。高盛在研究報告中估計,全球約三億個全職工作面臨自動化的威脅;國際貨幣基金組織(IMF)也指出,全球約四成的就業將在不同程度上受到 AI 影響。這些分析多半聚焦於「工作任務暴露在被 AI 取代或被迫轉型的程度」,意指部分工作內容可能被重新分配、重組,甚至消失,而非直接預測大規模失業,但仍足以加深白領們對工作前景的不安。

這樣的焦慮並非空穴來風。近年來,多家科技巨頭陸續進行人力調整,例如 Amazon 在今年第四季裁撤至少一萬四千名員工。儘管這類裁員決策往往涉及成本結構、業務重組與景氣循環等多項因素,AI 的快速進展仍被普遍視為加速此一轉變的重要背景。

有趣的是,若回頭檢視大語言模型如何衡量自身能力的進展,不難發現其主要標準並未對應多數白領工作的實際樣貌。模型更新迭代或與競爭對手比較時,多以答對多少「試卷題目」作為指標,這些題目多半是可明確判定對錯的數學難題,或高度專業的冷僻知識,而非職場中常見的模糊決策、跨部門溝通,或在資訊不完整情況下做出判斷的挑戰。

一邊是宏觀研究報告不斷警告知識型工作者將面臨取代風險,另一邊的主流模型評測卻持續強化解題能力。這樣的落差,讓人不得不重新思考:白領工作的核心價值,是否真的如此容易被這類能力所取代?

AI的職場模擬器

OpenAI 在 2025 年 9 月推出的評測框架「GDPVal」,正是試圖拉近「實際應用」與「考試評測」之間的距離。GDPVal 最特別之處,在於它聚焦於對整體經濟產出具有代表性的高 GDP 產業與經濟活動,並挑選其中掌握關鍵經濟決策的職能,進一步拆解那些真正影響產出與效率的任務,再將其轉化為可量化的決策情境。

舉例而言,GDPVal 的某一項任務,設定於「專業、科學及技術服務業」中的「會計與稽核」職能。模型需檢查儲存於 Excel 中的反金融犯罪指標資料是否正確,依給定的信心水準與可容忍誤差計算樣本量,並按事前定義的風險條件選取具代表性的指標樣本,最終輸出樣本清單至另一份 Excel,供後續審查使用。

在評測過程中,OpenAI 讓各行業的人類專家與不同的大語言模型執行相同任務,再由具備相關實務經驗的評分員進行盲評。結果顯示,前一代的大語言模型,例如 OpenAI o3、Gemini 2.5 與 Grok 4,其產出品質明顯落後於人類專家;但近期發表的模型能力已出現顯著躍進。以表現最佳的 GPT-5.2 為例,約有兩成任務與人類專家不相上下,五成任務的表現則已超越人類專家。

從技術發展的軌跡來看,大語言模型在愈來愈多任務上追平,甚至全面超過人類專家,恐怕只是時間問題。然而,這並不等同於白領工作者理應被 AI 取代,或裁員因此成為必要手段。真正發生的改變,不是人類失去價值,而是工具的能力邊界已經明顯擴張。

白領價值轉型

當一項工作流程能被清楚拆解,所需的步驟與工具也能被模型理解並正確使用時,讓 AI 代勞往往意味著更高的效率與更穩定的品質。在這樣的情境下,白領工作者未必需要繼續投入大量時間執行任務,或反覆學習執行細節本身。相對地,白領的專業價值逐漸轉向:思考哪些任務值得被執行、如何拆解與組合任務,並在不同限制條件下設計更好的執行方式,同時在執行過程中負責跨領域的協調與決策。

因此,與其討論 AI 是否會取代白領,或某個職能是否會消失,不如反思白領工作者是否仍然把自身價值,建立在那些已可被清楚拆解、被量化,並交由工具穩定執行的能力之上。當計算機取代算盤時,被淘汰的不是會計這個職業,而是「以手算速度作為專業核心」的工作方式。

當 AI 能力的評測框架開始轉向衡量模型能否參與經濟活動、影響決策結果,專業的定義也隨之改寫。這並不意味著白領工作的終結,而是意味著能力重心的移動。在工具快速進化的時代,執行不再是稀缺資源,判斷、設計與承擔後果才是。誰能定義問題、決定任務邊界,並在不確定中做出可被組織承擔的選擇,誰就仍然握有專業的核心價值。AI 改變的,從來不是工作是否存在,而是哪些能力,值得被保留下來。

5 1 vote
Article Rating
Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments