謝謝這位17歲的天才

在大語言模型(LLM)百花齊放的現在,OpenAI的ChatGPT不管在知名度、使用人數、功能豐富度上仍是名列前茅,保持著先進者優勢。不過,後面仍有許多勁敵努力拉近距離,如孿生的微軟CoPilot、發明Transformer的Google Gemini、主打開源的Meta Llama、以及我目前工作上的首選、以強調倫理與責任為核心的Anthropic Claude。

儘管這些LLM皆試圖發展出自己的特色與擅長領域,OpenAI在2024年9月推出的「會思考」模型ChatGPT o1預覽版,又再度將競爭對手拋到腦後。根據OpenAI的測試,4o模型在2024美國數學邀請賽(AIME)的題目中,答對率只有12%,但o1卻來到驚人的74%,換算成排名可達全美前500名學生!

o1預覽版想了53秒即解出AIME的數學難題

關鍵的思路鏈(Chain-of-thought)

o1表現之所以能夠如此驚艷,最關鍵的技術在於思路鏈(COT)。傳統LLM接收到使用者的問題時,會直接把模型結果輸出,因此各家拚的是模型能夠產出多好的「結果」;具備COT能力的LLM,則會先理解問題、拆解問題、設計解決這個問題的對策與步驟,接著才開始生成資訊,因此後o1時代的競爭重點轉向模型在邏輯推理與問題解構上的能力。

如果Claude可以具備COT的能力,該有多好?我跟中國一位17歲的高中生涂津豪(Richards Tu)都有類似的想法,差別在於他還真的付諸行動。首先,他花了很多時間撰寫給Claude的提示詞,要求它回答問題前必須先思考;接著,由於Claude會把思考過程輸出,Richard又寫了一個瀏覽器擴充程式,可以摺疊思考過程的文字。這一頓操作下來,幾乎完美複製了o1,甚至說更強也不為過——因為o1預覽版無法上傳檔案互動,但Claude可以!

會思考的Claude

Claude變身詳解

  1. 到Richard的Github專案Thinking-Claude頁面,下載整個專案。
  2. 在model_instructions資料夾中,找到並複製最新的Prompt。
  3. 於Claude新增專案,並在Project knowledge中貼上步驟2的Prompt。
  4. 在瀏覽器安裝Thinking Claude擴充程式。目前支援Chrome與Firefox,方法大同小異,皆是把extention資料夾內的擴充程式載入瀏覽器。
  5. Enjoy

十七歲的啟示

當媒體還在宣傳「人工智慧將取代人類工作」的論點時,Richard則是忙著示範如何與人工智慧「協作」。讓Claude思考的提示詞,是他與Claude不斷互動、互相激發的成果;而利用擴充程式摺疊思考過程,也是Claude的建議

在他身上,除了看到他職涯的無限可能,也似乎預告了未來我們與人工智慧的協作樣貌。

5 1 vote
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments