加入最愛專欄  收藏文章 

2024-12-27

AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠?

  全球首個具備思考能力的AI模型OpenAI o1於今年9月誕生,想不到事隔3個月,就有下一代新產品亮相,而且更是直接跳到「o3」世代,為生成式AI應用邁向高階推理樹立了新標竿。OpenAI執行長奧特曼豪言,這標誌著AI發展正式步入「下一階段」。究竟o3比前代o1和ChatGPT等主流模型的效能強上多少?它距離AI行業的聖盃「通用人工智能」又有多遠?

 

模仿人類作多層次邏輯分析思考

 

  2024年12月21日,OpenAI執行長山姆·奧特曼(Sam Altman)親自在網上直播中發表新一代o3模型系列,包括o3與o3-mini;後者是針對特定任務進行微調、規模較前者為小的精煉版模型。在技術層面上,o3擁有3大特點:思維鏈(Chain of Thought)、自適應思考時間(Adaptive Thinking Time),以及審慎對齊(Deliberative Alignment)。

 

  o3模型的核心創新在於「思維鏈」推理方法。有別於主流AI模型以最短時間的直接給出答案,o3模仿人類思考過程,透過內部的思考路徑,先將複雜問題拆解成小步驟,然後按照邏輯順序逐步解決問題;思考過程中能夠自身進行事實查證,避開一些易令模型出錯的資訊陷阱,以提高推理的準確性和複雜性問題的處理能力,惟缺點是需要較長時間始能回應用戶提問。

 


 

多項專業測試表現遠超前代o1

 

  正因如此,o3在多項專業基準測試中的表現遠超前代o1模型。在美國數學競賽AIME中,o3答對率高達96.7%,僅錯了一條題目。研究機構Epoch AI聯同60多位著名數學家所設計的數學前沿測試FrontierMath,涵蓋現代數學中的數論、代數與幾何等領域,題目難度非常高,專家都要需花上數小時、甚至數日方能解答,GPT-4o與Claude 3.5等主流模型的解題成功率更平均低於2%,結果o3突破性地答對25.2%的問題。

 

  在編程測試Codeforces中,o3得分達到2,727分,不但遠遠拋離o1的1,891分,更勝過OpenAI首席科學家的2,665分。在博士生級別的科學測驗GPQA Diamond中,o3獲得87.7%的答對率,亦遠高於人類專家的成績。這些測試結果反映o3未來將對軟件編程和科學研究作出不少貢獻。

 


「GPQA Diamond」是一項達到博士生水平的生物、物理和化學測驗,o3模型的答對率達到87.7%,優於前代o1的78%。(圖片來源:翻攝OpenAI官方YouTube影片)

 

按需調整o3模型思考時間長度

 

  其次,o3引入可調節的推理模式「自適應思考時間」,容許用戶按個人需要調整模型的思考時間長度,分為低、中、高三個運算級別。由開源類神經網絡庫Keras之父Fran ç ois Chollet提出的ARC-AGI評測,通過圖形邏輯推理來測試模型的抽象推理能力,以評估AI系統是否能在訓練數據之外有效獲得新技能。結果在低運算模式中,o3得分為75.7%,成績是o1的3倍;在高運算模式中,它更達到87.5%,超越人類水平的85%門檻。

 

  如此令人驚艷的成績,引發科技界對o3是否接近通用人工智能(Artificial General Intelligence,AGI)的熱議。AGI意指,有能力完成人類所能完成的各種任務的人工智能。OpenAI則將之定義為「在大多數具有經濟價值的工作中,表現優於人類的高度自主系統」。

 


「ARC-AGI」是一項用於評估AI系統通用人工智能能力的測試,o3模型獲得驚人的87.5%高分,遠勝前代o1的32%。(圖片來源:翻攝OpenAI官方YouTube影片)

 

2025年有望看到AGI首批案例

 

  OpenAI宣稱,至少在某些條件下,o3可說是接近實現AGI,並表示現正跟ARC-AGI背後組織ARC Prize Foundation合作開發下一代基準測試,為評估AGI做好準備。奧特曼早前預測,最快在2025年內可以看到AGI的首批案例。在這些案例中,用戶可以把一些非常複雜的任務交給AI處理,它像人類般懂得運用不同的工具來完成這些任務。

 

  對OpenAI而言,實現AGI將帶來更大的實際意義。根據OpenAI與其最大金主微軟(Microsoft)的合作協議條款,當該公司的技術達到AGI境界,就有權不讓微軟使用那些符合AGI定義的技術。因此,AGI將成OpenAI擺脫微軟的「逃生口」。

 

審慎對齊強制模型遵循安全規則

 

  邁向AGI的跨步突破,難免令部分人對AI安全性感到憂慮。有鑑於此,OpenAI採用全新的「審慎對齊」訓練方法,使模型能理解並遵循人類撰寫的安全規則,過程中無需人類測試員再標註干預;每次回答用戶提問前,都會先參考這些安全規則,然後輸出更安全、更無害的答案。這不僅降低模型產生不當回應的風險,也讓其在處理高度敏感性任務時更加可靠。然而,此技術的有效性仍需進一步驗證。

 

  事實上,風險確實可能存在。AI安全測試人員發現,相比起主流模型,o1試圖欺騙用戶的比例較高,估計o3的欺騙能力可能會更強。因此,在o3正式推出前,OpenAI先會進行紅隊演練(Red Team Assessment),由內部AI安全測試員模擬真實黑客的攻擊手段,並公開邀請外部研究人員參與安全測試。

 

2025年1月底先推出o3 mini

 

  奧特曼指出,o3系列的發表象徵著AI技術進入「下一階段」,用戶可以利用它們處理更具挑戰性的任務,讓AI變成解決複雜問題的可靠夥伴。他表示,預計2025年1月底先推出o3 mini,隔一段時間後再釋出完全版o3。OpenAI期望,更強大的新模型可以超越現有模型,吸引更多用戶與投資者的青睞。

 

  o3的進步,確實縮短了當今AI技術與AGI之間的差距,但仍有許多挑戰需要克服,例如情感理解、以及常識推理等方面的能力提升。可是,o3作為AI發展上的重要里程碑,表明實現AGI的技術路徑已愈發清晰了!

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

樂本健【年度感謝祭】維柏健及natural Factors全線2件7折► 了解詳情

更多智城物語文章
你可能感興趣
#通用人工智能 #Smart Living #思維鏈  #OpenAI  #AGI #o3  #AI 
編輯推介
即時報價
全文搜索
Search
最近搜看
回顧24 展望25
大國博弈
More
Share