2021&

中國電信發(fā)布“復雜推理大模型”達競賽級數(shù)學表現(xiàn)，評分超o1-preview

2025-01-25 中國電信

近日，中國電信人工智能研究院（TeleAI）“復雜推理大模型”TeleAI-t1-preview正式發(fā)布。TeleAI-t1-preview使用了強化學習訓練方法，通過引入探索、反思等思考范式，大幅提升模型在數(shù)學推導、邏輯推理等復雜問題的準確性。在美國數(shù)學競賽AIME 2024、MATH500兩項權威數(shù)學基準評測中，TeleAI-t1-preview分別以60和93.8分的成績，大幅超越OpenAI o1-preview、GPT-4o等標桿模型。在研究生級別問答測試GPQA Diamond中，TeleAI-t1-preview得分超過 GPT-4o，并比肩Claude 3.5 Sonnet的性能水準。

以2024年全國高中數(shù)學競賽試題為例，TeleAI-t1-preview面對三角函數(shù)的復雜等式關系，通過多次假設嘗試和思路糾偏，將原先的復雜等式抽絲剝繭，轉化成簡化的方程式，并經過邏輯清晰的公式推導后，最終給出了正確答案。

TeleAI-t1-preview在回答問題時并非只是給出結論，而是把思考和分析過程也完整呈現(xiàn)。這樣可以幫助學生在做題過程中深入理解題目背后的邏輯和思考方法。

在一道概率論考研試題中，題目涉及“泊松分布”概念。TeleAI-t1-preview首先對這個概念進行了介紹和解讀，然后給出解題思路和最終答案。

我國古代數(shù)學發(fā)展歷史悠久，流傳眾多經典著作，但因其文言文表述，通常讓人望而卻步。不少大模型也會陷入沉思，無法作答。將《九章算術》中的一道題目給到TeleAI-t1-preview后，它先針對文言文進行了理解和簡化，轉換成現(xiàn)代漢語，隨之給出數(shù)學推導和答案。

在過程中，TeleAI-t1-preview還將形象思維與抽象思維結合，對所涉及的場景進行具象化思考，輔助理解題目。同時，它還嚴謹?shù)剡M行了古今單位換算，順利過關。

如果說數(shù)學競賽和考研題目還能符合人的正常思維方式，那么面對極度“燒腦”的策略推理問題時，以往的大模型往往會答非所問，被繞到“陷阱”中去。TeleAI-t1-preview能夠迅速理解游戲規(guī)則并完成破題。

TeleAI-t1-preview在解題過程中，列出了對游戲規(guī)則的理解、場景道具分析、優(yōu)劣勢分析，并給出解題策略、驗證有效性。不僅如此，它還考慮到了可能出現(xiàn)的特殊情況。

針對 TeleAI-t1-preview訓練的不同階段，TeleAI引入了創(chuàng)新的訓練策略，從而保障思考推理過程準確有效。

數(shù)據(jù)準備階段：收集、構建了一個以數(shù)學為核心、多學科為補充的高質量推理數(shù)據(jù)集，確保模型能夠適應不同類型的推理任務。

Judge Model（評估模型）：訓練了一個Judge Model專門用于分析和評估模型長思考鏈路的正確性，為模型的反思和錯誤修正提供指導。

SFT（監(jiān)督微調）階段：用MCTS（蒙特卡洛樹搜索）構造高質量長推理數(shù)據(jù)，結合每個步驟的準確率和解決方案長度來選擇最優(yōu)的完整路徑，在保證推理答案準確性的同時有效拉長思考鏈路以獲得更細粒度的推理過程。同時使用 Judge Model對推理過程中正確率較低的路徑進行分析，引導模型對錯誤的推理步驟進行反思和修正，從而構造出高質量的思維鏈數(shù)據(jù)進行SFT訓練。

強化學習階段：額外構造了Rule-based Reward Model（基于規(guī)則的獎勵模型），以提供足夠準確的獎勵信號，通過在線強化學習算法進一步提升模型的邏輯推理能力。

直觀呈現(xiàn)的思維鏈將幫助人們更清晰地追蹤推理過程，方便驗證推理正確性，從而使模型的可解釋性和透明度大大提升。

TeleAI將持續(xù)在推理模型領域研究探索，讓人工智能基于人類的“已知”，推導出期盼得到的“未知”。

掃一掃在手機打開當前頁

關鍵詞 : 人工智能;集團