1月25日,中國電信人工智能研究院(TeleAI)“復(fù)雜推理大模型”TeleAI-t1-preview正式發(fā)布。TeleAI-t1-preview使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方法,通過引入探索、反思等思考范式,提升模型在數(shù)學(xué)推導(dǎo)、邏輯推理等復(fù)雜問題的準(zhǔn)確性。在美國數(shù)學(xué)競賽AIME 2024、MATH500兩項(xiàng)數(shù)學(xué)基準(zhǔn)評(píng)測(cè)中,TeleAI-t1-preview分別以60和93.8分的成績,超過OpenAI o1-preview、GPT-4o等標(biāo)桿模型。在研究生級(jí)別問答測(cè)試GPQA Diamond中,TeleAI-t1-preview得分超過 GPT-4o。(科創(chuàng)板日?qǐng)?bào))