3月26日,谷歌正式推出新一代人工智能推理模型Gemini 2.5,該模型以“思考-驗(yàn)證-回答”的多模態(tài)推理能力為核心,被谷歌稱為“目前最智能的模型”。
其旗艦版本Gemini 2.5 Pro Experimental在多項(xiàng)基準(zhǔn)測(cè)試中超越OpenAI、Anthropic等競(jìng)爭(zhēng)對(duì)手,尤其在代碼生成和數(shù)學(xué)推理領(lǐng)域表現(xiàn)亮眼,標(biāo)志著AI技術(shù)在復(fù)雜任務(wù)處理上的重大突破。
Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口達(dá)100萬token(約75萬單詞),可解析完整《指環(huán)王》系列文本,未來將升級(jí)至200萬token。這一能力使其在處理跨模態(tài)復(fù)雜問題時(shí)更具優(yōu)勢(shì)。
代碼生成:在Aider Polyglot代碼編輯測(cè)試中得分68.6%,超越OpenAI、Anthropic等模型;SWE-bench Verified測(cè)試中獲63.8%,僅次于Claude 3.7 Sonnet(70.3%)。
數(shù)學(xué)與科學(xué)推理:在“人類最后考試”(多模態(tài)綜合測(cè)試)中以18.8%準(zhǔn)確率領(lǐng)先多數(shù)競(jìng)品,且無需依賴外部工具。
通用能力:在LMArena排行榜上以40分優(yōu)勢(shì)超越GPT-4.5,登頂視覺競(jìng)技場(chǎng)(Vision Arena)及網(wǎng)頁開發(fā)競(jìng)技場(chǎng)(WebDev Arena)。
Gemini 2.5 Pro即日起通過Google AI Studio和Gemini應(yīng)用向訂閱“Gemini Advanced”(月費(fèi)20美元)的用戶開放,未來將登陸Vertex AI平臺(tái)。谷歌暫未公布API定價(jià),但表示將在幾周內(nèi)披露企業(yè)級(jí)應(yīng)用方案。
{{item.content}}