3月26日,谷歌正式推出新一代人工智能推理模型Gemini 2.5,該模型以“思考-驗證-回答”的多模態(tài)推理能力為核心,被谷歌稱為“目前最智能的模型”。
其旗艦版本Gemini 2.5 Pro Experimental在多項基準測試中超越OpenAI、Anthropic等競爭對手,尤其在代碼生成和數(shù)學推理領域表現(xiàn)亮眼,標志著AI技術在復雜任務處理上的重大突破。
Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口達100萬token(約75萬單詞),可解析完整《指環(huán)王》系列文本,未來將升級至200萬token。這一能力使其在處理跨模態(tài)復雜問題時更具優(yōu)勢。
代碼生成:在Aider Polyglot代碼編輯測試中得分68.6%,超越OpenAI、Anthropic等模型;SWE-bench Verified測試中獲63.8%,僅次于Claude 3.7 Sonnet(70.3%)。
數(shù)學與科學推理:在“人類最后考試”(多模態(tài)綜合測試)中以18.8%準確率領先多數(shù)競品,且無需依賴外部工具。
通用能力:在LMArena排行榜上以40分優(yōu)勢超越GPT-4.5,登頂視覺競技場(Vision Arena)及網(wǎng)頁開發(fā)競技場(WebDev Arena)。
Gemini 2.5 Pro即日起通過Google AI Studio和Gemini應用向訂閱“Gemini Advanced”(月費20美元)的用戶開放,未來將登陸Vertex AI平臺。谷歌暫未公布API定價,但表示將在幾周內(nèi)披露企業(yè)級應用方案。
{{item.content}}