Meta公司6月5日公布Aria Gen 2實驗性智能眼鏡的詳細(xì)設(shè)計。作為2020年初代產(chǎn)品的升級版,這款眼鏡專為AR、AI及機器人技術(shù)研究優(yōu)化,重量僅75克,配備可折疊鏡臂并提供8種尺寸選擇。Aria Gen 2搭載眼動追蹤系統(tǒng),可精準(zhǔn)捕捉視線與眨眼動作,為人機交互提供新思路。四臺計算機視覺攝像頭支持3D手部及物體追蹤,適用于高精度操作場景。此外,鼻托集成心率傳感器、降噪麥克風(fēng)及環(huán)境光傳感器,進一步擴展研究應(yīng)用場景。Meta表示,Aria Gen 2是探索未來計算平臺的重要工具,計劃于今年晚些時候向研究人員開放申請,推動技術(shù)前沿創(chuàng)新。
當(dāng)?shù)貢r間5月6日,谷歌DeepMind人工智能研究團隊發(fā)布了Gemini 2.5 Pro “I/O” ,這是今年3月發(fā)布的多模態(tài)大語言模型Gemini 2.5 Pro的升級版本。在AI排行榜LMArena上,該模型在多個指標(biāo)上登頂。目前該模型已向Google AI Studio的獨立開發(fā)者、Vertex AI云平臺的企業(yè)用戶以及Gemini應(yīng)用的普通用戶開放。
4月23日,字節(jié)跳動開源了多模態(tài)AI Agent UI-TARS的最新1.5版本。與上一代相比,1.5版本在計算機使用、瀏覽器使用和手機使用等基準(zhǔn)測試中均表現(xiàn)非常出色。在計算機使用方面,OSworld測試得分為42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1(200步);Windows Agent Arena(50步)得分為42.1,遠(yuǎn)超之前的29.8。瀏覽器使用方面,WebVoyager得分為84.8,接近OpenAI CUA和之前最高水平的87,Online-Mind2web得75.8,優(yōu)于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手機使用方面,Android World得64.2,高于之前的59.5。
Google最近發(fā)布了一個Geospatial Reasoning的代理大模型,根據(jù)介紹Geospatial Reasoning大模型想著重解決的問題:1、地理空間應(yīng)用過程中需要花費大量的成本進行數(shù)據(jù)以及模型的整合,同時還需要多領(lǐng)域的專業(yè)知識;2、如何能夠?qū)⒂脩舻臄?shù)據(jù)和Google的數(shù)據(jù)和模型進行低成本的整合應(yīng)用;3、Gemini表現(xiàn)出了強大的推理能力,這個能力有助于解決如上這些問題。
4月8日,火山引擎宣布推出一款名為Data Agent的企業(yè)數(shù)據(jù)智能體?;诖竽P偷耐评怼⒎治龊驼{(diào)用工具等能力,Data Agent能夠深度理解業(yè)務(wù)需求,自動化完成撰寫深度研究報告、營銷活動設(shè)計等任務(wù)。
近日,易智瑞GeoScene 5.1正式發(fā)布。GeoScene 5.1一核六翼產(chǎn)品技術(shù)體系中,核心產(chǎn)品和六大技術(shù)能力都融合了大量智能化功能:一方面針對時空數(shù)據(jù)生產(chǎn)、數(shù)據(jù)治理等勞動密集型工作,提供自動化工具和技術(shù)流程;另一方面提供更豐富的智能化算法,實現(xiàn)時空大數(shù)據(jù)的高效精準(zhǔn)分析挖掘;再者隨著生成式AI技術(shù)日新月異的發(fā)展,GeoScene也探索結(jié)合語言、視覺以及多模態(tài)大模型,助力用戶智能化升級邁向最前沿。
3月25日,第四范式推出大模型推理一體機解決方案SageOne Lite,8.8萬元可運行滿血版DeepSeek,以極致性價比幫助企業(yè)乃至個人實現(xiàn)本地使用DeepSeek。該方案基于KTransformers,支持單機運行滿血模型服務(wù)。此外,一體機解決方案還集成了ModelHub平臺實現(xiàn)模型管理及不同模型服務(wù)的靈活切換,內(nèi)置智能算力池化管理平臺提升GPU資源使用效率,并搭載了大模型開發(fā)平臺及開箱即用AI應(yīng)用套件,幫助企業(yè)及開發(fā)者體驗滿血強大智能同時,快速創(chuàng)建生成式AI應(yīng)用。
全球化客戶服務(wù)AI Agent企業(yè)Shulex近日完成新一輪億元級融資,由盛大資本領(lǐng)投,北極光創(chuàng)投、Starting Gate Fund跟投,非凡資本擔(dān)任獨家財務(wù)顧問。新的融資將用于加速大模型驅(qū)動的AI數(shù)字員工開發(fā),擴大全球業(yè)務(wù)版圖,并加快實現(xiàn)AI Agent大規(guī)模釋放人類生產(chǎn)力的使命。
3月20日,OpenAI進行了技術(shù)直播發(fā)布了三款全新語音模型,專用于開發(fā)語音AI Agent。兩個是語音轉(zhuǎn)文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe;一個是文本轉(zhuǎn)語音模型GPT-40 Mini TTS。OpenAI還特意開發(fā)了一個新網(wǎng)站來展示新功能。
據(jù)IPO早知道消息,在3月18日舉行的范式集團發(fā)布會上,范式集團創(chuàng)始人戴文淵發(fā)布全新的集團Logo,并分享了范式集團的 AGI 愿景與實現(xiàn)路徑。戴文淵強調(diào):“范式集團未來將用‘AI Agent+世界模型’的技術(shù)路徑去賦能更多的產(chǎn)業(yè),最終將大量垂直的智能能力匯聚成為 AGI?!?
當(dāng)?shù)貢r間3月12日,谷歌宣布推出Gemma 3,首次引入多模態(tài)能力,支持視覺-語言輸入和文本輸出。該模型可處理長達128k token的上下文窗口,理解140多種語言。Gemma 3提供四種參數(shù)規(guī)模(1B、4B、12B、27B),既包含可針對特定場景微調(diào)的預(yù)訓(xùn)練模型,也包含經(jīng)過通用指令優(yōu)化的版本。谷歌方面表示,該模型是可在單個GPU或TPU上運行的性能最強大模型。
3月11日,OpenAI舉行了一個19分鐘的線上發(fā)布會,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API兩大殺器!旨在徹底簡化agent開發(fā)流程,讓開發(fā)者和企業(yè)都能輕松構(gòu)建實用又可靠的智能體。Responses API集成了Chat Completions的簡潔和Assistants API的工具調(diào)用能力,內(nèi)置網(wǎng)頁搜索、文件搜索、電腦控制等硬核工具,一個API call就能搞定復(fù)雜任務(wù)重磅推出開源Agent SDK,多智能體workflow編排、agent行為追蹤、安全監(jiān)控統(tǒng)統(tǒng)不在話下,對比之前的Swarm SDK,簡直是性能和易用性雙重飛躍。
3月11日,Dynabook公司面向企業(yè)市場推出了一款創(chuàng)新產(chǎn)品——dynaEdge XR1透明XR眼鏡,并已開始接受訂單。這款眼鏡結(jié)合了擴展現(xiàn)實(XR)和人工智能(AI)技術(shù),通過整合計算與服務(wù),在空間中顯示信息,創(chuàng)造了一種全新的交互方式。官方表示,dynaEdge XR1適用于多種場景,如旅游、維修和商務(wù)交流,用戶可實時獲取景點信息、參考維修手冊或享受對話翻譯服務(wù)。
據(jù)創(chuàng)新工場官微,近日,面向全球的Multi-Autonomous Agents解決方案廠商“未來式智能”宣布完成數(shù)千萬元天使輪輪融資,由麟閣創(chuàng)投領(lǐng)投,薊門資管跟投、老股東創(chuàng)新工場持續(xù)跟投。融資資金將主要用于產(chǎn)品研發(fā),及市場拓展和組織運營。未來式智能(AutoAgents.ai)成立于2023年6月,致力于為全球企業(yè)提供自主智能體(AI Agents)以及智能助理(Copilot)軟件服務(wù),以提高人們的工作效率。
西湖大學(xué)AGI實驗室張馳團隊日前推出AppAgentX——一款具備自我進化能力的GUI代理。據(jù)介紹,它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實現(xiàn)更加高效的操作。從實驗結(jié)果來看,AppAgentX從單步的執(zhí)行效率到總體的API token消耗,在多個GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。
日前,一支來自中國的團隊正式對外發(fā)布通用型AI Agent產(chǎn)品Manus。據(jù)團隊介紹,Manus在GAIA基準(zhǔn)測試中取得了SOTA(State-of-the-Art)的成績,顯示其性能超越OpenAI的同層次大模型。從發(fā)布的視頻演示來看,Manus在接到用戶指令后可以直接操作電腦完成一系列報告撰寫、表格制作等工作,并在最后導(dǎo)出符合用戶需求的產(chǎn)品。
2月28日消息,Meta公布一款名為Aria Gen 2的AR智能眼鏡,這是一款以研究為導(dǎo)向的實驗性產(chǎn)品,旨在推動機器感知、以用戶為中心的情境人工智能以及機器人技術(shù)的發(fā)展。這款產(chǎn)品主要面向?qū)W術(shù)及商業(yè)研究實驗室提供,預(yù)計2026年初開始測試,不會面向消費者銷售。
2月26日消息,今天凌晨3點,微軟在官網(wǎng)開源了多模態(tài)AI Agent基礎(chǔ)模型——Magma。與傳統(tǒng)Agent相比,Magma具備跨數(shù)字、物理世界的多模態(tài)能力,能自動處理圖像、視頻、文本等不同類型數(shù)據(jù),例如,用戶可以用Magma來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者下真實象棋時獲得幫助。此外,Magma還能內(nèi)置了心理預(yù)測功能,增強了對未來視頻幀中時空動態(tài)的理解能力,能夠準(zhǔn)確推測視頻中人物或物體的意圖和未來行為。
當(dāng)?shù)貢r間2月20日,美國初創(chuàng)公司Together AI宣布完成3.05億美元的B輪融資,估值為33億美元,該輪融資由硅谷VC General Catalyst和沙特阿美旗下基金Prosperity7領(lǐng)投,投資者還包括Salesforce旗下基金、英偉達等。Together AI在聲明中稱,該輪融資不僅將在推理應(yīng)用側(cè)幫其提供更多能力,從而幫客戶開發(fā)應(yīng)用;還會在模型訓(xùn)練側(cè)幫其搭建更多英偉達先進GPU,從而對外提供更多的模型訓(xùn)練服務(wù)。Together AI稱45萬的AI開發(fā)者、公司都是其客戶,其中包括了Salesforce、Zoom、SK電信等企業(yè)。Together AI是一家獨立的開源模型服務(wù)商,為大模型的最終用戶提供開源模型的精調(diào)定制、推理部署的服務(wù),也提供模型訓(xùn)練的基礎(chǔ)設(shè)施,及GPU裸算力的租賃。
美國東部時間2025年2月18日下午,火箭實驗室的“Electron”運載火箭在新西蘭成功發(fā)射BlackSky公司首顆“Gen-3”地球成像衛(wèi)星。約55.5分鐘后,衛(wèi)星順利進入距地球470公里的圓形軌道,標(biāo)志著BlackSky在地球觀測領(lǐng)域邁出關(guān)鍵一步。Gen-3項目成功實施后,有望在農(nóng)業(yè)、城市規(guī)劃等多領(lǐng)域解鎖新應(yīng)用。