8月12日,華為正式發(fā)布AI推理創(chuàng)新技術UCM(推理記憶數據管理器)。據了解,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,可擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,降低每Token推理成本。該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業(yè)務場景中,開展智慧金融AI推理加速應用試點,并已取得成果。(人民財訊)
8月12日,華為正式發(fā)布AI推理創(chuàng)新技術UCM(推理記憶數據管理器)。據了解,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,可擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,降低每Token推理成本。該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業(yè)務場景中,開展智慧金融AI推理加速應用試點,并已取得成果。(人民財訊)