微軟已正式將其最新的多模態推理模型「Phi-4-reasoning-vision-15B」開源。這款擁有 150 億參數的模型,在高效能與低成本之間取得了理想的平衡。其輕量級架構使其成為在資源受限環境中處理複雜視覺任務的絕佳新選擇。
由精煉數據驅動的「精簡強者」
有別於通常需以數兆個標記進行訓練的業界標準模型,Phi-4-reasoning-vision 僅使用 2000 億個多模態標記便成功開發完成。開發團隊透過嚴格清理開源資料、生成針對性的合成資料,以及精確校準領域專屬資料的比例(例如增加數學內容以強化計算推理能力),將資料品質置於首位。此方法使其在科學推理與螢幕元素定位任務中展現出卓越的表現。

創新的混合推理策略
此模型的關鍵創新在於其「混合推理路徑」設計:
感知任務:針對圖像描述或 OCR 等直觀任務,模型預設採用直接回答模式,以速度與低延遲為優化目標。
推理任務:當面對複雜邏輯(例如解讀數學公式或科學圖表)時,模型會自動啟動結構化的「思維鏈」(CoT)流程,以確保答案的準確性。
使用者亦可透過特定觸發語句手動切換這兩種模式,使模型行為適應不同的應用需求。
透過整合 SigLIP-2 動態解析編碼器,該模型在辨識高解析度螢幕截圖中的細微細節方面表現卓越。此能力使其成為開發電腦使用代理程式(CUA)的理想基礎,這些代理程式能精準識別並與數位介面上的按鈕、輸入欄位及其他元素進行互動。
Phi-4-reasoning-vision-15B 現已於各大開源平台上線。微軟預期,這款精簡型模型將在多模態領域中展現「更小、更快」亦能代表「更強大」的可能,進而推動空間智能與即時互動技術的廣泛應用。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/263095.html