OpenAI突襲發布GPT-5.5模型,主打最強大且直覺的寫程式與跨工具操作能力,本文整理GPT-5.5與Claude Opus 4.7與Gemini 3.1 Pro等主流模型的效能比較。
AI 巨頭 OpenAI 在台灣時間 4 月 24 日凌晨,突襲推出全新 GPT-5.5 模型,宣稱是至今最聰明且操作最直覺的 AI 系統。
與前代的 GPT-5.4 相比,GPT-5.5 維持相同運算延遲水準,能以更少的標記完成任務。
OpenAI 總裁 Greg Brockman 指出,新模型是邁向直覺運算的重要進展,也是打造結合 ChatGPT、Codex 與 AI 瀏覽器的超級應用程式的關鍵一步。
即日起,
在 API 定價方面,GPT-5.5 輸入 Token 費用為每 100 萬個 5 美元,輸出為每 100 萬個 30 美元。GPT-5.5 Pro 輸入 Token 為每 100 萬個 30 美元,輸出為每 100 萬個 180 美元。
不過有趣的是,GPT-5.5 模型發表的時間點,恰逢馬斯克(Elon Musk)與 OpenAI 執行長奧特曼(Sam Altman)即將在法庭訴訟之際,引發外界關注。
在效能基準測試(Benchmark)中,GPT-5.5 展現技術優勢,但部分領域仍面臨挑戰。
GPT-5.5 在解決 GitHub 實際問題的 SWE-Bench Pro 公開測試成績為 58.6%,微幅落後 Anthropic 推出的 Claude Opus 4.7 的 64.3%。
OpenAI 雖註明測試可能受模型記憶效應影響,但仍反映 GPT-5.5 在特定開發除 Bug 存在劣勢。
資安領域方面,Anthropic 日前推出主打強大資安的 Claude Mythos Preview 模型,而 GPT-5.5 雖提升防禦能力,目前僅透過特定管道讓認證企業用於基礎設施防護。
綜合 OpenAI 官方與 ITmedia 的測試資料,在測驗實際電腦作業環境的 OSWorld-Verified 項目中,GPT-5.5 得分 78.7%,微幅領先 Claude Opus 4.7 的 78.0%。
在進階邏輯運算與工具協作的 BrowseComp 測試中,GPT-5.5 取得 84.4% 成績,勝過 Claude Opus 4.7 的 79.3%;在檢驗高等數學能力的 FrontierMath Tier 1 至 3 測試中,GPT-5.5 以 51.7% 超越 Claude Opus 4.7 的 43.8%。
與 Gemini 3.1 Pro 比較,GPT-5.5 在多數專業測試維持領先。在 GDPval 知識工作測試中,GPT-5.5 以 84.9% 超越 Gemini 3.1 Pro 的 67.3%。
針對外部工具使用的 Toolathlon 評估中,GPT-5.5 獲得 55.6% 分數,優於 Gemini 3.1 Pro 的 48.8%。
在無工具輔助的 MMMU Pro 多模態測試中,GPT-5.5 成績為 81.2%,Gemini 3.1 Pro 為 80.5%,兩者表現十分接近。
OpenAI 研究長 Mark Chen 指出,
外媒《The Verge》指出,這款新模型的問世,反映了 OpenAI 與 Anthropic 為了爭奪企業級 AI 工具市場的主導權,並為今年稍晚可能進行的首次公開募股上市(IPO)鋪路,雙方正展開日益白熱化的角力。
文章來源
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/279941.html