Theo (t3.gg) 自費用了一週 GPT 5.4,拒絕 OpenAI 的免費 Pro 訂閱,還額外捐了 200 美元抵消 API 補貼。
他帶著自建 benchmark (效能評測) 和真實開發任務做交叉驗證,結論是:GPT 5.4 是目前綜合最強的可用模型,但它連一個網頁都做不好。
這篇文章拆解他在 這支影片 裡分享的數據、失敗案例和使用建議。
懶人包
⭐ Podcast 輕鬆聽:GPT 5.4 跑分最強卻做不好網頁的真實原因、Pro 版 17 分鐘解開人類花三天的密碼挑戰,以及為什麼 system prompt 是 AI 時代的人類護城河
GPT 5.4 在 SWE-Bench Pro 拿到 57.7 分,超越前代的 45.89,達到目前最高紀錄。
在 Artificial Analysis 的綜合排名上,5.4 X-High 與 Gemini 3.1 Pro Preview 並列最高分。
但 Theo 加了一個關鍵但書:Gemini 3.1 Pro Preview「實際上不太能用」,而 5.4 是真正可以拿來做事的最強模型。
更有趣的是 Theo 自建的 SkateBench V2。
他原本公開了 V1,但發現有些模型在 V1 拿滿分,換到 V2 的新題目卻全部答錯。
他懷疑 V1 的題目被污染進某些模型的訓練資料,所以 V2 改為私有。
V2 的結果:Gemini 3.1 Pro Preview 97%,GPT 5.4 High 82%,X-High 81%,Pro 79%。
對,Pro 的分數比 High 還低。
X-High 也比 High 低。
Theo 的解釋是 X-High 和 Pro 都有 overthink (過度思考) 的傾向,想太多反而錯更多。
這跟他在其他測試中的觀察一致。
所以結論很清楚:日常使用選 High 就夠了。
GPT 5.4 的發佈節奏很有意思。
先是 5.3 Codex,接著 5.3 Instant,然後直接跳到 5.4 Thinking。
沒有 5.4 Codex,也沒有 5.4 Instant。
Theo 的判斷是:Codex 作為獨立模型可能已經走向終結。
過去 Codex 存在的理由是 OpenAI 對基礎模型做額外的強化學習 (RL),讓它更擅長長時間的程式任務。
但 5.4 已經把這些能力整合進基礎模型了。
未來的 Codex 可能只剩產品面的意義,指的是 CLI、桌面應用和網頁介面這些工具,而不是一個獨立的模型版本。
定價也透露了一些訊息。
5.4 的 API 價格是每百萬 token 輸入 2.5 美元、輸出 15 美元,比 5.2 的 1.75/14 漲了不少,更比 5.0-5.1 的 1.25/10 高出一截。
但知識截止日期沒變,仍然是 2025 年 8 月 31 日。
漲價通常意味著運算成本增加。
Theo 推測 5.4 可能不只是在舊的基礎模型上做 RL,而是有新的預訓練基底。
不過這只是推測,OpenAI 沒有公開確認。
一個好消息是推理效率明顯提升。
Medium 等級只用大約 500 個 token,High 大約 1,100 個。
相比之下 X-High 還是會燒掉 5,400 個 token,但整體趨勢是用更少的 token 達到更好的結果。
這是最能說明 GPT 5.4 弱點的故事。
Theo 想重新設計 SkateBench 的視覺化頁面。
原本的水平長條圖在加入新模型後變得擁擠,手機上更是慘不忍睹。
他先讓 GPT 5.4 來做。
多輪來回之後,結果仍然不行。
模型一直加入不必要的資訊卡片、奇怪的圓角、文字溢出容器,還有糟糕的對齊。
Theo 形容這是「GPT 設計病」,從 GPT 5 時代就存在的結構性問題。
他跟模型說「垂直空間太多,壓縮一下」,模型只刪掉一個小標籤就宣稱完成了。
說「這些資訊不必要,移除」,模型動了但沒動到點上。
於是他換了 Gemini 3.1。
Gemini 的問題不同。
它太執著於修改現有的 Recharts (圖表套件) 實作,想在原框架裡硬改,結果螢幕空間利用一塌糊塗,而且你給它截圖說「這很糟,修」,它什麼都沒改。
最後是 Opus 4.6 解決了問題。
Opus 的第一步就不一樣:它直接判斷 Recharts 不適合這個 UI,提議拋棄套件,改用 Tailwind 和 React 從零自建。
結果有漂亮的動畫、可用的矩陣圖,手機上也正常顯示。
整個過程花了比較長的時間 (約 20 分鐘才開始改動),但方向對了,品質就跟著對了。
有個叫 ZyxCev 的開發者做了一件聰明事。
他大量生成 GPT 的 UI 設計,系統性地記錄所有 GPT 的壞習慣 (到處放 card、顏色亂配等),然後把這些寫成一個專門的指令集給模型參考。
套用前後的差異非常顯著。
這說明了一件事:5.4 的 UI 問題不是不能繞過,但需要額外投入。
如果你的工作大量涉及前端,目前最務實的做法仍然是切換到 Opus。
Theo 說 GPT 5.4 是他用過最可操控的模型,而且這個評價來自直接對比。
舉個具體的例子。
在 T3 Chat 裡,system prompt 提到支援 LaTeX (數學排版格式)。
當你問 Gemini「今天天氣如何」,它會先花時間推理自己要不要使用 LaTeX 工具來回答天氣問題。
GPT 5.4 不會這樣。
它非常清楚什麼時候該用什麼工具,什麼時候該忽略。
你在 system prompt 裡寫的指令,它會在該用的時候精準遵守,不該用的時候乾淨地跳過。
OpenAI 為 5.4 發佈了一份詳細的 prompting guidance (提示工程指南),Theo 認為這份文件比以前的任何同類文件都值得讀。
裡面有幾個關鍵建議:
你可以在 system prompt 裡寫輸出格式契約,比如「只回傳要求的段落,不要多」,5.4 真的會照做。
你可以指定什麼情況自動執行、什麼情況要先問,它分得清。
你甚至可以控制它是平行呼叫工具還是依序呼叫。
不過有一個需要注意的地方:5.4 在對話初期、上下文還很少的時候,工具選擇比較不穩定。
所以在 system prompt 裡提供多一點前置脈絡會有幫助。
另一個大進步是上下文壓縮。
超長對話不再是問題了。
Theo 說他可以跑出「超長的討論串,完全不影響」。
有一次他給模型一個指令,模型持續工作了 50 分鐘 (傍晚 6:05 到 6:55)。
他甚至認為那些用迴圈讓模型反覆執行的做法可能不再必要,因為模型現在聰明到可以自己持續跑下去。
加上中途插入新訊息時不會遺忘既有任務 (這是 OpenAI 特別訓練過的能力),整體的長時間工作體驗有了質的飛躍。
先看數字。
5.4 Pro 的 API 定價是每百萬 token 輸入 30 美元、輸出 180 美元。
是標準版的 12 倍。
在 SkateBench V2 上,Pro 拿 79%,比 High 的 82% 還低。
跑 benchmark 全套的成本也遠高於 High。
大多數場景下,Pro 就是不划算。
但 Theo 分享了一個讓他改觀的案例。
Gold Bug 是 DEF CON (全球最大的駭客大會之一) 的密碼挑戰系列。
其中一題叫 C Shanty,非常難。
Theo 和他的團隊花了大約三天才解出來,其中他的技術長 Mark 和科技 YouTuber Luke 各投入了約兩天的密集工作。
他把題目丟給 5.4 Pro。
17 分鐘就解開了。
而且其實前 2 分鐘就得到了正確答案,剩下的 14 分鐘是模型在反覆確認自己的答案 (因為答案本身看起來像亂碼)。
此前沒有任何 AI 模型能解這題。
Theo 試過讓其他模型跑五個小時以上,全部放棄。
所以 Pro 的定位很明確:它是奢侈品,不是日常工具。
日常用 High,遇到真正極端的問題才考慮 Pro。
在所有的進步之中,有一個退步值得獨立提出來。
GPT 5.4 在 function call (函式呼叫) 中的 prompt injection (提示注入) 防禦出現了回歸。
具體數字:GPT 5.1 的測試中,function call 裡的 prompt injection 成功率是 0%。
5.2 退化到約 4%。
5.4 目前約 2%。
這代表什麼?
當你讓模型去瀏覽網頁、讀取資料庫、或呼叫任何會回傳外部資料的工具時,如果那些資料裡藏了惡意指令,模型有約 2% 的機率會照做。
2% 聽起來不多,但在大規模的 AI 代理使用場景下,這個數字會被放大。
Theo 認為這個回歸的原因可能是 OpenAI 大幅強化了 tool use (工具使用) 的訓練,讓模型更積極地使用工具和處理工具回傳的資料,但副作用是對工具回傳內容的防禦機制被削弱了。
如果你正在建構會處理外部或使用者生成內容的 AI 系統,這是一個需要額外留意的風險。
GPT 5.4 確實是目前拿來做事最全面的模型。
跑分數據支撐這個結論,Theo 的實測也支撐。
但「最全面」不等於「唯一需要的」。
Theo 每天仍然用三家模型:GPT 5.4 處理大部分工作,Opus 4.6 處理 UI 和前端,Gemini 在特定 benchmark 和場景下仍然領先。
我覺得這反映的不是 5.4 不夠好,而是「一個模型打天下」根本就是錯誤期待。
真正值得關注的趨勢是可操控性。
5.4 是目前最聽話的模型,這意味著你花在系統提示詞、設定檔、AI 代理指令上的時間,回報率比以前任何時候都高。
模型越強,指揮模型的能力越重要。
這才是 5.4 帶來的真正訊號。
參考資料:GPT 5.4 深度評測 — Theo
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/225202.html