2026年GPT 5.4 深度實測:為什麼跑分第一的模型做不好一個網頁

GPT 5.4 深度實測:為什麼跑分第一的模型做不好一個網頁Theo t3 gg 自費用了一週 GPT 5 4 拒絕 OpenAI 的免費 Pro 訂閱 還額外捐了 200 美元抵消 API 補貼 他帶著自建 benchmark 效能評測 和真實開發任務做交叉驗證 結論是 GPT 5 4 是目前綜合最強的可用模型 但它連一個網頁都做不好 這篇文章拆解他在 這支影片 裡分享的數據 失敗案例和使用建議 懶人包 Podcast 輕鬆聽

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



Theo (t3.gg) 自費用了一週 GPT 5.4,拒絕 OpenAI 的免費 Pro 訂閱,還額外捐了 200 美元抵消 API 補貼。

他帶著自建 benchmark (效能評測) 和真實開發任務做交叉驗證,結論是:GPT 5.4 是目前綜合最強的可用模型,但它連一個網頁都做不好。

這篇文章拆解他在 這支影片 裡分享的數據、失敗案例和使用建議。

懶人包

⭐ Podcast 輕鬆聽:GPT 5.4 跑分最強卻做不好網頁的真實原因、Pro 版 17 分鐘解開人類花三天的密碼挑戰,以及為什麼 system prompt 是 AI 時代的人類護城河

GPT 5.4 在 SWE-Bench Pro 拿到 57.7 分,超越前代的 45.89,達到目前最高紀錄。

在 Artificial Analysis 的綜合排名上,5.4 X-High 與 Gemini 3.1 Pro Preview 並列最高分。

但 Theo 加了一個關鍵但書:Gemini 3.1 Pro Preview「實際上不太能用」,而 5.4 是真正可以拿來做事的最強模型。

更有趣的是 Theo 自建的 SkateBench V2。

他原本公開了 V1,但發現有些模型在 V1 拿滿分,換到 V2 的新題目卻全部答錯。

他懷疑 V1 的題目被污染進某些模型的訓練資料,所以 V2 改為私有。

V2 的結果:Gemini 3.1 Pro Preview 97%,GPT 5.4 High 82%,X-High 81%,Pro 79%。

對,Pro 的分數比 High 還低。

X-High 也比 High 低。

Theo 的解釋是 X-High 和 Pro 都有 overthink (過度思考) 的傾向,想太多反而錯更多。

這跟他在其他測試中的觀察一致。

所以結論很清楚:日常使用選 High 就夠了。

GPT 5.4 的發佈節奏很有意思。

先是 5.3 Codex,接著 5.3 Instant,然後直接跳到 5.4 Thinking。

沒有 5.4 Codex,也沒有 5.4 Instant。

Theo 的判斷是:Codex 作為獨立模型可能已經走向終結。

過去 Codex 存在的理由是 OpenAI 對基礎模型做額外的強化學習 (RL),讓它更擅長長時間的程式任務。

但 5.4 已經把這些能力整合進基礎模型了。

未來的 Codex 可能只剩產品面的意義,指的是 CLI、桌面應用和網頁介面這些工具,而不是一個獨立的模型版本。

定價也透露了一些訊息。

5.4 的 API 價格是每百萬 token 輸入 2.5 美元、輸出 15 美元,比 5.2 的 1.75/14 漲了不少,更比 5.0-5.1 的 1.25/10 高出一截。

但知識截止日期沒變,仍然是 2025 年 8 月 31 日。

漲價通常意味著運算成本增加。

Theo 推測 5.4 可能不只是在舊的基礎模型上做 RL,而是有新的預訓練基底。

不過這只是推測,OpenAI 沒有公開確認。

一個好消息是推理效率明顯提升。

Medium 等級只用大約 500 個 token,High 大約 1,100 個。

相比之下 X-High 還是會燒掉 5,400 個 token,但整體趨勢是用更少的 token 達到更好的結果。

這是最能說明 GPT 5.4 弱點的故事。

Theo 想重新設計 SkateBench 的視覺化頁面。

原本的水平長條圖在加入新模型後變得擁擠,手機上更是慘不忍睹。

他先讓 GPT 5.4 來做。

多輪來回之後,結果仍然不行。

模型一直加入不必要的資訊卡片、奇怪的圓角、文字溢出容器,還有糟糕的對齊。

Theo 形容這是「GPT 設計病」,從 GPT 5 時代就存在的結構性問題。

他跟模型說「垂直空間太多,壓縮一下」,模型只刪掉一個小標籤就宣稱完成了。

說「這些資訊不必要,移除」,模型動了但沒動到點上。

於是他換了 Gemini 3.1。

Gemini 的問題不同。

它太執著於修改現有的 Recharts (圖表套件) 實作,想在原框架裡硬改,結果螢幕空間利用一塌糊塗,而且你給它截圖說「這很糟,修」,它什麼都沒改。

最後是 Opus 4.6 解決了問題。

Opus 的第一步就不一樣:它直接判斷 Recharts 不適合這個 UI,提議拋棄套件,改用 Tailwind 和 React 從零自建。

結果有漂亮的動畫、可用的矩陣圖,手機上也正常顯示。

整個過程花了比較長的時間 (約 20 分鐘才開始改動),但方向對了,品質就跟著對了。

有個叫 ZyxCev 的開發者做了一件聰明事。

他大量生成 GPT 的 UI 設計,系統性地記錄所有 GPT 的壞習慣 (到處放 card、顏色亂配等),然後把這些寫成一個專門的指令集給模型參考。

套用前後的差異非常顯著。

這說明了一件事:5.4 的 UI 問題不是不能繞過,但需要額外投入。

如果你的工作大量涉及前端,目前最務實的做法仍然是切換到 Opus。

Theo 說 GPT 5.4 是他用過最可操控的模型,而且這個評價來自直接對比。

舉個具體的例子。

在 T3 Chat 裡,system prompt 提到支援 LaTeX (數學排版格式)。

當你問 Gemini「今天天氣如何」,它會先花時間推理自己要不要使用 LaTeX 工具來回答天氣問題。

GPT 5.4 不會這樣。

它非常清楚什麼時候該用什麼工具,什麼時候該忽略。

你在 system prompt 裡寫的指令,它會在該用的時候精準遵守,不該用的時候乾淨地跳過。

OpenAI 為 5.4 發佈了一份詳細的 prompting guidance (提示工程指南),Theo 認為這份文件比以前的任何同類文件都值得讀。

裡面有幾個關鍵建議:

你可以在 system prompt 裡寫輸出格式契約,比如「只回傳要求的段落,不要多」,5.4 真的會照做。

你可以指定什麼情況自動執行、什麼情況要先問,它分得清。

你甚至可以控制它是平行呼叫工具還是依序呼叫。

不過有一個需要注意的地方:5.4 在對話初期、上下文還很少的時候,工具選擇比較不穩定。

所以在 system prompt 裡提供多一點前置脈絡會有幫助。

另一個大進步是上下文壓縮。

超長對話不再是問題了。

Theo 說他可以跑出「超長的討論串,完全不影響」。

有一次他給模型一個指令,模型持續工作了 50 分鐘 (傍晚 6:05 到 6:55)。

他甚至認為那些用迴圈讓模型反覆執行的做法可能不再必要,因為模型現在聰明到可以自己持續跑下去。

加上中途插入新訊息時不會遺忘既有任務 (這是 OpenAI 特別訓練過的能力),整體的長時間工作體驗有了質的飛躍。

先看數字。

5.4 Pro 的 API 定價是每百萬 token 輸入 30 美元、輸出 180 美元。

是標準版的 12 倍。

在 SkateBench V2 上,Pro 拿 79%,比 High 的 82% 還低。

跑 benchmark 全套的成本也遠高於 High。

大多數場景下,Pro 就是不划算。

但 Theo 分享了一個讓他改觀的案例。

Gold Bug 是 DEF CON (全球最大的駭客大會之一) 的密碼挑戰系列。

其中一題叫 C Shanty,非常難。

Theo 和他的團隊花了大約三天才解出來,其中他的技術長 Mark 和科技 YouTuber Luke 各投入了約兩天的密集工作。

他把題目丟給 5.4 Pro。

17 分鐘就解開了。

而且其實前 2 分鐘就得到了正確答案,剩下的 14 分鐘是模型在反覆確認自己的答案 (因為答案本身看起來像亂碼)。

此前沒有任何 AI 模型能解這題。

Theo 試過讓其他模型跑五個小時以上,全部放棄。

所以 Pro 的定位很明確:它是奢侈品,不是日常工具。

日常用 High,遇到真正極端的問題才考慮 Pro。

在所有的進步之中,有一個退步值得獨立提出來。

GPT 5.4 在 function call (函式呼叫) 中的 prompt injection (提示注入) 防禦出現了回歸。

具體數字:GPT 5.1 的測試中,function call 裡的 prompt injection 成功率是 0%。

5.2 退化到約 4%。

5.4 目前約 2%。

這代表什麼?

當你讓模型去瀏覽網頁、讀取資料庫、或呼叫任何會回傳外部資料的工具時,如果那些資料裡藏了惡意指令,模型有約 2% 的機率會照做。

2% 聽起來不多,但在大規模的 AI 代理使用場景下,這個數字會被放大。

Theo 認為這個回歸的原因可能是 OpenAI 大幅強化了 tool use (工具使用) 的訓練,讓模型更積極地使用工具和處理工具回傳的資料,但副作用是對工具回傳內容的防禦機制被削弱了。

如果你正在建構會處理外部或使用者生成內容的 AI 系統,這是一個需要額外留意的風險。

GPT 5.4 確實是目前拿來做事最全面的模型。

跑分數據支撐這個結論,Theo 的實測也支撐。

但「最全面」不等於「唯一需要的」。

Theo 每天仍然用三家模型:GPT 5.4 處理大部分工作,Opus 4.6 處理 UI 和前端,Gemini 在特定 benchmark 和場景下仍然領先。

我覺得這反映的不是 5.4 不夠好,而是「一個模型打天下」根本就是錯誤期待。

真正值得關注的趨勢是可操控性。

5.4 是目前最聽話的模型,這意味著你花在系統提示詞、設定檔、AI 代理指令上的時間,回報率比以前任何時候都高。

模型越強,指揮模型的能力越重要。

這才是 5.4 帶來的真正訊號。

參考資料:GPT 5.4 深度評測 — Theo

小讯
上一篇 2026-04-03 10:44
下一篇 2026-04-03 10:42

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/225202.html