本瓜手上的是一台 M4 32G 内存的 mac,我看了一篇关于:4090 跑 Qwen 35b 模型(MoE)-0限制版本 的实战文章,所以,便想着记录一下,相关的对比情况:

最直接的结论:
4090 的 AI 推理算力大约是 M4 的 3~6 倍。
4090 是专门为 AI 训练 / 推理设计,M4 是通用 SoC,所以在深度学习框架(CUDA生态)下:PyTorch、TensorRT、vLLM,4090 都会更强。
但 Mac 有个很大的优势:统一内存架构(Unified Memory)。,在本地 LLM 推理中:Mac 可以GPU用一部分、CPU用一部分、自动共享

比如:40GB模型,Mac 32GB:GPU+CPU 可以混合跑。4090:显存只有 24GB ,必须:量化、offload CPU,否则放不进去。
Apple Silicon 的 统一内存架构 + Metal 推理,使得 Mac 在 本地 LLM 推理领域的性价比非常高。很多原本以为必须上 4090 的模型,其实在 Mac 上也能跑,只是速度不同。
下面这份榜单,按 实际可用性 + 能力上限 排序,专门针对 M4 32GB / M3 36GB / M2 32GB 这类配置。
备注:
排名依据:实际可运行、能力强度、速度体验、社区成熟度
运行环境默认:llama.cpp、LM Studio、Jan、Ollama
模型格式:GGUF
这类模型属于:能力接近云端模型,但本地还能跑。
能力:极强推理、代码能力强、中文能力最强
推荐量化:
Q4_K_M
占用:
≈ 20-24GB
体验:
- M4 32GB:可流畅运行
- tokens:≈ 10-20 tok/s
适合:
- 编程
- AI Agent
- 文档分析
- 长上下文任务
这是目前 Mac 上综合能力最强的一档模型。
这是目前非常经典的 MoE 模型。
结构:8个专家、每次激活2个
实际计算量:≈ 13B
推荐量化:
GPT plus 代充 只需 145Q3_K_M
占用:≈ 24GB+
特点:
- 推理强
- 写作能力强
- 非常稳定
很多人认为这是 最像 GPT-4 的开源模型之一。
DeepSeek 的蒸馏模型是近两年最火的。
优势:
- 数学
- 推理
- 代码
推荐版本:
DeepSeek-R1-Distill-Qwen-32B
推荐量化:
GPT plus 代充 只需 145Q4_K_M
占用:≈ 22GB
体验:
Mac 上运行效果非常好。
这类模型:
速度明显更快,但能力稍低。
70B 模型本身极强,但 Mac 必须低量化。
推荐:
IQ2_M
占用:≈ 24-28GB
体验:
- 能跑
- 速度一般
优点:
知识面非常广。
这是非常稳定的一个模型。
优点:
- 中文非常强
- 代码不错
- 推理稳定
推荐量化:
GPT plus 代充 只需 145Q6_K
占用:≈ 14GB
速度:
≈ 30 tok/s
非常适合作为:
日常 AI 助手。
阿里之前投资的零一万物模型。
能力:
- 中文写作
- 逻辑
推荐量化:
Q4_K_M
占用:
≈ 22GB
这类模型:
小,但非常快。
推荐量化:
GPT plus 代充 只需 145Q8_0
占用:8GB
速度:≈ 60 tok/s
适合:
- AI coding
- Agent
- 工具调用
优点:
- 极快
- 低功耗
适合:
- AI终端
- 嵌入式
这类模型可以跑,但不推荐日常使用。
需要:
- CPU offload
- 超慢
仅适合:
研究。

现在,2026 年 3 月,Mac M4 + 32GB 它大致相当于:一台中端 AI 推理工作站,可以稳定运行:30B 级模型
能力已经远远超过:- ChatGPT 3.5 - 早期 Claude,而且:完全本地、离线运行。
这也是为什么越来越多开发者开始用 Mac 做 AI 本地实验室。
很多结果会非常出乎意料。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/241252.html