最近杜老师一直在折腾一件事:能不能在自己的 Mac 上直接把 LLM 跑起来,免去调用 API 的麻烦。折腾了一周,今天就跟大家聊聊实测结果。
一、为什么想在本地跑
杜老师自己有几个真实需求:
- 调试 prompt 时不想每次都发到外部 API
- 一些场景里对响应延迟特别敏感
- 网速不好的时候,本地反而快
二、测试环境
杜老师用的是家里那台日常办公的 Mac:
- 系统:macOS 26.x
- 内存:32GB
- 芯片:M 系列
三、跑过的几款模型
杜老师一共跑了 4 个模型,下面三个是印象最深的:
- 模型 1:4B 量化版
- 模型 2:8B 量化版
- 模型 3:13B 全精度版
直接上结果:
| 模型 | 加载时间 | 首次 token | 每秒 token |
|---|---|---|---|
| 4B 量化 | 5 秒内 | 0.3 秒 | 30+ |
| 8B 量化 | 约 15 秒 | 0.8 秒 | 12 |
| 13B 全精度 | 1 分钟+ | 2.5 秒 | 4 |
四、踩到的几个坑
第一个坑:llama.cpp 编译要装 Xcode 工具链。
1 | xcode-select --install |
不装就一上来报错。
第二个坑:内存映射模型默认开。32GB 内存的机器,跑 13B 全精度没问题。如果机器只 16GB,得自己手动调整 --mlock。
第三个坑:温度参数。默认 0.8 的温度,调试 prompt 的时候会发现结果飘得太厉害,杜老师固定调到 0.2 比较稳。
五、杜老师自己的结论
- 日常 prompt 调试:4B 量化就够用
- 需要稍微长一点的上下文:8B 量化
- 真正干活的场景:还是回到云端 API
本地跑 LLM 这事,目前还远没到能完全替代 API 的程度。但作为辅助工具,杜老师已经每天都开着用了。
写在最后
希望对同样在折腾本地 LLM 的您有所帮助。如果您有别的玩法,欢迎评论区留言跟大家分享。咱们下期见!
看完记得
如果您觉得本文对您有帮助,记得收藏、点赞、分享给身边的小伙伴哦!更多精彩内容,欢迎关注杜老师说,咱们下期见!