macOS 终端下本地跑 LLM 实测

最近杜老师一直在折腾一件事：能不能在自己的 Mac 上直接把 LLM 跑起来，免去调用 API 的麻烦。折腾了一周，今天就跟大家聊聊实测结果。

一、为什么想在本地跑

杜老师自己有几个真实需求：

杜老师用的是家里那台日常办公的 Mac：

杜老师一共跑了 4 个模型，下面三个是印象最深的：

直接上结果：

模型	加载时间	首次 token	每秒 token
4B 量化	5 秒内	0.3 秒	30+
8B 量化	约 15 秒	0.8 秒	12
13B 全精度	1 分钟+	2.5 秒	4

第一个坑：llama.cpp 编译要装 Xcode 工具链。

1	xcode-select --install

不装就一上来报错。

第二个坑：内存映射模型默认开。32GB 内存的机器，跑 13B 全精度没问题。如果机器只 16GB，得自己手动调整 --mlock。

第三个坑：温度参数。默认 0.8 的温度，调试 prompt 的时候会发现结果飘得太厉害，杜老师固定调到 0.2 比较稳。

本地跑 LLM 这事，目前还远没到能完全替代 API 的程度。但作为辅助工具，杜老师已经每天都开着用了。

希望对同样在折腾本地 LLM 的您有所帮助。如果您有别的玩法，欢迎评论区留言跟大家分享。咱们下期见！

如果您觉得本文对您有帮助，记得收藏、点赞、分享给身边的小伙伴哦！更多精彩内容，欢迎关注杜老师说，咱们下期见！