最近杜老师一直在折腾一件事:能不能在自己的 Mac 上直接把 LLM 跑起来,免去调用 API 的麻烦。折腾了一周,今天就跟大家聊聊实测结果。

一、为什么想在本地跑

杜老师自己有几个真实需求:

  • 调试 prompt 时不想每次都发到外部 API
  • 一些场景里对响应延迟特别敏感
  • 网速不好的时候,本地反而快

二、测试环境

杜老师用的是家里那台日常办公的 Mac:

  • 系统:macOS 26.x
  • 内存:32GB
  • 芯片:M 系列

三、跑过的几款模型

杜老师一共跑了 4 个模型,下面三个是印象最深的:

  • 模型 1:4B 量化版
  • 模型 2:8B 量化版
  • 模型 3:13B 全精度版

直接上结果:

模型加载时间首次 token每秒 token
4B 量化5 秒内0.3 秒30+
8B 量化约 15 秒0.8 秒12
13B 全精度1 分钟+2.5 秒4

四、踩到的几个坑

第一个坑:llama.cpp 编译要装 Xcode 工具链。

1
xcode-select --install

不装就一上来报错。

第二个坑:内存映射模型默认开。32GB 内存的机器,跑 13B 全精度没问题。如果机器只 16GB,得自己手动调整 --mlock

第三个坑:温度参数。默认 0.8 的温度,调试 prompt 的时候会发现结果飘得太厉害,杜老师固定调到 0.2 比较稳。

五、杜老师自己的结论

  • 日常 prompt 调试:4B 量化就够用
  • 需要稍微长一点的上下文:8B 量化
  • 真正干活的场景:还是回到云端 API

本地跑 LLM 这事,目前还远没到能完全替代 API 的程度。但作为辅助工具,杜老师已经每天都开着用了。

写在最后

希望对同样在折腾本地 LLM 的您有所帮助。如果您有别的玩法,欢迎评论区留言跟大家分享。咱们下期见!

看完记得

如果您觉得本文对您有帮助,记得收藏、点赞、分享给身边的小伙伴哦!更多精彩内容,欢迎关注杜老师说,咱们下期见!