显存优化

AI教程

0

Ollama多显卡推理配置实战：双卡跑大模型的避坑指南与性能翻倍秘籍

2026.06.10 | youres | 134次围观

为什么你需要多显卡跑Ollama？单卡的瓶颈到底在哪很多人用Ollama跑7B模型觉得挺流畅，直到某天心血来潮拉了个70B的模型，才发现8G显存根本塞不下——模型加载到一半直接OOM崩溃。这时候你可能会想：我机箱里明明还插着一张3060，Ollama能不能把两张卡都用上？答案是：可以，但默认不会。Ollama底层依赖llama.cpp，而llama.cpp从很早就支持多GPU张量并行（tensor split），只是Ollama的官方文档对这块说得极其含糊，很多人甚至不知...
AI教程

0

LM Studio本地部署大模型加速优化实战：让AI推理速度翻倍的硬核技巧

2026.05.19 | youres | 97次围观

别再忍受慢吞吞的本地AI了很多人兴冲冲下载了LM Studio，跑起来却发现回复一个字要等好几秒，体验远不如云端API。问题不在你的电脑配置，而在于你根本没调过参数。我折腾了大半年本地部署，从最初的龟速到现在的流畅体验，踩过的坑够写一本书。这篇就把我验证有效的加速技巧全部分享出来，不讲理论，只讲实操。选对模型格式：GGUF量化的门道比你想的深 LM Studio支持多种量化格式，但90%的人只会选Q4_K_M就完事了。实际上，不同量化等级的推理速度差异可以高达3倍。我的...

1