为什么你需要多显卡跑Ollama?单卡的瓶颈到底在哪
很多人用Ollama跑7B模型觉得挺流畅,直到某天心血来潮拉了个70B的模型,才发现8G显存根本塞不下——模型加载到一半直接OOM崩溃。这时候你可能会想:我机箱里明明还插着一张3060,Ollama能不能把两张卡都用上?
答案是:可以,但默认不会。Ollama底层依赖llama.cpp,而llama.cpp从很早就支持多GPU张量并行(tensor split),只是Ollama的官方文档对这块说得极其含糊,很多人甚至不知...
tensor split
-
2026.06.10 | youres | 22次围观

