llama.cpp

  • 2026.06.10 | youres | 20次围观
    Ollama多显卡推理配置实战:双卡跑大模型的避坑指南与性能翻倍秘籍
    为什么你需要多显卡跑Ollama?单卡的瓶颈到底在哪 很多人用Ollama跑7B模型觉得挺流畅,直到某天心血来潮拉了个70B的模型,才发现8G显存根本塞不下——模型加载到一半直接OOM崩溃。这时候你可能会想:我机箱里明明还插着一张3060,Ollama能不能把两张卡都用上? 答案是:可以,但默认不会。Ollama底层依赖llama.cpp,而llama.cpp从很早就支持多GPU张量并行(tensor split),只是Ollama的官方文档对这块说得极其含糊,很多人甚至不知...
  • 2026.06.09 | youres | 18次围观
    llama.cpp 异构推理实战:8G显存也能流畅运行35B大模型的完整方案
    一、为什么你的8G显卡被严重低估了 很多人的直觉是:35B参数的大模型至少需要20GB以上的显存,8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的,但在llama.cpp的异构推理(Heterogeneous Inference)方案成熟后,这个结论已经被彻底推翻。 我在一台配置RTX 4060(8GB显存)+ 32GB DDR5内存的笔记本上,成功运行了Qwen3.6-35B-A3B(MoE架构,总参数35B,每次激活约3B)的Q4_K_M量化版本,日常对话...
  • 2026.06.05 | youres | 26次围观
    大模型INT4量化本地部署实战教程:让消费级显卡跑起百亿参数模型
    写在前面:为什么我折腾了大模型量化部署 三个月前,我尝试在一台只有RTX 3060(12GB显存)的电脑上跑Qwen2.5-72B,结果直接OOM(显存溢出)。后来我花了两周系统研究大模型量化技术,最终成功用INT4量化把这个72B模型塞进了12GB显存,推理速度还能维持在每秒15个token左右。今天这篇文章,就是把我踩过的坑和总结的经验一次性分享给你。 很多人对"量化"这个词有误解,以为就是把模型变糊了。恰恰相反,量化是大模型落地的必经之路,没有量化,绝大多数个人和企业...
  • 2026.05.26 | youres | 26次围观
    豆包大模型本地部署完整教程:从API调用到私有化部署实战
    为什么我选择豆包大模型本地部署 过去半年,我在生产环境中深度使用了豆包大模型,从最初的API调用到最终的私有化部署,踩遍了所有可能的坑。很多团队在选型时只看模型能力,却忽略了部署成本、数据安全、延迟控制这三个关键因素。 这篇文章分享我的完整部署经验,帮你做出最适合自己的技术选型。 三种部署方式对比:选择最适合你的方案 在开始之前,先明确你的需求场景: 部署方式适用场景成本数据安全 API调用快速验证、低频使用按量付费数据上云 私有云部署中大型企业、合规要求年费+运...
1