llama.cpp

AI教程

0

Ollama多显卡推理配置实战：双卡跑大模型的避坑指南与性能翻倍秘籍

2026.06.10 | youres | 209次围观

为什么你需要多显卡跑Ollama？单卡的瓶颈到底在哪很多人用Ollama跑7B模型觉得挺流畅，直到某天心血来潮拉了个70B的模型，才发现8G显存根本塞不下——模型加载到一半直接OOM崩溃。这时候你可能会想：我机箱里明明还插着一张3060，Ollama能不能把两张卡都用上？答案是：可以，但默认不会。Ollama底层依赖llama.cpp，而llama.cpp从很早就支持多GPU张量并行（tensor split），只是Ollama的官方文档对这块说得极其含糊，很多人甚至不知...
AI教程

0

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

2026.06.09 | youres | 95次围观

一、为什么你的8G显卡被严重低估了很多人的直觉是：35B参数的大模型至少需要20GB以上的显存，8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的，但在llama.cpp的异构推理（Heterogeneous Inference）方案成熟后，这个结论已经被彻底推翻。我在一台配置RTX 4060（8GB显存）+ 32GB DDR5内存的笔记本上，成功运行了Qwen3.6-35B-A3B（MoE架构，总参数35B，每次激活约3B）的Q4_K_M量化版本，日常对话...
AI教程

0

大模型INT4量化本地部署实战教程：让消费级显卡跑起百亿参数模型

2026.06.05 | youres | 131次围观

写在前面：为什么我折腾了大模型量化部署三个月前，我尝试在一台只有RTX 3060（12GB显存）的电脑上跑Qwen2.5-72B，结果直接OOM（显存溢出）。后来我花了两周系统研究大模型量化技术，最终成功用INT4量化把这个72B模型塞进了12GB显存，推理速度还能维持在每秒15个token左右。今天这篇文章，就是把我踩过的坑和总结的经验一次性分享给你。很多人对"量化"这个词有误解，以为就是把模型变糊了。恰恰相反，量化是大模型落地的必经之路，没有量化，绝大多数个人和企业...
AI教程

0

豆包大模型本地部署完整教程：从API调用到私有化部署实战

2026.05.26 | youres | 125次围观

为什么我选择豆包大模型本地部署过去半年，我在生产环境中深度使用了豆包大模型，从最初的API调用到最终的私有化部署，踩遍了所有可能的坑。很多团队在选型时只看模型能力，却忽略了部署成本、数据安全、延迟控制这三个关键因素。这篇文章分享我的完整部署经验，帮你做出最适合自己的技术选型。三种部署方式对比：选择最适合你的方案在开始之前，先明确你的需求场景：部署方式适用场景成本数据安全 API调用快速验证、低频使用按量付费数据上云私有云部署中大型企业、合规要求年费+运...

llama.cpp

Ollama多显卡推理配置实战：双卡跑大模型的避坑指南与性能翻倍秘籍

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

大模型INT4量化本地部署实战教程：让消费级显卡跑起百亿参数模型

豆包大模型本地部署完整教程：从API调用到私有化部署实战

随机文章

最近发表

网站分类

文章归档