GPU优化

  • 2026.06.09 | youres | 18次围观
    llama.cpp 异构推理实战:8G显存也能流畅运行35B大模型的完整方案
    一、为什么你的8G显卡被严重低估了 很多人的直觉是:35B参数的大模型至少需要20GB以上的显存,8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的,但在llama.cpp的异构推理(Heterogeneous Inference)方案成熟后,这个结论已经被彻底推翻。 我在一台配置RTX 4060(8GB显存)+ 32GB DDR5内存的笔记本上,成功运行了Qwen3.6-35B-A3B(MoE架构,总参数35B,每次激活约3B)的Q4_K_M量化版本,日常对话...
  • 2026.06.07 | youres | 25次围观
    6G显存本地部署AI大模型实战指南
    6G显存本地部署AI大模型实战指南 在AI大模型本地部署的实践中,6G显存是一个微妙的临界点——既能运行部分量化模型,又常常面临显存不足的尴尬。经过大量实测和经验积累,我发现6G显存部署AI大模型并非不可能,而是需要精准的技术策略和深入的优化技巧。 6G显存的技术现实与挑战 6G显存(如RTX 2060 Super、RTX 3050 Ti)在AI大模型部署中处于"入门级"位置。主流观点普遍认为需要8G以上显存才能流畅运行大模型,但通过精细化的量化策略和内存优化,6G显存...
  • 2026.05.21 | youres | 33次围观
    sglang大模型推理加速部署实战教程:从安装配置到生产级性能调优
    为什么需要专门的推理加速框架? 很多开发者在本地部署大模型时都会遇到同一个痛点:用原生Transformers或Ollama跑模型,速度勉强能接受,但一旦放到生产环境,吞吐量和延迟就完全不够看。我之前用vLLM部署一个70B的模型服务给团队用,并发上来之后RTT直接飙到15秒以上,用户体验极差。 后来切换到sglang,同样的硬件配置,P99延迟从15秒降到了2.3秒,吞吐量提升了将近4倍。这篇文章我会把sglang的完整部署流程、性能调优经验和实际踩过的坑都分享出来。 s...
1