GPU优化

AI教程

0

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

2026.06.09 | youres | 95次围观

一、为什么你的8G显卡被严重低估了很多人的直觉是：35B参数的大模型至少需要20GB以上的显存，8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的，但在llama.cpp的异构推理（Heterogeneous Inference）方案成熟后，这个结论已经被彻底推翻。我在一台配置RTX 4060（8GB显存）+ 32GB DDR5内存的笔记本上，成功运行了Qwen3.6-35B-A3B（MoE架构，总参数35B，每次激活约3B）的Q4_K_M量化版本，日常对话...
AI教程

0

6G显存本地部署AI大模型实战指南

2026.06.07 | youres | 166次围观

6G显存本地部署AI大模型实战指南在AI大模型本地部署的实践中，6G显存是一个微妙的临界点——既能运行部分量化模型，又常常面临显存不足的尴尬。经过大量实测和经验积累，我发现6G显存部署AI大模型并非不可能，而是需要精准的技术策略和深入的优化技巧。 6G显存的技术现实与挑战 6G显存（如RTX 2060 Super、RTX 3050 Ti）在AI大模型部署中处于"入门级"位置。主流观点普遍认为需要8G以上显存才能流畅运行大模型，但通过精细化的量化策略和内存优化，6G显存...
AI教程

0

sglang大模型推理加速部署实战教程：从安装配置到生产级性能调优

2026.05.21 | youres | 133次围观

为什么需要专门的推理加速框架？很多开发者在本地部署大模型时都会遇到同一个痛点：用原生Transformers或Ollama跑模型，速度勉强能接受，但一旦放到生产环境，吞吐量和延迟就完全不够看。我之前用vLLM部署一个70B的模型服务给团队用，并发上来之后RTT直接飙到15秒以上，用户体验极差。后来切换到sglang，同样的硬件配置，P99延迟从15秒降到了2.3秒，吞吐量提升了将近4倍。这篇文章我会把sglang的完整部署流程、性能调优经验和实际踩过的坑都分享出来。 s...

GPU优化

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

6G显存本地部署AI大模型实战指南

sglang大模型推理加速部署实战教程：从安装配置到生产级性能调优

随机文章

最近发表

网站分类

文章归档