Qwen2.5

AI教程

0

大模型QLoRA微调实战：个人电脑8GB显存微调Qwen2.5-7B完整指南

2026.06.09 | youres | 118次围观

为什么QLoRA是大模型微调的平民级入口很多人一听到"大模型微调"就觉得这是算力怪兽才能干的活——几十张A100、几百万电费、GPU集群级别的投入。这个印象在2024年之前是准确的，但QLoRA（Quantized LoRA）技术的出现彻底改变了游戏规则。它让你能在一张消费级显卡上完成70亿甚至130亿参数模型的微调工作，显存占用从全量微调的80GB骤降到8GB以内。我最近在RTX 4060（8GB显存）上成功微调了Qwen2.5-7B模型，整个过程只用了4个小时。这篇文章把...
AI教程

0

sglang大模型推理加速部署实战教程：从安装配置到生产级性能调优

2026.05.21 | youres | 133次围观

为什么需要专门的推理加速框架？很多开发者在本地部署大模型时都会遇到同一个痛点：用原生Transformers或Ollama跑模型，速度勉强能接受，但一旦放到生产环境，吞吐量和延迟就完全不够看。我之前用vLLM部署一个70B的模型服务给团队用，并发上来之后RTT直接飙到15秒以上，用户体验极差。后来切换到sglang，同样的硬件配置，P99延迟从15秒降到了2.3秒，吞吐量提升了将近4倍。这篇文章我会把sglang的完整部署流程、性能调优经验和实际踩过的坑都分享出来。 s...

1