GGUF

  • 2026.06.05 | youres | 26次围观
    大模型INT4量化本地部署实战教程:让消费级显卡跑起百亿参数模型
    写在前面:为什么我折腾了大模型量化部署 三个月前,我尝试在一台只有RTX 3060(12GB显存)的电脑上跑Qwen2.5-72B,结果直接OOM(显存溢出)。后来我花了两周系统研究大模型量化技术,最终成功用INT4量化把这个72B模型塞进了12GB显存,推理速度还能维持在每秒15个token左右。今天这篇文章,就是把我踩过的坑和总结的经验一次性分享给你。 很多人对"量化"这个词有误解,以为就是把模型变糊了。恰恰相反,量化是大模型落地的必经之路,没有量化,绝大多数个人和企业...
  • 2026.05.25 | youres | 30次围观
    不用魔法的DeepSeek R1本地部署攻略:三步搞定纯中文环境AI大模型
    写在前面:为什么"不用魔法"突然成了刚需?2025年到2026年,DeepSeek R1几乎成了每个想入门大模型的人必聊的话题。但很多人卡在第一步:下载和运行它需要访问HuggingFace和Ollama官网,而在内地网络环境下,这些站点的下载速度经常只有几KB/s,甚至直接超时。本文的核心目标只有一个:让你在国内网络环境下,不借助任何魔法(VPN/代理),完整跑通DeepSeek R1。整个方案依赖三个在国内可以正常访问的工具:Microsoft Store、阿里云魔搭社区...
1