vLLM

  • 2026.05.26 | youres | 12次围观
    豆包大模型本地部署完整教程:从API调用到私有化部署实战
    为什么我选择豆包大模型本地部署 过去半年,我在生产环境中深度使用了豆包大模型,从最初的API调用到最终的私有化部署,踩遍了所有可能的坑。很多团队在选型时只看模型能力,却忽略了部署成本、数据安全、延迟控制这三个关键因素。 这篇文章分享我的完整部署经验,帮你做出最适合自己的技术选型。 三种部署方式对比:选择最适合你的方案 在开始之前,先明确你的需求场景: 部署方式适用场景成本数据安全 API调用快速验证、低频使用按量付费数据上云 私有云部署中大型企业、合规要求年费+运...
  • 2026.05.21 | youres | 11次围观
    DeepSeek V4 Flash本地部署实战:vLLM推理加速与量化优化完全指南
    为什么DeepSeek V4 Flash值得本地部署 DeepSeek V4发布后,我第一时间在实验室测试了V4-Flash。激活参数仅13B,推理FLOPs只有V4-Pro的10%左右,KV Cache缩减到Pro版的10%——这意味着什么?意味着用一张消费级显卡就能跑起一个接近前沿水平的MoE大模型,而且速度飞快。 本文不讲概念,直接上实操。我会从硬件评估、环境搭建、模型量化到vLLM推理服务配置,把整个流程走一遍,中间穿插我踩过的坑和实测数据。 先算账:你的显卡够不够...
1