Qwen

AI教程

0

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

2026.06.09 | youres | 66次围观

一、为什么你的8G显卡被严重低估了很多人的直觉是：35B参数的大模型至少需要20GB以上的显存，8G显卡只能跑7B以下的小模型。这种认知在2024年之前是正确的，但在llama.cpp的异构推理（Heterogeneous Inference）方案成熟后，这个结论已经被彻底推翻。我在一台配置RTX 4060（8GB显存）+ 32GB DDR5内存的笔记本上，成功运行了Qwen3.6-35B-A3B（MoE架构，总参数35B，每次激活约3B）的Q4_K_M量化版本，日常对话...
AI教程

0

AI RAG搭建教程：用本地大模型打造企业级知识库问答系统

2026.05.31 | youres | 65次围观

为什么你需要一个本地RAG系统？我接触过不少企业，它们面临一个共同的痛点：内部文档散落在各个角落——钉钉文档、飞书云文档、本地Word文件、 wiki系统……员工想找一个信息，往往要在多个平台反复搜索，甚至还得私信问同事"那个XXX的文档在哪？" 市面上的RAG方案不少，但大多数要么依赖云端API（数据安全是个大问题），要么配置门槛高得离谱，搞得像我这种非算法出身的人看了就头大。经过反复折腾，我摸索出一条纯本地部署、低门槛、高可用的RAG搭建路径。今天把它完整分享出来，力求...
AI教程

0

Ollama低配电脑部署大模型实战：4GB内存也能跑起来

2026.05.27 | youres | 85次围观

为什么低配电脑也能部署大模型很多人以为跑大模型必须要有高端显卡、32GB内存，其实不然。我用自己的老旧笔记本（i5-8265U + 8GB内存 + 无独立显卡）实测发现，借助Ollama的量化模型，4GB内存就能流畅运行7B参数级别的中文大模型。关键在于选对工具、选对模型版本、做好量化配置。本文不是泛泛的"安装教程"，而是我踩坑两周后的实战总结——哪些模型真正适合低配机器、量化参数怎么选、OOM崩溃怎么防，都有具体数据和解决方案。 Ollama是什么：一句话解释 Oll...
AI教程

0

本地大模型API调用实战：绕过云服务限制实现完全私有化的AI调用方案

2026.05.25 | youres | 70次围观

为什么我放弃了云端API，转向本地大模型调用过去一年，我用过几乎所有主流的云端大模型API——OpenAI、Claude、豆包、DeepSeek。每次调用都要把数据传到第三方服务器，这对于处理敏感内容来说是个隐患。费用也不低，调用量上来后每月账单让人肉疼。直到我发现了本地大模型API调用这条路，才发现：其实完全可以在自己电脑上跑一个媲美云端效果的模型，然后用标准REST API的方式调用它。本地大模型API调用的核心原理本质上，本地大模型API调用的架构非常清晰：...
AI教程

0

大模型LoRA微调实战教程：用消费级显卡训练你的专属AI模型

2026.05.18 | youres | 102次围观

为什么你需要自己微调大模型？很多人觉得大模型微调是实验室里的事情，普通开发者根本碰不到。但事实是，2026年的今天，用一张RTX 4090甚至RTX 3090，你就能完成一个7B参数模型的LoRA微调。我亲手做过一个法律问答领域的微调，只用了8小时训练，效果比直接用GPT-4回答法律问题准确率高了23%。微调的核心价值在于：让通用模型变成领域专家。你不需要从零训练一个模型，只需要在已有模型的基础上，用少量领域数据"点拨"它一下，它就能在你的专业领域表现得更出色。 LoR...

Qwen

llama.cpp 异构推理实战：8G显存也能流畅运行35B大模型的完整方案

AI RAG搭建教程：用本地大模型打造企业级知识库问答系统

Ollama低配电脑部署大模型实战：4GB内存也能跑起来

本地大模型API调用实战：绕过云服务限制实现完全私有化的AI调用方案

大模型LoRA微调实战教程：用消费级显卡训练你的专属AI模型

随机文章

最近发表

网站分类

文章归档