花6美元租显卡，用QLoRA微调LLM重写90年代文档风格

在本地电脑上用一块老旧显卡微调一个LLM，让它学会1990年代软件文档的腔调——这是意大利技术写作者Luca Bon综合去年底的实验写成的长文。他在Runpod平台花不到6美元/小时租了块Nvidia B200显卡，用QLoRA方法在两个8B规模模型上做了对照训练，最终把训练好的轻量级适配器（adapter）导出到本地Ollama运行，整个过程耗时不超一个周末。

为什么不用RAG，要用微调

想让AI模仿一种写作风格，而不是回答事实性问题，这是微调而非RAG的典型场景。RAG擅长在海量知识库里检索准确答案，但这里的需求是「改变输出形式」——不管模型懂不懂某个技术，它都要用那种旧式文档的语气和结构来表述。微调的本质是给「冻结」的模型权重叠加一层小型适配器文件，轻推模型的 token 生成倾向，而不重训整个模型。这比从零训练一个模型便宜得多，也比单纯调提示词（prompt engineering）更持久。

数据怎么来的

训练材料来自Bitsavers网站收录的微软官方手册扫描件，1977至2005年间出版，超过3700万词。作者先下载OCR文本，用Python脚本剔除索引和前言，再用gemma-4-26b模型以每段8美分的价格做「可读性分类」，筛掉乱码和废话。最终保留约19万条训练样本，每条512 tokens左右，搭配合成指令模板写成JSONL格式。

技术栈：QLoRA + Runpod + Ollama

QLoRA（量化低秩适配）是本次训练的核心方法。它不改动原模型权重，而是冻结主模型、在其上附加一个小型适配器层并训练这个层。「量化」意味着权重被压缩存储，显著降低显存占用。训练完成后，适配器被导出为GGUF格式的LoRA文件，可以叠加到任意同类基础模型上使用。

作者选择了两个目标模型进行对比实验：Llama 3.1 8B Instruct 和 Qwen 2.5 7B Instruct，均可流畅运行在MacBook Air上。训练在Runpod平台完成，该服务提供预装了Unsloth等微调工具的GPU pod，按小时计费。他尝试了不同训练轮次（epochs）和数据规模，发现3个epoch在某些配置下会过拟合，导致模型「过度训练」而丧失通用能力。

适配器训练完成后导出至本地，经量化处理后注册为Ollama模型，完全不依赖云端推理。作者承认本地推理速度比完全合并的模型慢，但测试场景下影响不大。

编注：信源为个人技术博客，内容为作者的完整实验记录，覆盖数据来源、模型选择、训练参数对比与本地部署全流程。