花6美元租显卡,用QLoRA微调LLM重写90年代文档风格

花6美元租显卡,用QLoRA微调LLM重写90年代文档风格

_

在本地电脑上用一块老旧显卡微调一个LLM,让它学会1990年代软件文档的腔调——这是意大利技术写作者Luca Bon综合去年底的实验写成的长文。他在Runpod平台花不到6美元/小时租了块Nvidia B200显卡,用QLoRA方法在两个8B规模模型上做了对照训练,最终把训练好的轻量级适配器(adapter)导出到本地Ollama运行,整个过程耗时不超一个周末。

为什么不用RAG,要用微调

想让AI模仿一种写作风格,而不是回答事实性问题,这是微调而非RAG的典型场景。RAG擅长在海量知识库里检索准确答案,但这里的需求是「改变输出形式」——不管模型懂不懂某个技术,它都要用那种旧式文档的语气和结构来表述。微调的本质是给「冻结」的模型权重叠加一层小型适配器文件,轻推模型的 token 生成倾向,而不重训整个模型。这比从零训练一个模型便宜得多,也比单纯调提示词(prompt engineering)更持久。

数据怎么来的

训练材料来自Bitsavers网站收录的微软官方手册扫描件,1977至2005年间出版,超过3700万词。作者先下载OCR文本,用Python脚本剔除索引和前言,再用gemma-4-26b模型以每段8美分的价格做「可读性分类」,筛掉乱码和废话。最终保留约19万条训练样本,每条512 tokens左右,搭配合成指令模板写成JSONL格式。

技术栈:QLoRA + Runpod + Ollama

QLoRA(量化低秩适配)是本次训练的核心方法。它不改动原模型权重,而是冻结主模型、在其上附加一个小型适配器层并训练这个层。「量化」意味着权重被压缩存储,显著降低显存占用。训练完成后,适配器被导出为GGUF格式的LoRA文件,可以叠加到任意同类基础模型上使用。

作者选择了两个目标模型进行对比实验:Llama 3.1 8B Instruct 和 Qwen 2.5 7B Instruct,均可流畅运行在MacBook Air上。训练在Runpod平台完成,该服务提供预装了Unsloth等微调工具的GPU pod,按小时计费。他尝试了不同训练轮次(epochs)和数据规模,发现3个epoch在某些配置下会过拟合,导致模型「过度训练」而丧失通用能力。

适配器训练完成后导出至本地,经量化处理后注册为Ollama模型,完全不依赖云端推理。作者承认本地推理速度比完全合并的模型慢,但测试场景下影响不大。

编注:信源为个人技术博客,内容为作者的完整实验记录,覆盖数据来源、模型选择、训练参数对比与本地部署全流程。


五角大楼AI宣传网站曝光:瞄准拉美七国,无署名运营 2026-06-05
从开放到收紧:Ladybird 关闭公开代码提交通道 2026-06-05