首页 / 功能 / 训练与微调 / LoRA 微调
在 osFoundry 上用 LoRA 微调 Llama、Mistral 或 Qwen
osFoundry 可用 LoRA 或 QLoRA 在您的数据上微调任意开放权重基础模型——无 notebook、无命令行。挑选基础模型,指向数据集(您的知识库、上传文件或公开数据集),设置 LoRA 秩并开始训练。训练完成的那一刻,适配器会注册到您的模型目录,并立即可从 Maestro 和 Room App 路由。
Quick answer
- 对 60 多个开放权重基础模型进行 LoRA + QLoRA。
- 在您的知识库、JSONL/CSV 上传或 25 万个公开数据集上训练。
- UI 驱动——无 notebook。
- 训练完成的那一刻,适配器即可在工作空间内路由。
Key capabilities
- 60 多个受支持基础模型(Llama 3、Mistral、Qwen、Phi、Gemma…)。
- LoRA + QLoRA 流程;秩 8/16/32/64 可选。
- 在知识库(自动格式化)、JSONL/CSV/parquet 或 25 万个公开数据集上训练。
- 三种运行时:本地 GPU、osFoundry 云、您自己的基础设施。
- 每 N 步保存检查点——从最近检查点恢复中断的任务。
- 适配器导出:附带完整训练配置的 .safetensors。
How to do it in osFoundry
- 挑选基础模型 + LoRA 目标 — 挑选基础模型。配置 LoRA 秩、学习率、轮数和目标模块。多数情况下默认值即可。
- 指向您的数据集 — 选择知识库(自动转为指令对格式)、上传 JSONL,或选择公开数据集。
- 运行训练 — 挑选运行时(本地/云端/BYO)。训练时实时观察损失曲线。
- 热切换适配器 — 训练完成后,将适配器热切换到已部署的基础模型端点。相同句柄,新行为。
Use cases
- 客户支持: 在过往工单上对 Mistral 7B 进行 LoRA 微调。智能体现在以您的语气和产品知识作答。
- 法务团队: 在标注的合同上训练 Llama 3.1 8B。在本地以您律所的风格审改新文件。
- 游戏工作室: 为每个角色训练的 LoRA 热切换到一个基础模型上。一张 GPU,多个独特 NPC 嗓音。
Frequently asked questions
一次 LoRA 微调需要多久?
7B 模型 5 万行:A100 上约 30 分钟。70B:约 3 小时。消费级 M2/M3 Mac:7B 约 2 小时。
我应该选什么秩?
从秩 16 开始。对更难的领域迁移可增至 32 或 64;对风格调优可降至 8。
我能在知识库上训练吗?
可以——知识库会自动格式化为指令对。
我能导出适配器吗?
可以——附带完整训练配置的 .safetensors 下载。也可在 osFoundry 之外部署。
支持 QLoRA 吗?
支持——QLoRA 通过将基础模型量化为 4 位减少显存。若 GPU 显存吃紧,请在训练配置中选择 QLoRA。
如何评估结果?
使用并排对比视图在您的评估集上比较适配器和基础模型。达到您的质量门槛后再上线。
Pricing
本地:免费。云端:按 GPU 时间秒计费。A100 上 7B LoRA 每次大约 2-3 美元;70B 大约 20-30 美元。
Related features