Inicio / Funciones / Entrenar y afinar / Fine-tuning LoRA

Afinen Llama, Mistral o Qwen con LoRA en osFoundry

osFoundry afina cualquier modelo base de pesos abiertos con LoRA o QLoRA sobre sus datos: sin notebook, sin línea de comandos. Elijan una base, apunten a un dataset (su KB, una subida o un dataset público), fijen el rank de LoRA y entrenen. El adaptador se registra en su catálogo de modelos y es inmediatamente enrutable desde Maestro y las Room Apps en el momento en que el entrenamiento termina.

Quick answer

LoRA + QLoRA en más de 60 modelos base de pesos abiertos.
Entrenen sobre su KB, subidas JSONL/CSV o 250 K datasets públicos.
Dirigido por UI: sin notebook.
El adaptador es enrutable en el workspace en el momento en que el entrenamiento termina.

Key capabilities

Más de 60 modelos base soportados (Llama 3, Mistral, Qwen, Phi, Gemma…).
Flujos LoRA + QLoRA; rank 8/16/32/64 seleccionable.
Entrenen sobre KBs (autoformateadas), JSONL/CSV/parquet o 250 K datasets públicos.
Tres runtimes: GPU local, nube de osFoundry o su propia infraestructura.
Checkpoints cada N pasos: reanuden un job interrumpido desde el último checkpoint.
Exportación de adaptador: .safetensors con la configuración de entrenamiento completa.

How to do it in osFoundry

Elijan una base + objetivo LoRA — Elijan el modelo base. Configuren rank de LoRA, learning rate, épocas y módulos objetivo. Los valores por defecto funcionan en la mayoría de los casos.
Apunten a su dataset — Elijan una KB (formato pares de instrucción automático), suban JSONL o elijan un dataset público.
Ejecuten el entrenamiento — Elijan el runtime (local/nube/BYO). Vean la curva de pérdida en vivo a medida que entrena.
Hot-swap del adaptador — Cuando el entrenamiento termina, hagan hot-swap del adaptador sobre un endpoint de modelo base desplegado. Mismo handle, nuevo comportamiento.

Use cases

Customer support: LoRA sobre Mistral 7B con tickets pasados. El agente ahora responde en su tono con conocimiento de producto.
Equipo legal: Entrenar Llama 3.1 8B con contratos etiquetados. Hacer redlines de nuevos documentos en el estilo de su despacho on-prem.
Estudio de videojuegos: LoRAs por personaje hot-swappeados sobre un único modelo base. Una GPU, muchas voces de NPC diferenciadas.

Frequently asked questions

¿Cuánto tarda un fine-tune con LoRA?

Modelo 7B sobre 50 K filas: ~30 min en A100. 70B: ~3 horas. Mac M2/M3 de consumo: ~2 horas para 7B.

¿Qué rank debería usar?

Empiecen con rank 16. Suban a 32 o 64 para cambios de dominio más duros; bajen a 8 para ajuste estilístico.

¿Puedo entrenar con mi base de conocimiento?

Sí: las KBs se autoformatean como pares de instrucción.

¿Puedo exportar el adaptador?

Sí: descarga .safetensors con la configuración de entrenamiento completa. Desplegable fuera de osFoundry también.

¿QLoRA está soportado?

Sí: QLoRA reduce la VRAM cuantizando la base a 4-bit. Elijan QLoRA en la configuración de entrenamiento si su GPU va justa de memoria.

¿Cómo evalúo el resultado?

Comparen el adaptador contra la base en su set de evaluación con la vista de comparación lado a lado. Promueva cuando la calidad supere su listón.

Pricing

Local: gratis. Nube: por segundo de GPU. Un LoRA 7B en A100 cuesta aproximadamente 2-3 $ por ejecución; 70B cuesta 20-30 $.