Inicio / Funciones / Entrenar y afinar
Entrenen y afinen modelos de IA en osFoundry
Afinen Llama, Mistral o Qwen con LoRA sobre sus datos. Cuanticen para inferencia barata. Hot-swap de adaptadores en runtime.
osFoundry les permite afinar cualquier LLM de pesos abiertos con LoRA sobre sus propios datos, cuantizar el resultado para una inferencia barata y hacer hot-swap de adaptadores en runtime, todo sin salir del workspace. Los jobs de entrenamiento se ejecutan en su GPU local, en la nube de osFoundry o contra su propia infraestructura. Los modelos que entrenen están inmediatamente disponibles para Maestro y para cada Room App de su workspace.
Quick answer
- Fine-tuning LoRA sobre Llama 3, Mistral, Qwen y más de 60 otros modelos base: dirigido por UI, sin notebook necesario.
- Tres rutas de entrenamiento: GPU local, nube de osFoundry o bring-your-own-server.
- Cuanticen los adaptadores entrenados a Q4/Q5 para inferencia barata.
- Hot-swap de adaptadores LoRA por solicitud: sin recarga del modelo, cambio en menos de un segundo.
What it is
La mayoría de las plataformas de IA o les bloquean en modelos alojados o les entregan un notebook. El pipeline de entrenamiento de osFoundry es nativo del workspace: elijan una base, apunten a un dataset (su KB, un dataset público o una subida), elijan el rank de LoRA y publiquen. El adaptador entrenado se registra automáticamente en su catálogo de modelos y es enrutable desde Maestro en el momento en que termina.
Key capabilities
- Fine-tuning LoRA + QLoRA en más de 60 modelos base de pesos abiertos.
- Descarga de adaptador: extraigan el .safetensors fuera de osFoundry para desplegarlo en otro lugar.
- Cuantización a Q4_K_M, Q5_K_M, Q6_K, FP16: conviertan con un solo clic.
- Hot-swap de hasta 16 adaptadores LoRA activos sobre un solo modelo base.
- Entrenen sobre sus bases de conocimiento, JSONL/CSV subidos o cualquiera de los 250 K datasets públicos.
- Tres rutas de entrenamiento por job: GPU local, nube de osFoundry o su propia infraestructura.
How to do it in osFoundry
- Elijan un modelo base — Naveguen por /community/models, filtren por pesos abiertos (Llama, Mistral, Qwen, Phi, etc.) y elijan el tamaño que encaje con su GPU objetivo.
- Apunten a un dataset — Elijan una base de conocimiento (autoformateada como pares de instrucción), suban un JSONL/CSV o elijan entre 250 K datasets públicos indexados en el catálogo.
- Elijan la configuración de entrenamiento — Rank de LoRA (8/16/32/64), learning rate, épocas, módulos objetivo. Se proporcionan valores por defecto sensatos; ajusten a partir de ahí.
- Elijan dónde entrenar — GPU local (gratis), nube de osFoundry (precio por segundo de GPU) o BYO infraestructura (envíen el job a su propio clúster).
- Publiquen el adaptador — Cuando el entrenamiento termina, el adaptador se registra automáticamente en su catálogo de modelos. Hagan hot-swap sobre un endpoint de modelo base y empiecen a enrutar solicitudes en minutos.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| UI de entrenamiento | Nativa del workspace: sin notebook, sin línea de comandos. | Notebook o CLI obligatorios. |
| Exportación del adaptador | Descarga de .safetensors con un clic, junto con la configuración de entrenamiento. | Bloqueado al proveedor, o exportación manual. |
| Dónde se ejecuta | GPU local, nuestra nube o su propia infraestructura. | Un único sitio, precio fijo. |
| Enrutamiento post-entrenamiento | Adaptador inmediatamente enrutable desde Maestro y Room Apps. | Cableado manual en el código de su app. |
Use cases
- Equipo de customer-support: Afinar Mistral 7B con 18 meses de transcripciones de soporte. El agente responde en su tono, hace referencia a sus productos y se mantiene on-brand.
- Legal ops: Entrenar Llama 3.1 8B con un corpus de contratos etiquetado para hacer redlines de nuevos contratos en el estilo de su despacho. Se queda on-prem; el adaptador nunca sale del workspace.
- Estudio de videojuegos: LoRA sobre Qwen 14B con su biblia de IP para diálogos de NPC en el juego. Hot-swap de un LoRA distinto por personaje para mantener voces diferenciadas sobre un único modelo base compartido.
Frequently asked questions
¿Cuánto tarda un fine-tune con LoRA en osFoundry?
Un modelo 7B con un dataset de 50 K filas tarda ~30 minutos en una sola A100. Un modelo 70B tarda ~3 horas. Los Mac M2/M3 locales manejan 7B en ~2 horas.
¿Puedo exportar el adaptador LoRA desde osFoundry?
Sí: cada adaptador entrenado es descargable como .safetensors e incluye la configuración de entrenamiento. Sin bloqueo.
¿osFoundry soporta fine-tuning completo, no solo LoRA?
LoRA + QLoRA son las rutas recomendadas hoy. El fine-tuning completo de modelos >7B está en la hoja de ruta; por ahora, usen BYO infraestructura si lo necesitan.
¿Sobre qué datasets puedo entrenar?
Sus bases de conocimiento (autoformateadas como pares de instrucción), JSONL/CSV/parquet subidos o 250 K datasets públicos indexados desde HuggingFace.
¿Cuánto cuesta entrenar?
El entrenamiento local es gratuito (su hardware). El entrenamiento en la nube se factura por segundo de tiempo de GPU a las mismas tarifas que los endpoints de inferencia. Un LoRA de 7B en A100 cuesta aproximadamente 2-3 $ por entrenamiento; 70B cuesta 20-30 $.
¿Puedo reanudar un job de entrenamiento interrumpido?
Sí: los checkpoints se guardan cada N pasos (configurable). La reanudación parte del último checkpoint, no desde cero.
Pricing
Entrenamiento local: gratuito (su hardware). Entrenamiento en la nube: facturación por segundo de GPU a las mismas tarifas que los endpoints de inferencia (A10 / A100 / H100). El almacenamiento de adaptadores se mide como almacenamiento de archivos del workspace.
Related features