Inicio / Funciones / Entrenar y afinar

Entrenen y afinen modelos de IA en osFoundry

Afinen Llama, Mistral o Qwen con LoRA sobre sus datos. Cuanticen para inferencia barata. Hot-swap de adaptadores en runtime.

osFoundry les permite afinar cualquier LLM de pesos abiertos con LoRA sobre sus propios datos, cuantizar el resultado para una inferencia barata y hacer hot-swap de adaptadores en runtime, todo sin salir del workspace. Los jobs de entrenamiento se ejecutan en su GPU local, en la nube de osFoundry o contra su propia infraestructura. Los modelos que entrenen están inmediatamente disponibles para Maestro y para cada Room App de su workspace.

Quick answer

Fine-tuning LoRA sobre Llama 3, Mistral, Qwen y más de 60 otros modelos base: dirigido por UI, sin notebook necesario.
Tres rutas de entrenamiento: GPU local, nube de osFoundry o bring-your-own-server.
Cuanticen los adaptadores entrenados a Q4/Q5 para inferencia barata.
Hot-swap de adaptadores LoRA por solicitud: sin recarga del modelo, cambio en menos de un segundo.

What it is

La mayoría de las plataformas de IA o les bloquean en modelos alojados o les entregan un notebook. El pipeline de entrenamiento de osFoundry es nativo del workspace: elijan una base, apunten a un dataset (su KB, un dataset público o una subida), elijan el rank de LoRA y publiquen. El adaptador entrenado se registra automáticamente en su catálogo de modelos y es enrutable desde Maestro en el momento en que termina.

Key capabilities

Fine-tuning LoRA + QLoRA en más de 60 modelos base de pesos abiertos.
Descarga de adaptador: extraigan el .safetensors fuera de osFoundry para desplegarlo en otro lugar.
Cuantización a Q4_K_M, Q5_K_M, Q6_K, FP16: conviertan con un solo clic.
Hot-swap de hasta 16 adaptadores LoRA activos sobre un solo modelo base.
Entrenen sobre sus bases de conocimiento, JSONL/CSV subidos o cualquiera de los 250 K datasets públicos.
Tres rutas de entrenamiento por job: GPU local, nube de osFoundry o su propia infraestructura.

How to do it in osFoundry

Elijan un modelo base — Naveguen por /community/models, filtren por pesos abiertos (Llama, Mistral, Qwen, Phi, etc.) y elijan el tamaño que encaje con su GPU objetivo.
Apunten a un dataset — Elijan una base de conocimiento (autoformateada como pares de instrucción), suban un JSONL/CSV o elijan entre 250 K datasets públicos indexados en el catálogo.
Elijan la configuración de entrenamiento — Rank de LoRA (8/16/32/64), learning rate, épocas, módulos objetivo. Se proporcionan valores por defecto sensatos; ajusten a partir de ahí.
Elijan dónde entrenar — GPU local (gratis), nube de osFoundry (precio por segundo de GPU) o BYO infraestructura (envíen el job a su propio clúster).
Publiquen el adaptador — Cuando el entrenamiento termina, el adaptador se registra automáticamente en su catálogo de modelos. Hagan hot-swap sobre un endpoint de modelo base y empiecen a enrutar solicitudes en minutos.

How osFoundry compares

Capability	osFoundry	Most other tools
UI de entrenamiento	Nativa del workspace: sin notebook, sin línea de comandos.	Notebook o CLI obligatorios.
Exportación del adaptador	Descarga de .safetensors con un clic, junto con la configuración de entrenamiento.	Bloqueado al proveedor, o exportación manual.
Dónde se ejecuta	GPU local, nuestra nube o su propia infraestructura.	Un único sitio, precio fijo.
Enrutamiento post-entrenamiento	Adaptador inmediatamente enrutable desde Maestro y Room Apps.	Cableado manual en el código de su app.

Use cases

Equipo de customer-support: Afinar Mistral 7B con 18 meses de transcripciones de soporte. El agente responde en su tono, hace referencia a sus productos y se mantiene on-brand.
Legal ops: Entrenar Llama 3.1 8B con un corpus de contratos etiquetado para hacer redlines de nuevos contratos en el estilo de su despacho. Se queda on-prem; el adaptador nunca sale del workspace.
Estudio de videojuegos: LoRA sobre Qwen 14B con su biblia de IP para diálogos de NPC en el juego. Hot-swap de un LoRA distinto por personaje para mantener voces diferenciadas sobre un único modelo base compartido.

Frequently asked questions

¿Cuánto tarda un fine-tune con LoRA en osFoundry?

Un modelo 7B con un dataset de 50 K filas tarda ~30 minutos en una sola A100. Un modelo 70B tarda ~3 horas. Los Mac M2/M3 locales manejan 7B en ~2 horas.

¿Puedo exportar el adaptador LoRA desde osFoundry?

Sí: cada adaptador entrenado es descargable como .safetensors e incluye la configuración de entrenamiento. Sin bloqueo.

¿osFoundry soporta fine-tuning completo, no solo LoRA?

LoRA + QLoRA son las rutas recomendadas hoy. El fine-tuning completo de modelos >7B está en la hoja de ruta; por ahora, usen BYO infraestructura si lo necesitan.

¿Sobre qué datasets puedo entrenar?

Sus bases de conocimiento (autoformateadas como pares de instrucción), JSONL/CSV/parquet subidos o 250 K datasets públicos indexados desde HuggingFace.

¿Cuánto cuesta entrenar?

El entrenamiento local es gratuito (su hardware). El entrenamiento en la nube se factura por segundo de tiempo de GPU a las mismas tarifas que los endpoints de inferencia. Un LoRA de 7B en A100 cuesta aproximadamente 2-3 $ por entrenamiento; 70B cuesta 20-30 $.

¿Puedo reanudar un job de entrenamiento interrumpido?

Sí: los checkpoints se guardan cada N pasos (configurable). La reanudación parte del último checkpoint, no desde cero.

Pricing

Entrenamiento local: gratuito (su hardware). Entrenamiento en la nube: facturación por segundo de GPU a las mismas tarifas que los endpoints de inferencia (A10 / A100 / H100). El almacenamiento de adaptadores se mide como almacenamiento de archivos del workspace.