Inicio / Funciones / Ejecutar cualquier modelo / Autohospedar LLMs
Autohospeden LLMs en osFoundry: pesos abiertos, sin bloqueo de proveedor
osFoundry autohospeda cualquier LLM de pesos abiertos (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) con control total sobre los pesos, el runtime y el enrutamiento. Ejecútenlo en su hardware local, en un endpoint de GPU dedicado en la nube de osFoundry o en su propia infraestructura. El modelo se registra en el catálogo de su workspace y es enrutable desde Maestro en el momento en que se carga.
Quick answer
- Autohospeden cualquiera de los 76 K modelos de pesos abiertos indexados en el catálogo.
- Tres runtimes: hardware local, endpoint de GPU en la nube de osFoundry, su propio servidor de GPU.
- El modelo es enrutable en el workspace en el momento en que se carga.
- Control total de los datos: los pesos y los prompts nunca salen de su ámbito.
Key capabilities
- 76 K modelos de pesos abiertos indexados e instalables con un clic.
- Servidor de inferencia integrado (sin Ollama, sin configuración manual de llama.cpp).
- Cuantización en la instalación: elijan Q4 para barato, FP16 para precisión completa.
- Hot-swap de adaptadores LoRA sobre un modelo base: muchas variantes especializadas en una GPU.
- Enrutamiento en todo el workspace: mismo handle de modelo, tres backends posibles.
How to do it in osFoundry
- Naveguen y elijan un modelo — Abran /community/models, filtren por pesos abiertos, elijan el tamaño que encaje con su hardware objetivo.
- Elijan dónde alojarlo — Local (gratis, su hardware), endpoint de GPU en la nube de osFoundry (facturación por segundo) o su propio servidor de GPU (gratis; ustedes gestionan la infra).
- Instalen — Un clic. La plataforma descarga los pesos, aplica la cuantización que eligieron y los carga en el servidor de inferencia.
- Úsenlo — El modelo es ahora un handle enrutable en Maestro y en cada Room App. Cambien a él por solicitud o vía reglas de enrutamiento en osStudio.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Tiempo de configuración | Minutos: instalación con un clic. | Horas de configuración de llama.cpp / vLLM / Triton. |
| Hardware | Local, nuestra nube o el suyo: intercambiables. | Elijan un sitio y comprométanse. |
| Enrutamiento post-instalación | Automático: el modelo es un handle del workspace. | Cableado manual de API en su código. |
| Cuantización | Elijan en la instalación; cambien después. | Conviertan pesos manualmente con tooling separado. |
Use cases
- Industria sensible a la privacidad: El equipo de salud / legal / finanzas autohospeda Llama 3.1 70B en una A100 interna: los prompts y las salidas nunca abandonan el perímetro de la organización.
- SaaS de alto volumen: Ejecutar Mixtral 8x22B en una H100 reservada para el 80 % del tráfico; explotar a una API en la nube para el 20 % difícil. El coste por token cae un 60 %.
- Investigador: Probar 12 modelos base candidatos en local antes de elegir uno para fine-tuning. Iteración gratuita y rápida sin facturas de API alojada.
Frequently asked questions
¿Qué modelos puedo autohospedar en osFoundry?
Cualquiera de los 76 K modelos de pesos abiertos indexados en /community/models: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS y más.
¿Tengo que afinar para autohospedar?
No. Autohospedar significa simplemente ejecutar el modelo base bajo su control. El fine-tuning es opcional (flujo LoRA disponible).
¿Autohospedar es más barato que BYOK a una API alojada?
Para alto volumen, sí. Una A100 reservada se amortiza entre millones de tokens a un coste por token menor que el precio alojado.
¿Puedo traer mis propios pesos cuantizados?
Sí: suban un archivo .safetensors o .gguf y osFoundry lo registra como modelo personalizado.
¿Qué licencias aplican cuando autohospedo?
La del modelo base. Cada página de modelo en el catálogo tiene un explicador de licencia (uso comercial / restringido / solo investigación).
¿Se puede alojar el mismo modelo en dos sitios a la vez?
Sí: el mismo handle de modelo puede tener un backend local y un backend de endpoint en la nube simultáneamente. Las reglas de enrutamiento deciden cuál ejecuta cada solicitud.
Pricing
Autohospedaje local: gratuito (su hardware, su electricidad). Endpoint de GPU en la nube de osFoundry: por segundo de tiempo de GPU a tarifas A10 / A100 / H100. Su propio servidor de GPU: gratuito para osFoundry; pagan a su proveedor de infraestructura.
Related features