Inicio / Funciones / Ejecutar cualquier modelo / Autohospedar LLMs

Autohospeden LLMs en osFoundry: pesos abiertos, sin bloqueo de proveedor

osFoundry autohospeda cualquier LLM de pesos abiertos (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) con control total sobre los pesos, el runtime y el enrutamiento. Ejecútenlo en su hardware local, en un endpoint de GPU dedicado en la nube de osFoundry o en su propia infraestructura. El modelo se registra en el catálogo de su workspace y es enrutable desde Maestro en el momento en que se carga.

Quick answer

Autohospeden cualquiera de los 76 K modelos de pesos abiertos indexados en el catálogo.
Tres runtimes: hardware local, endpoint de GPU en la nube de osFoundry, su propio servidor de GPU.
El modelo es enrutable en el workspace en el momento en que se carga.
Control total de los datos: los pesos y los prompts nunca salen de su ámbito.

Key capabilities

76 K modelos de pesos abiertos indexados e instalables con un clic.
Servidor de inferencia integrado (sin Ollama, sin configuración manual de llama.cpp).
Cuantización en la instalación: elijan Q4 para barato, FP16 para precisión completa.
Hot-swap de adaptadores LoRA sobre un modelo base: muchas variantes especializadas en una GPU.
Enrutamiento en todo el workspace: mismo handle de modelo, tres backends posibles.

How to do it in osFoundry

Naveguen y elijan un modelo — Abran /community/models, filtren por pesos abiertos, elijan el tamaño que encaje con su hardware objetivo.
Elijan dónde alojarlo — Local (gratis, su hardware), endpoint de GPU en la nube de osFoundry (facturación por segundo) o su propio servidor de GPU (gratis; ustedes gestionan la infra).
Instalen — Un clic. La plataforma descarga los pesos, aplica la cuantización que eligieron y los carga en el servidor de inferencia.
Úsenlo — El modelo es ahora un handle enrutable en Maestro y en cada Room App. Cambien a él por solicitud o vía reglas de enrutamiento en osStudio.

How osFoundry compares

Capability	osFoundry	Most other tools
Tiempo de configuración	Minutos: instalación con un clic.	Horas de configuración de llama.cpp / vLLM / Triton.
Hardware	Local, nuestra nube o el suyo: intercambiables.	Elijan un sitio y comprométanse.
Enrutamiento post-instalación	Automático: el modelo es un handle del workspace.	Cableado manual de API en su código.
Cuantización	Elijan en la instalación; cambien después.	Conviertan pesos manualmente con tooling separado.

Use cases

Industria sensible a la privacidad: El equipo de salud / legal / finanzas autohospeda Llama 3.1 70B en una A100 interna: los prompts y las salidas nunca abandonan el perímetro de la organización.
SaaS de alto volumen: Ejecutar Mixtral 8x22B en una H100 reservada para el 80 % del tráfico; explotar a una API en la nube para el 20 % difícil. El coste por token cae un 60 %.
Investigador: Probar 12 modelos base candidatos en local antes de elegir uno para fine-tuning. Iteración gratuita y rápida sin facturas de API alojada.

Frequently asked questions

¿Qué modelos puedo autohospedar en osFoundry?

Cualquiera de los 76 K modelos de pesos abiertos indexados en /community/models: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS y más.

¿Tengo que afinar para autohospedar?

No. Autohospedar significa simplemente ejecutar el modelo base bajo su control. El fine-tuning es opcional (flujo LoRA disponible).

¿Autohospedar es más barato que BYOK a una API alojada?

Para alto volumen, sí. Una A100 reservada se amortiza entre millones de tokens a un coste por token menor que el precio alojado.

¿Puedo traer mis propios pesos cuantizados?

Sí: suban un archivo .safetensors o .gguf y osFoundry lo registra como modelo personalizado.

¿Qué licencias aplican cuando autohospedo?

La del modelo base. Cada página de modelo en el catálogo tiene un explicador de licencia (uso comercial / restringido / solo investigación).

¿Se puede alojar el mismo modelo en dos sitios a la vez?

Sí: el mismo handle de modelo puede tener un backend local y un backend de endpoint en la nube simultáneamente. Las reglas de enrutamiento deciden cuál ejecuta cada solicitud.

Pricing

Autohospedaje local: gratuito (su hardware, su electricidad). Endpoint de GPU en la nube de osFoundry: por segundo de tiempo de GPU a tarifas A10 / A100 / H100. Su propio servidor de GPU: gratuito para osFoundry; pagan a su proveedor de infraestructura.