Home / Funzionalità / Esegua qualsiasi modello / Self-host LLM

Self-host di LLM in osFoundry: pesi open, nessun vendor lock-in

osFoundry self-hosta qualsiasi LLM open-weight (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) con pieno controllo su pesi, runtime e routing. Esegua sul Suo hardware locale, su un endpoint GPU dedicato nel cloud osFoundry o sulla Sua infrastruttura. Il modello viene registrato nel catalogo del Suo workspace ed è instradabile da Maestro nel momento in cui è caricato.

Quick answer

Self-host di qualsiasi dei 76K modelli open-weight indicizzati nel catalogo.
Tre runtime: hardware locale, endpoint GPU cloud osFoundry, il Suo server GPU.
Il modello è instradabile nel workspace nel momento in cui carica.
Pieno controllo sui dati: pesi e prompt non lasciano mai il Suo scope.

Key capabilities

76K modelli open-weight indicizzati e installabili con un clic.
Server di inferenza integrato (nessun Ollama, nessun setup manuale di llama.cpp).
Quantizzazione all'installazione: scelga Q4 per l'economico, FP16 per la piena precisione.
Hot-swap di adapter LoRA su un base model: molte varianti specializzate su una singola GPU.
Routing workspace-wide: stesso handle del modello, tre backend possibili.

How to do it in osFoundry

Sfogli e scelga un modello — Apra /community/models, filtri su open-weight, scelga la dimensione che si adatta al Suo hardware target.
Scelga dove ospitare — Locale (gratis, il Suo hardware), endpoint GPU cloud osFoundry (fatturazione al secondo) o il Suo server GPU (gratis; gestisce l'infrastruttura).
Installi — Un clic. La piattaforma scarica i pesi, applica la quantizzazione scelta, carica nel server di inferenza.
Lo usi — Il modello è ora un handle instradabile in Maestro e ogni Room App. Passi ad esso per richiesta o tramite le regole di routing di osStudio.

How osFoundry compares

Capability	osFoundry	Most other tools
Tempo di setup	Minuti: installazione con un clic.	Ore di setup llama.cpp / vLLM / Triton.
Hardware	Locale, il nostro cloud o il Suo: intercambiabili.	Scegliere una sede, impegnarsi.
Routing post-installazione	Automatico: il modello è un handle del workspace.	Cablaggio API manuale nel Suo codice.
Quantizzazione	Scelga all'installazione; cambi in seguito.	Convertire i pesi manualmente con tooling separato.

Use cases

Settore privacy-sensitive: Team healthcare / legal / finance fa self-host di Llama 3.1 70B su un A100 interno: prompt e output non lasciano mai il perimetro dell'organizzazione.
SaaS ad alto volume: Esegua Mixtral 8x22B su un H100 riservato per l'80% del traffico; burst su un'API cloud per il 20% difficile. Il costo per token scende del 60%.
Ricercatore: Testi 12 base model candidati in locale prima di sceglierne uno per il fine-tuning. Iterazione gratuita e veloce senza fatture di API hosted.

Frequently asked questions

Quali modelli posso self-hostare su osFoundry?

Qualsiasi dei 76K modelli open-weight indicizzati su /community/models: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS e altri.

Devo fare fine-tuning per fare self-host?

No. Self-hostare significa solo eseguire il base model sotto il Suo controllo. Il fine-tuning è opzionale (flusso LoRA disponibile).

Il self-hosting è più economico del BYOK a un'API hosted?

Per alto volume, sì. Un A100 riservato si ammortizza su milioni di token a un costo per token inferiore rispetto al prezzo hosted.

Posso portare i miei pesi quantizzati?

Sì: carichi un file .safetensors o .gguf e osFoundry lo registra come modello personalizzato.

Quali licenze si applicano quando faccio self-host?

La licenza del base model. Ogni pagina del modello nel catalogo ha uno spiegone della licenza (commercial-use / restricted / research-only).

Lo stesso modello può essere ospitato in due posti contemporaneamente?

Sì: lo stesso handle del modello può avere un backend locale e un backend endpoint cloud simultaneamente. Le regole di routing decidono quale esegue ogni richiesta.

Pricing

Self-hosting locale: gratuito (il Suo hardware, la Sua elettricità). Endpoint GPU cloud osFoundry: al secondo di tempo GPU a tariffe A10 / A100 / H100. Il Suo server GPU: gratis per osFoundry; paga il Suo provider di infrastruttura.