Home / Funzionalità / Esegua qualsiasi modello / Self-host LLM
Self-host di LLM in osFoundry: pesi open, nessun vendor lock-in
osFoundry self-hosta qualsiasi LLM open-weight (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) con pieno controllo su pesi, runtime e routing. Esegua sul Suo hardware locale, su un endpoint GPU dedicato nel cloud osFoundry o sulla Sua infrastruttura. Il modello viene registrato nel catalogo del Suo workspace ed è instradabile da Maestro nel momento in cui è caricato.
Quick answer
- Self-host di qualsiasi dei 76K modelli open-weight indicizzati nel catalogo.
- Tre runtime: hardware locale, endpoint GPU cloud osFoundry, il Suo server GPU.
- Il modello è instradabile nel workspace nel momento in cui carica.
- Pieno controllo sui dati: pesi e prompt non lasciano mai il Suo scope.
Key capabilities
- 76K modelli open-weight indicizzati e installabili con un clic.
- Server di inferenza integrato (nessun Ollama, nessun setup manuale di llama.cpp).
- Quantizzazione all'installazione: scelga Q4 per l'economico, FP16 per la piena precisione.
- Hot-swap di adapter LoRA su un base model: molte varianti specializzate su una singola GPU.
- Routing workspace-wide: stesso handle del modello, tre backend possibili.
How to do it in osFoundry
- Sfogli e scelga un modello — Apra /community/models, filtri su open-weight, scelga la dimensione che si adatta al Suo hardware target.
- Scelga dove ospitare — Locale (gratis, il Suo hardware), endpoint GPU cloud osFoundry (fatturazione al secondo) o il Suo server GPU (gratis; gestisce l'infrastruttura).
- Installi — Un clic. La piattaforma scarica i pesi, applica la quantizzazione scelta, carica nel server di inferenza.
- Lo usi — Il modello è ora un handle instradabile in Maestro e ogni Room App. Passi ad esso per richiesta o tramite le regole di routing di osStudio.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Tempo di setup | Minuti: installazione con un clic. | Ore di setup llama.cpp / vLLM / Triton. |
| Hardware | Locale, il nostro cloud o il Suo: intercambiabili. | Scegliere una sede, impegnarsi. |
| Routing post-installazione | Automatico: il modello è un handle del workspace. | Cablaggio API manuale nel Suo codice. |
| Quantizzazione | Scelga all'installazione; cambi in seguito. | Convertire i pesi manualmente con tooling separato. |
Use cases
- Settore privacy-sensitive: Team healthcare / legal / finance fa self-host di Llama 3.1 70B su un A100 interno: prompt e output non lasciano mai il perimetro dell'organizzazione.
- SaaS ad alto volume: Esegua Mixtral 8x22B su un H100 riservato per l'80% del traffico; burst su un'API cloud per il 20% difficile. Il costo per token scende del 60%.
- Ricercatore: Testi 12 base model candidati in locale prima di sceglierne uno per il fine-tuning. Iterazione gratuita e veloce senza fatture di API hosted.
Frequently asked questions
Quali modelli posso self-hostare su osFoundry?
Qualsiasi dei 76K modelli open-weight indicizzati su /community/models: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS e altri.
Devo fare fine-tuning per fare self-host?
No. Self-hostare significa solo eseguire il base model sotto il Suo controllo. Il fine-tuning è opzionale (flusso LoRA disponibile).
Il self-hosting è più economico del BYOK a un'API hosted?
Per alto volume, sì. Un A100 riservato si ammortizza su milioni di token a un costo per token inferiore rispetto al prezzo hosted.
Posso portare i miei pesi quantizzati?
Sì: carichi un file .safetensors o .gguf e osFoundry lo registra come modello personalizzato.
Quali licenze si applicano quando faccio self-host?
La licenza del base model. Ogni pagina del modello nel catalogo ha uno spiegone della licenza (commercial-use / restricted / research-only).
Lo stesso modello può essere ospitato in due posti contemporaneamente?
Sì: lo stesso handle del modello può avere un backend locale e un backend endpoint cloud simultaneamente. Le regole di routing decidono quale esegue ogni richiesta.
Pricing
Self-hosting locale: gratuito (il Suo hardware, la Sua elettricità). Endpoint GPU cloud osFoundry: al secondo di tempo GPU a tariffe A10 / A100 / H100. Il Suo server GPU: gratis per osFoundry; paga il Suo provider di infrastruttura.
Related features