Home / Funzionalità / Esegua qualsiasi modello
Esegua qualsiasi modello AI con osFoundry: locale, cloud o self-hosted
BYOK su qualsiasi API cloud, esegua pesi open sul Suo laptop o rilasci un endpoint GPU dedicato: tutto da un unico workspace.
osFoundry è una piattaforma ibrida di orchestrazione AI che esegue qualsiasi modello AI da un unico workspace: Llama, Qwen o Mistral open-weight sul Suo laptop; Claude, GPT o Gemini tramite le Sue chiavi API; ed endpoint GPU dedicati nel nostro cloud per capacità riservata. Cambi backend a metà conversazione, non resti mai bloccato su un singolo provider e paghi solo per i secondi in cui il Suo modello gira davvero.
Quick answer
- Esegua modelli open-weight in locale con il runtime di inferenza on-device di osFoundry: nessun costo per token, nessun dato lascia la Sua macchina.
- Porti le Sue chiavi API (BYOK) per Anthropic, OpenAI, Google, Mistral, Together e qualsiasi endpoint OpenAI-compatibile.
- Rilasci endpoint GPU dedicati nel cloud osFoundry per throughput riservato sul modello open-weight a Sua scelta.
- Instradi le richieste tra tutte e tre le modalità da un'unica chat: passi locale ↔ cloud ↔ self-host senza uscire dalla conversazione.
- Nessun ricarico sui token: l'account del Suo provider viene fatturato direttamente.
What it is
La maggior parte degli strumenti AI La obbliga a un singolo backend: un prodotto chat hosted, una singola API di modello o un self-host che mantiene da solo. osFoundry tratta inferenza locale, API cloud ed endpoint self-hosted come tre backend intercambiabili dietro un'unica superficie chat, un unico livello di configurazione e un'unica superficie di fatturazione. Lo stesso prompt può colpire un modello 8B locale per il triage a bassa latenza, un'API Claude Sonnet per il ragionamento difficile e un Llama 70B self-hosted per dati sensibili — tutto in un'unica conversazione.
Key capabilities
- Inferenza locale con modelli open-weight quantizzati (da Q4 a FP16) su Apple Silicon e GPU NVIDIA.
- BYOK su qualsiasi provider con API OpenAI-compatibile: le chiavi vivono nel Suo keychain crittografato.
- Dispatch del modello per richiesta guidato da regole di routing configurabili dall'utente in osStudio.
- Hot-swap di adapter LoRA al momento dell'inferenza senza riavviare il modello.
- Vista della flotta di inference server: capacità unificata tra box locali, endpoint cloud e GPU self-hosted.
- Catene di fallback: provi prima il locale, ripieghi sul cloud se il modello non è caricato.
How to do it in osFoundry
- Scelga un modello — Sfogli il catalogo su /community/models e /community/api-models: oltre 76.000 pesi open e 364 modelli API hosted, con riferimenti incrociati tra quelli a doppia natura (per esempio Llama 3.1 70B è entrambi).
- Lo colleghi — Per BYOK: incolli la chiave del Suo provider nella finestra delle chiavi e assegni il modello a un ruolo Maestro. Per il locale: clicchi Installa nella pagina del modello. Per self-host: rilasci un endpoint GPU dalla tab Servers.
- Lo usi — Ci chatti direttamente, chiami invokeAI da una Room App o lo colpisca come endpoint HTTP dai Suoi servizi: stesso modello, stesso routing, tre interfacce.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Backend | Locale + cloud + self-hosted, commutabili per richiesta. | Singolo backend, vendor-locked. |
| Ricarico sui token | Nessuno: prezzo diretto del provider. | Ricarico del 20-100% sui token hosted. |
| Modalità privacy | Modalità solo locale: nessun traffico lascia mai il device. | Sempre cloud-bound. |
| Numero di modelli | 76K open + 364 API + i Suoi pesi self-hosted. | Una manciata di modelli curati. |
Use cases
- Sviluppatore solo: Esegua Llama 3.1 8B in locale per la chat di coding quotidiana. Passi a Claude Sonnet per i refactoring difficili. Stesso thread di chat.
- Team privacy-first: Forzi tutti i prompt sensibili sui modelli locali; permetta ai prompt su informazioni pubbliche di usare API cloud. Le regole di routing applicano la policy.
- Startup ad alto volume: Self-host di Mixtral 8x22B su un A100 riservato per l'80% del traffico; burst su GPT-4o per il 20% difficile.
Flotta di inference server
Aggreghi capacità tra macchine locali, endpoint BYOK e GPU self-hosted in un unico pool indirizzabile. Maestro instrada per richiesta in base alla disponibilità e alle priorità configurate.
Frequently asked questions
Posso usare osFoundry senza acquistare crediti?
Sì. BYOK e inferenza locale funzionano entrambi senza alcun acquisto di crediti osFoundry: paga il Suo provider per l'uso cloud e l'inferenza locale è gratuita.
osFoundry ricarica i token API cloud?
No. BYOK passa il Suo traffico direttamente all'account del Suo provider. Addebitiamo solo per i nostri servizi ospitati in cloud (endpoint GPU, hosting app, storage).
Verso quali provider posso fare BYOK?
Anthropic, OpenAI, Google (Vertex + AI Studio), Mistral, Together, Groq, DeepSeek, Cohere e qualsiasi endpoint OpenAI-compatibile. Nuovi provider vengono aggiunti tramite la libreria di connettori.
Che hardware mi serve per eseguire modelli open-weight in locale?
Una GPU consumer con 16 GB di VRAM esegue bene modelli 7-13B a Q4. 24 GB gestisce modelli 30B. Modelli 70B+ richiedono un A100/H100 80 GB o trade-off di quantizzazione.
Posso cambiare modello a metà conversazione?
Sì. Ogni turno può usare un modello diverso. Le regole di routing di Maestro in osStudio Le permettono di commutare automaticamente in base al contenuto del prompt.
In cosa un endpoint self-hosted differisce dall'inferenza locale?
L'inferenza locale gira sulla Sua macchina. Un endpoint self-hosted gira su una GPU dedicata che provisiona nel cloud osFoundry: capacità riservata, nessun rate limit, accessibile tramite la Sua rete privata.
osFoundry supporta anche modelli per immagini, audio e video?
Sì. Il catalogo include 76K modelli open-weight tra chat, immagini, audio, video ed embedding. BYOK funziona per provider hosted di immagini/audio (DALL·E, Midjourney tramite Replicate, ElevenLabs, ecc.).
Posso eseguire osFoundry completamente offline?
Sì: installi l'app desktop, scarichi un modello locale e disabiliti le route cloud. La modalità local-first è un'impostazione di workspace first-class.
Pricing
Inferenza locale: gratuita (il Suo hardware). BYOK: al prezzo del Suo provider, nessun ricarico. Endpoint GPU ospitati da osFoundry: al secondo di tempo GPU, vedi la pagina prezzi per le tariffe correnti.
Related features