Home / Funzionalità / Esegua qualsiasi modello / Inferenza LLM locale
Esegua LLM locali sul Suo laptop con osFoundry
osFoundry esegue LLM open-weight (Llama, Qwen, Mistral, GPT-OSS) in locale su Apple Silicon e GPU NVIDIA attraverso un server di inferenza integrato. I pesi quantizzati Q4 eseguono modelli 7-13B su una GPU consumer da 16 GB; modelli 30B stanno su 24 GB; modelli 70B+ richiedono un A100/H100 o quantizzazione aggressiva. Nessun token fatturato, nessun dato lascia la Sua macchina.
Quick answer
- Server di inferenza locale integrato: nessuna configurazione di Ollama, nessun llama.cpp.
- Apple Silicon (Metal) e NVIDIA (CUDA) supportati.
- Installazione con un clic per qualsiasi modello nel catalogo.
- I modelli restano caricati tra le chat: nessuna latenza di re-load.
Frequently asked questions
osFoundry usa Ollama o llama.cpp?
osFoundry esegue il proprio server di inferenza. Dalla Sua prospettiva è solo «Installa» e il modello è pronto.
Quanta RAM mi serve?
Un modello Q4 7B richiede ~6 GB. Un 13B richiede ~10 GB. Un 70B Q4 richiede ~50 GB.
Posso eseguire più modelli locali contemporaneamente?
Sì: il server fa hot-load su richiesta e scarica i modelli inattivi per liberare memoria.
L'inferenza locale è fatturata?
No. Il locale gira sul Suo hardware ed è gratuito.
Related features