Início / Recursos / Rode qualquer modelo / Inferência local de LLM
Rode LLMs locais no seu laptop com o osFoundry
osFoundry roda LLMs de pesos abertos (Llama, Qwen, Mistral, GPT-OSS) localmente em Apple Silicon e GPUs NVIDIA através de um servidor de inferência embutido. Pesos quantizados Q4 rodam modelos 7–13B em uma GPU de consumidor de 16 GB; modelos 30B cabem em 24 GB; modelos 70B+ precisam de uma A100/H100 ou quantização agressiva. Sem tokens cobrados, nenhum dado sai da sua máquina.
Quick answer
- Servidor de inferência local embutido — sem setup de Ollama, sem llama.cpp.
- Apple Silicon (Metal) e NVIDIA (CUDA) suportados.
- Instalação em um clique para qualquer modelo no catálogo.
- Modelos permanecem carregados entre chats — sem latência de recarga.
Frequently asked questions
O osFoundry usa Ollama ou llama.cpp?
O osFoundry roda seu próprio servidor de inferência. Da sua perspectiva é apenas "Instalar" e o modelo está pronto.
Quanta RAM eu preciso?
Um modelo Q4 7B precisa de ~6 GB. Um 13B precisa de ~10 GB. Um 70B Q4 precisa de ~50 GB.
Posso rodar vários modelos locais ao mesmo tempo?
Sim — o servidor faz hot-load sob demanda e descarrega modelos ociosos para liberar memória.
A inferência local é cobrada?
Não. Local roda no seu próprio hardware e é gratuito.
Related features