Inicio / Funciones / Ejecutar cualquier modelo / Inferencia de LLM local
Ejecuten LLMs locales en su portátil con osFoundry
osFoundry ejecuta LLMs de pesos abiertos (Llama, Qwen, Mistral, GPT-OSS) en local sobre Apple Silicon y GPUs NVIDIA a través de un servidor de inferencia integrado. Los pesos cuantizados Q4 corren modelos de 7-13B en una GPU de consumo de 16 GB; los modelos de 30B caben en 24 GB; los de 70B+ necesitan una A100/H100 o cuantización agresiva. Sin tokens facturados, sin que ningún dato salga de su máquina.
Quick answer
- Servidor de inferencia local integrado: sin Ollama, sin configurar llama.cpp.
- Apple Silicon (Metal) y NVIDIA (CUDA) soportados.
- Instalación con un clic para cualquier modelo del catálogo.
- Los modelos se mantienen cargados entre chats: sin latencia de recarga.
Frequently asked questions
¿osFoundry usa Ollama o llama.cpp?
osFoundry corre su propio servidor de inferencia. Desde su perspectiva es solo «Instalar» y el modelo está listo.
¿Cuánta RAM necesito?
Un modelo Q4 7B necesita ~6 GB. Un 13B necesita ~10 GB. Un 70B Q4 necesita ~50 GB.
¿Puedo ejecutar varios modelos locales a la vez?
Sí: el servidor carga en caliente bajo demanda y descarga los modelos inactivos para liberar memoria.
¿La inferencia local se factura?
No. La inferencia local corre en su propio hardware y es gratuita.
Related features