Inicio / Glosario / Inferencia en el dispositivo

What is Inferencia en el Dispositivo?

La inferencia en el dispositivo ejecuta un LLM directamente en el hardware del usuario (portátil, teléfono) sin ninguna llamada de red. El servidor de inferencia integrado de osFoundry soporta Apple Silicon (Metal) y NVIDIA (CUDA) para modelos de pesos abiertos.

Detail

La inferencia en el dispositivo tiene tres grandes ventajas: cero coste por token, cero latencia de red, cero fuga de datos. Límites: el tamaño del modelo está restringido por la VRAM; la velocidad está limitada por el dispositivo. Un modelo 7B corre rápido en un Mac moderno; un 70B necesita una GPU de clase A100.

La cuantización (Q4, Q5) es esencial para meter modelos más grandes en VRAM de consumo.

How osFoundry approaches Inferencia en el Dispositivo

La app de escritorio de osFoundry incluye el servidor de inferencia. Instalación con un clic para cualquier modelo de pesos abiertos. Modelos de calidad como Llama 3.1 8B y Qwen 2.5 14B corren con fluidez en hardware de consumo.