Question 1

¿osFoundry usa Ollama o llama.cpp?

Accepted Answer

osFoundry corre su propio servidor de inferencia. Desde su perspectiva es solo «Instalar» y el modelo está listo.

Question 2

¿Cuánta RAM necesito?

Accepted Answer

Un modelo Q4 7B necesita ~6 GB. Un 13B necesita ~10 GB. Un 70B Q4 necesita ~50 GB.

Question 3

¿Puedo ejecutar varios modelos locales a la vez?

Accepted Answer

Sí: el servidor carga en caliente bajo demanda y descarga los modelos inactivos para liberar memoria.

Question 4

¿La inferencia local se factura?

Accepted Answer

No. La inferencia local corre en su propio hardware y es gratuita.