홈 / 기능 / 모든 모델 실행 / 로컬 LLM 추론
osFoundry로 노트북에서 로컬 LLM 실행
osFoundry는 내장 추론 서버를 통해 Apple Silicon 및 NVIDIA GPU에서 오픈 웨이트 LLM(Llama, Qwen, Mistral, GPT-OSS)을 로컬로 실행합니다. 양자화된 Q4 웨이트는 16GB 소비자용 GPU에서 7-13B 모델을 실행합니다. 30B 모델은 24GB에 맞습니다. 70B 이상 모델에는 A100/H100 또는 공격적인 양자화가 필요합니다. 청구되는 토큰 없음, 데이터가 기기를 떠나지 않습니다.
Quick answer
- 내장 로컬 추론 서버 — Ollama 없음, llama.cpp 설정 없음.
- Apple Silicon(Metal) 및 NVIDIA(CUDA) 지원.
- 카탈로그의 모든 모델에 대한 원클릭 설치.
- 모델은 채팅 전반에 걸쳐 로드된 상태로 유지됩니다 — 재로드 지연 없음.
Frequently asked questions
osFoundry는 Ollama 또는 llama.cpp를 사용합니까?
osFoundry는 자체 추론 서버를 실행합니다. 사용자 관점에서는 "설치"만 하면 모델이 준비됩니다.
얼마나 많은 RAM이 필요합니까?
Q4 7B 모델은 ~6GB가 필요합니다. 13B는 ~10GB가 필요합니다. 70B Q4는 ~50GB가 필요합니다.
한 번에 여러 로컬 모델을 실행할 수 있습니까?
예 — 서버는 요구에 따라 핫로드하고 유휴 모델을 언로드하여 메모리를 확보합니다.
로컬 추론은 청구됩니까?
아니요. 로컬은 자체 하드웨어에서 실행되며 무료입니다.
Related features