홈 / 용어집 / 온디바이스 추론
What is 온디바이스 추론 (On-device Inference)?
온디바이스 추론은 네트워크 호출 없이 사용자의 하드웨어(노트북, 휴대폰)에서 직접 LLM을 실행합니다. osFoundry의 내장 추론 서버는 오픈 웨이트 모델용으로 Apple Silicon(Metal)과 NVIDIA(CUDA)를 지원합니다.
Detail
온디바이스 추론은 세 가지 큰 장점을 가집니다: 토큰당 제로 비용, 제로 네트워크 지연, 제로 데이터 유출. 한계: VRAM에 의해 제약되는 모델 크기, 기기에 의해 제한되는 속도. 7B 모델은 최신 Mac에서 빠르게 실행되며, 70B 모델에는 A100급 GPU가 필요합니다.
양자화(Q4, Q5)는 더 큰 모델을 소비자 VRAM에 맞추는 데 필수적입니다.
How osFoundry approaches 온디바이스 추론 (On-device Inference)
osFoundry의 데스크톱 앱에는 추론 서버가 포함됩니다. 모든 오픈 웨이트 모델에 대한 원 클릭 설치. Llama 3.1 8B 및 Qwen 2.5 14B와 같은 품질 모델은 소비자 하드웨어에서 원활하게 실행됩니다.
Related terms
Related features