홈 / 기능 / 학습 및 파인튜닝

osFoundry에서 AI 모델 학습 및 파인튜닝

자체 데이터로 LoRA를 사용해 Llama, Mistral, Qwen을 파인튜닝합니다. 저렴한 추론을 위해 양자화합니다. 런타임에 어댑터를 핫스왑합니다.

osFoundry를 사용하면 자체 데이터로 LoRA를 사용해 모든 오픈 웨이트 LLM을 파인튜닝하고, 저렴한 추론을 위해 결과를 양자화하며, 런타임에 어댑터를 핫스왑할 수 있습니다 — 모두 워크스페이스를 떠나지 않고. 학습 작업은 로컬 GPU, osFoundry 클라우드, 또는 자체 인프라에서 실행됩니다. 학습한 모델은 즉시 Maestro와 워크스페이스의 모든 Room App에서 사용할 수 있습니다.

Quick answer

Llama 3, Mistral, Qwen 및 60개 이상의 기타 베이스 모델에 대한 LoRA 파인튜닝 — UI 기반, 노트북 불필요.
세 가지 학습 경로: 로컬 GPU, osFoundry 클라우드, 또는 BYO 서버.
저렴한 추론을 위해 학습된 어댑터를 Q4/Q5로 양자화.
요청별 LoRA 어댑터 핫스왑 — 모델 재로드 없음, 1초 이내 전환.

What it is

대부분의 AI 플랫폼은 호스팅 모델에 잠금되거나 노트북을 제공합니다. osFoundry의 학습 파이프라인은 워크스페이스 네이티브입니다: 베이스를 선택하고, 데이터셋(KB, 공개 데이터셋, 또는 업로드)을 가리키고, LoRA 랭크를 선택하고, 출시합니다. 학습된 어댑터는 모델 카탈로그에 자동으로 등록되며 완료되는 순간 Maestro에서 라우팅할 수 있습니다.

Key capabilities

60개 이상의 오픈 웨이트 베이스 모델에 대한 LoRA + QLoRA 파인튜닝.
어댑터 다운로드 — osFoundry에서 .safetensors를 가져와 다른 곳에 배포합니다.
Q4_K_M, Q5_K_M, Q6_K, FP16으로 양자화 — 원클릭으로 변환합니다.
단일 베이스 모델에서 최대 16개의 활성 LoRA 어댑터 핫스왑.
지식 베이스, 업로드된 JSONL/CSV, 또는 250K 공개 데이터셋 중 하나에서 학습.
작업당 세 가지 학습 경로: 로컬 GPU, osFoundry 클라우드, 또는 자체 인프라.

How to do it in osFoundry

베이스 모델 선택 — /community/models를 둘러보고, 오픈 웨이트(Llama, Mistral, Qwen, Phi 등)로 필터링하고, 대상 GPU에 맞는 크기를 선택합니다.
데이터셋 가리키기 — 지식 베이스(자동으로 명령 쌍으로 형식화됨)를 선택하거나, JSONL/CSV를 업로드하거나, 카탈로그에 인덱싱된 250K 공개 데이터셋 중에서 선택합니다.
학습 구성 선택 — LoRA 랭크(8/16/32/64), 학습률, 에포크, 대상 모듈. 합리적인 기본값이 제공됩니다. 거기서부터 조정합니다.
학습 위치 선택 — 로컬 GPU(무료), osFoundry 클라우드(초당 GPU 가격), 또는 BYO 인프라(자체 클러스터에 작업 푸시).
어댑터 출시 — 학습이 완료되면 어댑터가 모델 카탈로그에 자동으로 등록됩니다. 베이스 모델 엔드포인트에 핫스왑하고 몇 분 안에 요청 라우팅을 시작합니다.

How osFoundry compares

Capability	osFoundry	Most other tools
학습 UI	워크스페이스 네이티브 — 노트북 없음, 명령줄 없음.	노트북 또는 CLI 필요.
어댑터 내보내기	학습 구성과 함께 원클릭 .safetensors 다운로드.	공급자에 잠금되거나 수동 내보내기.
실행 위치	로컬 GPU, 당사 클라우드, 또는 자체 인프라.	단일 장소, 고정 가격.
학습 후 라우팅	어댑터는 Maestro와 Room App에서 즉시 라우팅 가능.	앱 코드에 수동으로 연결.

Use cases

고객 지원 팀: Mistral 7B를 18개월간의 지원 트랜스크립트로 파인튜닝합니다. 에이전트는 귀사의 톤으로 답변하고, 제품을 참조하며, 브랜드에 충실하게 유지됩니다.
법률 운영: 회사 스타일로 새 계약서를 레드라인하기 위해 라벨링된 계약 코퍼스로 Llama 3.1 8B를 학습합니다. 온프레미스에 유지됩니다. 어댑터는 워크스페이스를 떠나지 않습니다.
게임 스튜디오: 인게임 NPC 대화를 위해 IP 바이블로 Qwen 14B를 LoRA 튜닝합니다. 하나의 공유 베이스 모델에서 음성을 구별하기 위해 캐릭터당 다른 LoRA를 핫스왑합니다.

Frequently asked questions

osFoundry에서 LoRA 파인튜닝은 얼마나 걸립니까?

50K 행 데이터셋의 7B 모델은 단일 A100에서 ~30분이 걸립니다. 70B 모델은 ~3시간이 걸립니다. 로컬 M2/M3 Mac은 7B를 ~2시간 안에 처리합니다.

osFoundry에서 LoRA 어댑터를 내보낼 수 있습니까?

예 — 학습된 모든 어댑터는 .safetensors로 다운로드할 수 있으며 학습 구성을 포함합니다. 잠금 없음.

osFoundry는 LoRA뿐만 아니라 전체 파인튜닝도 지원합니까?

LoRA + QLoRA가 오늘날 권장되는 경로입니다. 7B 이상 모델의 전체 파인튜닝은 로드맵에 있습니다. 현재로서는 필요한 경우 BYO 인프라를 사용하세요.

어떤 데이터셋으로 학습할 수 있습니까?

지식 베이스(자동으로 명령 쌍으로 형식화됨), 업로드된 JSONL/CSV/parquet, 또는 HuggingFace에서 인덱싱된 250K 공개 데이터셋.

학습 비용은 얼마입니까?

로컬 학습은 무료입니다(자체 하드웨어). 클라우드 학습은 추론 엔드포인트와 동일한 요금으로 GPU 시간 초당 청구됩니다. A100에서 7B LoRA는 학습 실행당 대략 $2-3입니다. 70B는 $20-30입니다.

중단된 학습 작업을 재개할 수 있습니까?

예 — 체크포인트는 N 단계마다 저장됩니다(구성 가능). 재개는 처음이 아닌 마지막 체크포인트에서 시작합니다.

Pricing

로컬 학습: 무료(자체 하드웨어). 클라우드 학습: 추론 엔드포인트와 동일한 요금으로 초당 GPU 청구(A10 / A100 / H100). 어댑터 스토리지는 워크스페이스 파일 스토리지로 측정됩니다.