Startseite / Funktionen / Beliebiges Modell betreiben / LLMs selbst hosten
LLMs in osFoundry selbst hosten — Open Weights, kein Vendor-Lock-in
osFoundry hostet jedes Open-Weight-LLM (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) selbst, mit voller Kontrolle über Gewichte, Runtime und Routing. Betreiben Sie es auf Ihrer lokalen Hardware, auf einem dedizierten GPU-Endpunkt in der osFoundry Cloud oder auf Ihrer eigenen Infrastruktur. Das Modell wird in Ihrem Workspace-Katalog registriert und ist aus Maestro heraus routebar, sobald es geladen ist.
Quick answer
- Hosten Sie jedes der 76K im Katalog indexierten Open-Weight-Modelle selbst.
- Drei Runtimes: lokale Hardware, osFoundry Cloud GPU-Endpunkt, Ihr eigener GPU-Server.
- Modell ist workspace-routebar, sobald es geladen ist.
- Volle Datenkontrolle — Gewichte und Prompts verlassen Ihren Bereich nie.
Key capabilities
- 76K Open-Weight-Modelle indexiert und per Klick installierbar.
- Eingebauter Inferenz-Server (kein Ollama, kein manuelles llama.cpp-Setup).
- Quantisierung bei Installation: wählen Sie Q4 für günstig, FP16 für volle Präzision.
- Hot-Swap von LoRA-Adaptern auf einem Basismodell — viele spezialisierte Varianten auf einer GPU.
- Workspace-weites Routing — gleicher Modell-Handle, drei mögliche Backends.
How to do it in osFoundry
- Modell durchsuchen und auswählen — Öffnen Sie /community/models, filtern Sie nach Open-Weight, wählen Sie die Größe, die zu Ihrer Ziel-Hardware passt.
- Wählen, wo gehostet wird — Lokal (kostenlos, Ihre Hardware), osFoundry Cloud GPU-Endpunkt (Per-Sekunde-Abrechnung) oder Ihr eigener GPU-Server (kostenlos; Sie verwalten die Infrastruktur).
- Installieren — Ein Klick. Die Plattform zieht die Gewichte, wendet die gewählte Quantisierung an, lädt in den Inferenz-Server.
- Nutzen — Das Modell ist jetzt ein routebarer Handle in Maestro und jeder Room App. Wechseln Sie pro Anfrage oder via osStudio-Routing-Regeln dorthin.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Einrichtungszeit | Minuten — Installation per Klick. | Stunden llama.cpp / vLLM / Triton-Setup. |
| Hardware | Lokal, unsere Cloud oder Ihre — austauschbar. | Wählen Sie einen Ort, festlegen. |
| Routing nach Installation | Automatisch — Modell ist ein Workspace-Handle. | Manuelle API-Verdrahtung in Ihrem Code. |
| Quantisierung | Bei Installation wählen; später wechseln. | Gewichte manuell mit separaten Tools konvertieren. |
Use cases
- Datenschutz-sensible Branche: Gesundheits-/Rechts-/Finanzteam hostet Llama 3.1 70B selbst auf einer internen A100 — Prompts und Ausgaben verlassen den Org-Perimeter nie.
- SaaS mit hohem Volumen: Betreiben Sie Mixtral 8x22B auf einer reservierten H100 für 80 % des Traffics; springen Sie zu einer Cloud-API für die schwierigen 20 %. Pro-Token-Kosten sinken um 60 %.
- Forscher: Testen Sie 12 Kandidaten-Basismodelle lokal, bevor Sie eines für Fine-Tuning wählen. Kostenlose, schnelle Iteration ohne gehostete API-Rechnungen.
Frequently asked questions
Welche Modelle kann ich in osFoundry selbst hosten?
Jedes der 76K Open-Weight-Modelle, die unter /community/models indexiert sind — Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS und mehr.
Muss ich fine-tunen, um selbst zu hosten?
Nein. Selbst-Hosten bedeutet einfach, das Basismodell unter Ihrer Kontrolle zu betreiben. Fine-Tuning ist optional (LoRA-Flow verfügbar).
Ist Self-Hosting günstiger als BYOK zu einer gehosteten API?
Bei hohem Volumen ja. Eine reservierte A100 amortisiert sich über Millionen von Tokens zu geringeren Pro-Token-Kosten als gehostete Preise.
Kann ich meine eigenen quantisierten Gewichte mitbringen?
Ja — laden Sie eine .safetensors- oder .gguf-Datei hoch, und osFoundry registriert sie als eigenes Modell.
Welche Lizenzen gelten, wenn ich selbst hoste?
Die Lizenz des Basismodells. Jede Modellseite im Katalog hat einen Lizenz-Erklärer (kommerzielle Nutzung / eingeschränkt / nur Forschung).
Kann dasselbe Modell an zwei Orten gleichzeitig gehostet werden?
Ja — derselbe Modell-Handle kann gleichzeitig ein lokales Backend und ein Cloud-Endpoint-Backend haben. Routing-Regeln entscheiden, welches jede Anfrage bearbeitet.
Pricing
Lokales Self-Hosting: kostenlos (Ihre Hardware, Ihr Strom). osFoundry Cloud GPU-Endpunkt: pro Sekunde GPU-Zeit zu A10- / A100- / H100-Tarifen. Ihr eigener GPU-Server: kostenlos für osFoundry; zahlen Sie Ihren Infrastruktur-Anbieter.
Related features