Startseite / Funktionen / Beliebiges Modell betreiben / LLMs selbst hosten

LLMs in osFoundry selbst hosten — Open Weights, kein Vendor-Lock-in

osFoundry hostet jedes Open-Weight-LLM (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) selbst, mit voller Kontrolle über Gewichte, Runtime und Routing. Betreiben Sie es auf Ihrer lokalen Hardware, auf einem dedizierten GPU-Endpunkt in der osFoundry Cloud oder auf Ihrer eigenen Infrastruktur. Das Modell wird in Ihrem Workspace-Katalog registriert und ist aus Maestro heraus routebar, sobald es geladen ist.

Quick answer

Hosten Sie jedes der 76K im Katalog indexierten Open-Weight-Modelle selbst.
Drei Runtimes: lokale Hardware, osFoundry Cloud GPU-Endpunkt, Ihr eigener GPU-Server.
Modell ist workspace-routebar, sobald es geladen ist.
Volle Datenkontrolle — Gewichte und Prompts verlassen Ihren Bereich nie.

Key capabilities

76K Open-Weight-Modelle indexiert und per Klick installierbar.
Eingebauter Inferenz-Server (kein Ollama, kein manuelles llama.cpp-Setup).
Quantisierung bei Installation: wählen Sie Q4 für günstig, FP16 für volle Präzision.
Hot-Swap von LoRA-Adaptern auf einem Basismodell — viele spezialisierte Varianten auf einer GPU.
Workspace-weites Routing — gleicher Modell-Handle, drei mögliche Backends.

How to do it in osFoundry

Modell durchsuchen und auswählen — Öffnen Sie /community/models, filtern Sie nach Open-Weight, wählen Sie die Größe, die zu Ihrer Ziel-Hardware passt.
Wählen, wo gehostet wird — Lokal (kostenlos, Ihre Hardware), osFoundry Cloud GPU-Endpunkt (Per-Sekunde-Abrechnung) oder Ihr eigener GPU-Server (kostenlos; Sie verwalten die Infrastruktur).
Installieren — Ein Klick. Die Plattform zieht die Gewichte, wendet die gewählte Quantisierung an, lädt in den Inferenz-Server.
Nutzen — Das Modell ist jetzt ein routebarer Handle in Maestro und jeder Room App. Wechseln Sie pro Anfrage oder via osStudio-Routing-Regeln dorthin.

How osFoundry compares

Capability	osFoundry	Most other tools
Einrichtungszeit	Minuten — Installation per Klick.	Stunden llama.cpp / vLLM / Triton-Setup.
Hardware	Lokal, unsere Cloud oder Ihre — austauschbar.	Wählen Sie einen Ort, festlegen.
Routing nach Installation	Automatisch — Modell ist ein Workspace-Handle.	Manuelle API-Verdrahtung in Ihrem Code.
Quantisierung	Bei Installation wählen; später wechseln.	Gewichte manuell mit separaten Tools konvertieren.

Use cases

Datenschutz-sensible Branche: Gesundheits-/Rechts-/Finanzteam hostet Llama 3.1 70B selbst auf einer internen A100 — Prompts und Ausgaben verlassen den Org-Perimeter nie.
SaaS mit hohem Volumen: Betreiben Sie Mixtral 8x22B auf einer reservierten H100 für 80 % des Traffics; springen Sie zu einer Cloud-API für die schwierigen 20 %. Pro-Token-Kosten sinken um 60 %.
Forscher: Testen Sie 12 Kandidaten-Basismodelle lokal, bevor Sie eines für Fine-Tuning wählen. Kostenlose, schnelle Iteration ohne gehostete API-Rechnungen.

Frequently asked questions

Welche Modelle kann ich in osFoundry selbst hosten?

Jedes der 76K Open-Weight-Modelle, die unter /community/models indexiert sind — Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS und mehr.

Muss ich fine-tunen, um selbst zu hosten?

Nein. Selbst-Hosten bedeutet einfach, das Basismodell unter Ihrer Kontrolle zu betreiben. Fine-Tuning ist optional (LoRA-Flow verfügbar).

Ist Self-Hosting günstiger als BYOK zu einer gehosteten API?

Bei hohem Volumen ja. Eine reservierte A100 amortisiert sich über Millionen von Tokens zu geringeren Pro-Token-Kosten als gehostete Preise.

Kann ich meine eigenen quantisierten Gewichte mitbringen?

Ja — laden Sie eine .safetensors- oder .gguf-Datei hoch, und osFoundry registriert sie als eigenes Modell.

Welche Lizenzen gelten, wenn ich selbst hoste?

Die Lizenz des Basismodells. Jede Modellseite im Katalog hat einen Lizenz-Erklärer (kommerzielle Nutzung / eingeschränkt / nur Forschung).

Kann dasselbe Modell an zwei Orten gleichzeitig gehostet werden?

Ja — derselbe Modell-Handle kann gleichzeitig ein lokales Backend und ein Cloud-Endpoint-Backend haben. Routing-Regeln entscheiden, welches jede Anfrage bearbeitet.

Pricing

Lokales Self-Hosting: kostenlos (Ihre Hardware, Ihr Strom). osFoundry Cloud GPU-Endpunkt: pro Sekunde GPU-Zeit zu A10- / A100- / H100-Tarifen. Ihr eigener GPU-Server: kostenlos für osFoundry; zahlen Sie Ihren Infrastruktur-Anbieter.