Startseite / Funktionen / Beliebiges Modell betreiben
Beliebiges KI-Modell mit osFoundry betreiben — lokal, in der Cloud oder selbst gehostet
BYOK zu jeder Cloud-API, Open Weights auf Ihrem Laptop ausführen oder einen dedizierten GPU-Endpunkt deployen — alles aus einem Workspace.
osFoundry ist eine hybride KI-Orchestrierungsplattform, die jedes KI-Modell aus einem einzigen Workspace betreibt — Open-Weight Llama, Qwen oder Mistral auf Ihrem Laptop; Claude, GPT oder Gemini über Ihre eigenen API-Schlüssel; und dedizierte GPU-Endpunkte in unserer Cloud für reservierte Kapazität. Wechseln Sie Backends mitten im Gespräch, geraten Sie nie in die Abhängigkeit von einem einzigen Anbieter und zahlen Sie nur für die Sekunden, in denen Ihr Modell tatsächlich läuft.
Quick answer
- Führen Sie Open-Weight-Modelle lokal mit der On-Device-Inferenz-Runtime von osFoundry aus — keine Token-Kosten, keine Daten verlassen Ihren Rechner.
- Bringen Sie Ihre eigenen API-Schlüssel (BYOK) für Anthropic, OpenAI, Google, Mistral, Together und jeden OpenAI-kompatiblen Endpunkt mit.
- Deployen Sie dedizierte GPU-Endpunkte in der osFoundry Cloud für reservierten Durchsatz auf dem Open-Weight-Modell Ihrer Wahl.
- Routen Sie Anfragen über alle drei Modi aus einem Chat — wechseln Sie lokal ↔ Cloud ↔ Self-Host, ohne das Gespräch zu verlassen.
- Kein Aufschlag auf Tokens — Ihr Anbieter-Konto wird direkt belastet.
What it is
Die meisten KI-Tools erzwingen ein einziges Backend: ein gehostetes Chat-Produkt, eine einzelne Modell-API oder ein Self-Host, das Sie allein warten. osFoundry behandelt lokale Inferenz, Cloud-APIs und selbst gehostete Endpunkte als drei austauschbare Backends hinter einer Chat-Oberfläche, einer Konfigurationsschicht und einer Abrechnungsoberfläche. Derselbe Prompt kann ein lokales 8B-Modell für latenzarmes Triage, eine Claude-Sonnet-API für schwieriges Reasoning und ein selbst gehostetes Llama 70B für sensible Daten treffen — alles in einem Gespräch.
Key capabilities
- Lokale Inferenz mit quantisierten Open-Weight-Modellen (Q4 bis FP16) auf Apple Silicon und NVIDIA-GPUs.
- BYOK zu jedem Anbieter mit OpenAI-kompatibler API — Schlüssel liegen in Ihrem verschlüsselten Keychain.
- Modell-Dispatch pro Anfrage, gesteuert durch benutzerkonfigurierbare Routing-Regeln in osStudio.
- Hot-Swap von LoRA-Adaptern zur Inferenzzeit ohne Modell-Neustart.
- Inferenz-Server-Flotten-Ansicht — bündeln Sie Kapazität über lokale Maschinen, Cloud-Endpunkte und selbst gehostete GPUs.
- Fallback-Ketten: zuerst lokal versuchen, in die Cloud ausweichen, wenn das Modell nicht geladen ist.
How to do it in osFoundry
- Modell auswählen — Durchsuchen Sie den Katalog unter /community/models und /community/api-models — über 76.000 Open Weights und 364 gehostete API-Modelle, mit Querverweisen zwischen denen, die beides bieten (z. B. Llama 3.1 70B ist beides).
- Verdrahten — Für BYOK: Fügen Sie Ihren Anbieter-Schlüssel in den Schlüssel-Dialog ein und weisen Sie das Modell einer Maestro-Rolle zu. Für lokal: Klicken Sie auf Installieren auf der Modellseite. Für Self-Host: Deployen Sie einen GPU-Endpunkt aus dem Servers-Tab.
- Nutzen — Chatten Sie direkt damit, rufen Sie invokeAI aus einer Room App auf oder erreichen Sie ihn als HTTP-Endpunkt aus Ihren eigenen Diensten — gleiches Modell, gleiches Routing, drei Schnittstellen.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Backends | Lokal + Cloud + selbst gehostet, pro Anfrage umschaltbar. | Einzelnes Backend, Vendor-Lock-in. |
| Token-Aufschlag | Keiner — direkte Anbieterpreise. | 20–100 % Aufschlag auf gehostete Tokens. |
| Datenschutz-Modus | Nur-Lokal-Modus — kein Traffic verlässt das Gerät. | Immer Cloud-gebunden. |
| Modellanzahl | 76K Open + 364 API + Ihre selbst gehosteten Gewichte. | Eine Handvoll kuratierter Modelle. |
Use cases
- Einzelner Entwickler: Llama 3.1 8B lokal für täglichen Coding-Chat ausführen. Für schwierige Refactorings zu Claude Sonnet wechseln. Gleicher Chat-Thread.
- Datenschutz-orientiertes Team: Erzwingen Sie alle sensiblen Prompts an lokale Modelle; erlauben Sie Public-Info-Prompts die Nutzung von Cloud-APIs. Routing-Regeln setzen die Richtlinie durch.
- Startup mit hohem Volumen: Hosten Sie Mixtral 8x22B selbst auf einer reservierten A100 für 80 % des Traffics; springen Sie zu GPT-4o für die schwierigen 20 %.
Inferenz-Server-Flotte
Aggregieren Sie Kapazität über lokale Maschinen, BYOK-Endpunkte und selbst gehostete GPUs in einen einzigen adressierbaren Pool. Maestro routet pro Anfrage basierend auf Verfügbarkeit und konfigurierten Prioritäten.
Frequently asked questions
Kann ich osFoundry nutzen, ohne Credits zu kaufen?
Ja. BYOK und lokale Inferenz funktionieren beide ohne osFoundry-Credit-Kauf — Sie zahlen Ihren eigenen Anbieter für die Cloud-Nutzung, und lokale Inferenz ist kostenlos.
Erhebt osFoundry Aufschläge auf Cloud-API-Tokens?
Nein. BYOK leitet Ihren Traffic direkt an Ihr Anbieter-Konto weiter. Wir berechnen nur für unsere eigenen Cloud-gehosteten Dienste (GPU-Endpunkte, App-Hosting, Speicher).
Bei welchen Anbietern kann ich BYOK nutzen?
Anthropic, OpenAI, Google (Vertex + AI Studio), Mistral, Together, Groq, DeepSeek, Cohere und jeder OpenAI-kompatible Endpunkt. Neue Anbieter werden über die Connector-Library hinzugefügt.
Welche Hardware brauche ich, um Open-Weight-Modelle lokal auszuführen?
Eine Consumer-GPU mit 16 GB VRAM führt 7–13B-Modelle bei Q4 gut aus. 24 GB bewältigen 30B-Modelle. 70B+-Modelle benötigen eine A100/H100 80 GB oder Quantisierungs-Kompromisse.
Kann ich Modelle mitten im Gespräch wechseln?
Ja. Jede Runde kann ein anderes Modell verwenden. Die Routing-Regeln von Maestro in osStudio lassen Sie automatisch basierend auf dem Prompt-Inhalt wechseln.
Wie unterscheidet sich ein selbst gehosteter Endpunkt von lokaler Inferenz?
Lokale Inferenz läuft auf Ihrem eigenen Rechner. Ein selbst gehosteter Endpunkt läuft auf einer dedizierten GPU, die Sie in der osFoundry Cloud bereitstellen — reservierte Kapazität, keine Rate-Limits, Zugriff über Ihr privates Netzwerk.
Unterstützt osFoundry auch Bild-, Audio- und Videomodelle?
Ja. Der Katalog umfasst 76K Open-Weight-Modelle für Chat, Bild, Audio, Video und Embedding. BYOK funktioniert für gehostete Bild-/Audio-Anbieter (DALL·E, Midjourney via Replicate, ElevenLabs etc.).
Kann ich osFoundry vollständig offline betreiben?
Ja — installieren Sie die Desktop-App, laden Sie ein lokales Modell herunter und deaktivieren Sie Cloud-Routen. Der Local-First-Modus ist eine erstklassige Workspace-Einstellung.
Pricing
Lokale Inferenz: kostenlos (Ihre Hardware). BYOK: zu Ihren Anbieterpreisen, kein Aufschlag. osFoundry-gehostete GPU-Endpunkte: pro Sekunde GPU-Zeit, siehe Preisgestaltung für aktuelle Tarife.
Related features