Produkt / Technologie

Enterprise-KI auf Ihrer Hardware

Vier DGX Spark Nodes, 200 Gbps RDMA-Fabric, zwei KI-Modelle, ein Ziel: Ihr Wissen souverän und schnell verfügbar machen — vergleichbar mit kommerziellen Cloud-KI-Diensten, aber vollständig on-premises.

Cluster-Architektur

Jede Schicht optimiert für ihren Zweck

Die Lösung besteht aus vier NVIDIA DGX Spark Nodes, verbunden über ein 200 Gbps RDMA-Hochgeschwindigkeitsnetzwerk. Der Cluster wird als dedizierter KI-Inference-Server im eigenen Rechenzentrum oder einer privaten Colocation-Umgebung betrieben.

Schicht Komponente Spezifikation Rolle
Compute 4× NVIDIA DGX Spark (GB10) 4× 128 GB Unified Memory LLM Inference
Interconnect NVIDIA Quantum QM8700 200 Gbps HDR InfiniBand Node Fabric
Modell (Qualität) Qwen3-235B-A22B (MoE) 22B aktiv / 235B total, FP8 Sonnet-Tier Tasks
Modell (Durchsatz) Qwen3-8B FP8, 4 parallele Instanzen Haiku-Tier Tasks
Inference Stack SGLang / vLLM CUDA, TRT-LLM, NCCL Request Routing
API Layer OpenAI-kompatible REST-API HTTPS, mTLS, JWT Auth Atlas-Integration
Applikation contboxx Atlas On-Premises Installation Wissensmanagement

Hardware: NVIDIA DGX Spark Cluster

Kompakt, leise, für den Einsatz im Serverraum oder auf dem Schreibtisch konzipiert. Kein spezielles Rack, keine Wasserkühlung erforderlich.

Gesamtspeicher

512 GB

Unified Memory (4× 128 GB)

Formfaktor

Desktop

Kompakt, kein spezielles Rack nötig

Stromverbrauch

~1.000 W

Gesamtcluster im Betrieb

Kühlung

Luft

Keine Wasserkühlung nötig

Interconnect

200 Gbps

HDR InfiniBand RDMA Fabric

Air-Gap

100 %

Vollständig offline-fähig nach Setup

Zwei-Tier-Modellarchitektur

Der Cluster betreibt zwei LLM-Tiers gleichzeitig, abgestimmt auf die unterschiedlichen Verarbeitungsanforderungen von contboxx Atlas.

Sonnet-Tier — Tiefenverarbeitung

Qwen3-235B-A22B

Verteilt über Nodes 1 und 2 via Tensor-Parallelismus über das 200 Gbps InfiniBand Fabric. Für Aufgaben, bei denen Qualität, Nuance und Reasoning-Tiefe zählen:

  • Komplexe RAG-Anfragen
  • Langform-Zusammenfassungen
  • Dokumentübergreifende Synthese
  • Suchintent-Erkennung
  • Compliance-Analyse
  • Entwurfsgenerierung
  • Onboarding-Assistenz
Kapazität: 1M+ Tokens/Tag Parameter: 235B (22B aktiv) TTFT: 800–2.500 ms
Haiku-Tier — Schnellverarbeitung

Qwen3-8B

4 parallele Instanzen auf dedizierten Nodes 3 und 4. Für Routine-Operationen, die Geschwindigkeit statt tiefes Reasoning erfordern:

  • Volltextindexierung
  • Embedding-Generierung
  • Auto-Tagging & Klassifikation
  • Kurz-Q&A
  • Duplikaterkennung
  • Automatische Zusammenfassungen
Kapazität: 50M+ Tokens/Tag Durchsatz: 600–1.200 Tokens/s TTFT: 200–400 ms

Performance & Kapazität

Durchsatz auf Enterprise-Niveau

Durchsatzschätzungen basierend auf publizierten DGX Spark Benchmarks, skaliert für die 4-Node-Cluster-Konfiguration:

Modell Konfiguration Prefill (tps) Decode (tps) Tageskapazität
Qwen3-8B 4× Instanzen, 2 Nodes >25.000 >600 50M+ Tokens
Qwen3-235B-A22B 2-Node Tensor-Parallel ~3.000 ~15–25 1M+ Tokens

TTFT (interaktiv)

200 ms – 2,5 s

Je nach Modell und Komplexität

Streaming

Echtzeit

Progressive Ausgabe nach erstem Token

Speculative Decoding

1,5–2× Speedup

EAGLE3, minimaler Genauigkeitsverlust

Software-Stack

Inference SGLang / vLLM — optimiert für kontinuierliches Batching und hohen Durchsatz, CUDA, TRT-LLM, NCCL
API OpenAI-kompatible REST-API (POST /v1/chat/completions) — Drop-in Replacement für bestehende Cloud-Integrationen
RAG Retrieval-Augmented Generation mit Vektordatenbank für semantische Suche, lokale Embedding-Generierung
Sicherheit mTLS, JWT-basierte Autorisierung, verschlüsselter Speicher, Audit-Logging, Netzwerkisolation
Netzwerk Vollständig Air-Gapped möglich — Internet nur für initialen Modell-Download erforderlich
Betriebssystem NVIDIA DGX OS (Ubuntu-basiert) mit definiertem Sicherheits-Patch-Zyklus

Verfügbarkeit & Zuverlässigkeit

Ausfallsicher durch Design

SGLang Inference Server läuft als systemd-Service mit automatischem Neustart bei Fehler
Graceful Model Failover: Bei Fehler im Sonnet-Tier fällt Atlas auf das Haiku-Tier zurück — eingeschränkt, aber funktionsfähig
DGX Spark Nodes laufen unabhängig; Ausfall eines Nodes degradiert den Service, eliminiert ihn aber nicht
Optionaler redundanter QM8700-Switch für vollständige Hochverfügbarkeit
NAS-Backup-System sichert Modellgewichte, Konfiguration und Indizes für Recovery bei Node-Ausfall

Technische Fragen? Wir haben Antworten.

Vereinbaren Sie ein technisches Gespräch mit unserem Architektur-Team.

Technisches Gespräch vereinbaren