Produkt / Technologie
Enterprise-KI auf Ihrer Hardware
Vier DGX Spark Nodes, 200 Gbps RDMA-Fabric, zwei KI-Modelle, ein Ziel: Ihr Wissen souverän und schnell verfügbar machen — vergleichbar mit kommerziellen Cloud-KI-Diensten, aber vollständig on-premises.
Cluster-Architektur
Jede Schicht optimiert für ihren Zweck
Die Lösung besteht aus vier NVIDIA DGX Spark Nodes, verbunden über ein 200 Gbps RDMA-Hochgeschwindigkeitsnetzwerk. Der Cluster wird als dedizierter KI-Inference-Server im eigenen Rechenzentrum oder einer privaten Colocation-Umgebung betrieben.
| Schicht | Komponente | Spezifikation | Rolle |
|---|---|---|---|
| Compute | 4× NVIDIA DGX Spark (GB10) | 4× 128 GB Unified Memory | LLM Inference |
| Interconnect | NVIDIA Quantum QM8700 | 200 Gbps HDR InfiniBand | Node Fabric |
| Modell (Qualität) | Qwen3-235B-A22B (MoE) | 22B aktiv / 235B total, FP8 | Sonnet-Tier Tasks |
| Modell (Durchsatz) | Qwen3-8B | FP8, 4 parallele Instanzen | Haiku-Tier Tasks |
| Inference Stack | SGLang / vLLM | CUDA, TRT-LLM, NCCL | Request Routing |
| API Layer | OpenAI-kompatible REST-API | HTTPS, mTLS, JWT Auth | Atlas-Integration |
| Applikation | contboxx Atlas | On-Premises Installation | Wissensmanagement |
Hardware: NVIDIA DGX Spark Cluster
Kompakt, leise, für den Einsatz im Serverraum oder auf dem Schreibtisch konzipiert. Kein spezielles Rack, keine Wasserkühlung erforderlich.
Gesamtspeicher
512 GB
Unified Memory (4× 128 GB)
Formfaktor
Desktop
Kompakt, kein spezielles Rack nötig
Stromverbrauch
~1.000 W
Gesamtcluster im Betrieb
Kühlung
Luft
Keine Wasserkühlung nötig
Interconnect
200 Gbps
HDR InfiniBand RDMA Fabric
Air-Gap
100 %
Vollständig offline-fähig nach Setup
Zwei-Tier-Modellarchitektur
Der Cluster betreibt zwei LLM-Tiers gleichzeitig, abgestimmt auf die unterschiedlichen Verarbeitungsanforderungen von contboxx Atlas.
Qwen3-235B-A22B
Verteilt über Nodes 1 und 2 via Tensor-Parallelismus über das 200 Gbps InfiniBand Fabric. Für Aufgaben, bei denen Qualität, Nuance und Reasoning-Tiefe zählen:
- Komplexe RAG-Anfragen
- Langform-Zusammenfassungen
- Dokumentübergreifende Synthese
- Suchintent-Erkennung
- Compliance-Analyse
- Entwurfsgenerierung
- Onboarding-Assistenz
Qwen3-8B
4 parallele Instanzen auf dedizierten Nodes 3 und 4. Für Routine-Operationen, die Geschwindigkeit statt tiefes Reasoning erfordern:
- Volltextindexierung
- Embedding-Generierung
- Auto-Tagging & Klassifikation
- Kurz-Q&A
- Duplikaterkennung
- Automatische Zusammenfassungen
Performance & Kapazität
Durchsatz auf Enterprise-Niveau
Durchsatzschätzungen basierend auf publizierten DGX Spark Benchmarks, skaliert für die 4-Node-Cluster-Konfiguration:
| Modell | Konfiguration | Prefill (tps) | Decode (tps) | Tageskapazität |
|---|---|---|---|---|
| Qwen3-8B | 4× Instanzen, 2 Nodes | >25.000 | >600 | 50M+ Tokens |
| Qwen3-235B-A22B | 2-Node Tensor-Parallel | ~3.000 | ~15–25 | 1M+ Tokens |
TTFT (interaktiv)
200 ms – 2,5 s
Je nach Modell und Komplexität
Streaming
Echtzeit
Progressive Ausgabe nach erstem Token
Speculative Decoding
1,5–2× Speedup
EAGLE3, minimaler Genauigkeitsverlust
Software-Stack
Verfügbarkeit & Zuverlässigkeit
Ausfallsicher durch Design
Technische Fragen? Wir haben Antworten.
Vereinbaren Sie ein technisches Gespräch mit unserem Architektur-Team.
Technisches Gespräch vereinbaren