Produkt / Technologie

Enterprise-KI auf Ihrer Hardware

Vier DGX Spark Nodes, 200 Gbps RDMA-Fabric, zwei KI-Modelle, ein Ziel: Ihr Wissen souverän und schnell verfügbar machen — vergleichbar mit kommerziellen Cloud-KI-Diensten, aber vollständig on-premises.

Cluster-Architektur

Jede Schicht optimiert für ihren Zweck

Die Lösung besteht aus vier NVIDIA DGX Spark Nodes, verbunden über ein 200 Gbps RDMA-Hochgeschwindigkeitsnetzwerk. Der Cluster wird als dedizierter KI-Inference-Server im eigenen Rechenzentrum oder einer privaten Colocation-Umgebung betrieben.

Schicht	Komponente	Spezifikation	Rolle
Compute	4× NVIDIA DGX Spark (GB10)	4× 128 GB Unified Memory	LLM Inference
Interconnect	NVIDIA Quantum QM8700	200 Gbps HDR InfiniBand	Node Fabric
Modell (Qualität)	Qwen3-235B-A22B (MoE)	22B aktiv / 235B total, FP8	Sonnet-Tier Tasks
Modell (Durchsatz)	Qwen3-8B	FP8, 4 parallele Instanzen	Haiku-Tier Tasks
Inference Stack	SGLang / vLLM	CUDA, TRT-LLM, NCCL	Request Routing
API Layer	OpenAI-kompatible REST-API	HTTPS, mTLS, JWT Auth	Atlas-Integration
Applikation	contboxx Atlas	On-Premises Installation	Wissensmanagement

Hardware: NVIDIA DGX Spark Cluster

Kompakt, leise, für den Einsatz im Serverraum oder auf dem Schreibtisch konzipiert. Kein spezielles Rack, keine Wasserkühlung erforderlich.

Gesamtspeicher

512 GB

Unified Memory (4× 128 GB)

Formfaktor

Desktop

Kompakt, kein spezielles Rack nötig

Stromverbrauch

~1.000 W

Gesamtcluster im Betrieb

Kühlung

Luft

Keine Wasserkühlung nötig

Interconnect

200 Gbps

HDR InfiniBand RDMA Fabric

Air-Gap

100 %

Vollständig offline-fähig nach Setup

Zwei-Tier-Modellarchitektur

Der Cluster betreibt zwei LLM-Tiers gleichzeitig, abgestimmt auf die unterschiedlichen Verarbeitungsanforderungen von contboxx Atlas.

Sonnet-Tier — Tiefenverarbeitung

Qwen3-235B-A22B

Sonnet-Tier Qualität

Verteilt über Nodes 1 und 2 via Tensor-Parallelismus über das 200 Gbps InfiniBand Fabric. Für Aufgaben, bei denen Qualität, Nuance und Reasoning-Tiefe zählen:

Komplexe RAG-Anfragen
Langform-Zusammenfassungen
Dokumentübergreifende Synthese
Suchintent-Erkennung
Compliance-Analyse
Entwurfsgenerierung
Onboarding-Assistenz

Kapazität: 1M+ Tokens/Tag Parameter: 235B (22B aktiv) TTFT: 800–2.500 ms

Haiku-Tier — Schnellverarbeitung

Qwen3-8B

Haiku-Tier Geschwindigkeit

4 parallele Instanzen auf dedizierten Nodes 3 und 4. Für Routine-Operationen, die Geschwindigkeit statt tiefes Reasoning erfordern:

Volltextindexierung
Embedding-Generierung
Auto-Tagging & Klassifikation
Kurz-Q&A
Duplikaterkennung
Automatische Zusammenfassungen

Kapazität: 50M+ Tokens/Tag Durchsatz: 600–1.200 Tokens/s TTFT: 200–400 ms

Performance & Kapazität

Durchsatz auf Enterprise-Niveau

Durchsatzschätzungen basierend auf publizierten DGX Spark Benchmarks, skaliert für die 4-Node-Cluster-Konfiguration:

Modell	Konfiguration	Prefill (tps)	Decode (tps)	Tageskapazität
Qwen3-8B	4× Instanzen, 2 Nodes	>25.000	>600	50M+ Tokens
Qwen3-235B-A22B	2-Node Tensor-Parallel	~3.000	~15–25	1M+ Tokens

TTFT (interaktiv)

200 ms – 2,5 s

Je nach Modell und Komplexität

Streaming

Echtzeit

Progressive Ausgabe nach erstem Token

Speculative Decoding

1,5–2× Speedup

EAGLE3, minimaler Genauigkeitsverlust

Software-Stack

Inference SGLang / vLLM — optimiert für kontinuierliches Batching und hohen Durchsatz, CUDA, TRT-LLM, NCCL

API OpenAI-kompatible REST-API (POST /v1/chat/completions) — Drop-in Replacement für bestehende Cloud-Integrationen

RAG Retrieval-Augmented Generation mit Vektordatenbank für semantische Suche, lokale Embedding-Generierung

Sicherheit mTLS, JWT-basierte Autorisierung, verschlüsselter Speicher, Audit-Logging, Netzwerkisolation

Netzwerk Vollständig Air-Gapped möglich — Internet nur für initialen Modell-Download erforderlich

Betriebssystem NVIDIA DGX OS (Ubuntu-basiert) mit definiertem Sicherheits-Patch-Zyklus

Verfügbarkeit & Zuverlässigkeit

Ausfallsicher durch Design

SGLang Inference Server läuft als systemd-Service mit automatischem Neustart bei Fehler

Graceful Model Failover: Bei Fehler im Sonnet-Tier fällt Atlas auf das Haiku-Tier zurück — eingeschränkt, aber funktionsfähig

DGX Spark Nodes laufen unabhängig; Ausfall eines Nodes degradiert den Service, eliminiert ihn aber nicht

Optionaler redundanter QM8700-Switch für vollständige Hochverfügbarkeit

NAS-Backup-System sichert Modellgewichte, Konfiguration und Indizes für Recovery bei Node-Ausfall

Technische Fragen? Wir haben Antworten.

Vereinbaren Sie ein technisches Gespräch mit unserem Architektur-Team.

Technisches Gespräch vereinbaren