Product / Technologie

Enterprise-AI op uw hardware

Lokale AI die met uw organisatie meegroeit: van een compacte instapserver tot een hoogbeschikbaar cluster. Twee AI-model-tiers, volledig on-premises — vergelijkbaar met commerciële cloud-AI-diensten, maar onder uw controle.

Cluster-architectuur

Elke laag geoptimaliseerd voor zijn doel

De hardware schaalt mee met uw aantal gebruikers — van één GPU-server (instap) via het compacte DGX Spark-cluster tot een hoogbeschikbare rack-opstelling. De onderstaande tabel toont de logische lagen; de compute-laag groeit mee met de gekozen configuratie (zie hieronder).

Laag	Component	Specificatie	Rol
Compute	2× NVIDIA L40S → 4× DGX Spark	96 GB → 512 GB	LLM Inference
Interconnect	InfiniBand / Load-Balancer	200 Gbps (Cluster / HA)	Node Fabric
Model (Kwaliteit)	Qwen3.5-35B-A3B (MoE)	3,3B actief / 35B totaal, FP8	Sonnet-Tier Tasks
Model (Doorvoer)	Qwen3.5-4B	FP8, Mamba+MoE	Haiku-Tier Tasks
Inference Stack	SGLang / vLLM	CUDA, TRT-LLM, NCCL	Request Routing
API Layer	OpenAI-compatibele REST-API	HTTPS, mTLS, JWT Auth	Atlas-integratie
Applicatie	contboxx Atlas	On-premises installatie	Kennismanagement

Hardwareconfiguraties

Drie configuraties — geschaald naar uw omvang

De lokale AI draait op uw eigen hardware — eenmalige aanschaf, geen terugkerende cloudkosten. De juiste omvang hangt af van het aantal gebruikers en de gebruiksintensiteit: van één GPU-server voor de instap tot een hoogbeschikbaar cluster. Hardware maakt geen deel uit van de licentie en kan ook door de klant worden geleverd.

Instap · Baseline

Compacte GPU-server

tot ~250 medewerkers

2× NVIDIA L40S 48 GB (96 GB totaal) — 864 GB/s per kaart
Eén model-tier per kaart
2U-standaardserver — geen speciaal rack, geen waterkoeling
Incl. next-business-day-support, redundantie optioneel

Cluster

4× NVIDIA DGX Spark

tot ~500 medewerkers

512 GB Unified Memory (4× 128 GB)
200 Gbps InfiniBand RDMA-fabric
Hogere parallelliteit & doorvoermarge
Desktop-vormfactor, ~1.000 W, luchtkoeling

Hoogbeschikbaar · Met redundantie

2× rackservers, redundant

500+ medewerkers

2× redundante GPU-servers met load balancer
N+1-uitvalveiligheid, SLA-geschikt
GPU-klasse schaalbaar: L40S tot H100/H200
Voor bedrijfskritische continue werking

NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

Afgebeeld: de clusterconfiguratie (4× NVIDIA DGX Spark).

Richtwaarden ter oriëntatie; de uiteindelijke dimensionering volgt uit het belastingsprofiel. Prijzen en configuratiedetails vindt u op de prijspagina.

Twee-tier modelarchitectuur

Het cluster draait twee LLM-tiers tegelijkertijd, afgestemd op de verschillende verwerkingseisen van contboxx Atlas.

Sonnet-tier — Diepverwerking

Qwen3.5-35B-A3B

Sonnet-tier kwaliteit

Mixture-of-experts met slechts 3,3 miljard actieve van 35 miljard parameters, FP8-gekwantiseerd — draait efficiënt op één GPU. Voor taken waar kwaliteit, nuance en redeneringsdiepte tellen:

Complexe RAG-query's
Langvorm-samenvattingen
Documentoverschrijdende synthese
Zoekintentherkenning
Compliance-analyse
Conceptgeneratie
Onboarding-assistentie

Doorvoer: ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)

Haiku-tier — Snelverwerking

Qwen3.5-4B

Haiku-tier snelheid

Compact, FP8-gekwantiseerd Mamba+MoE-model met ruime parallelliteitsmarge. Voor routinehandelingen die snelheid vereisen in plaats van diep redeneren:

Volledige tekstindexering
Embedding-generatie
Auto-tagging & classificatie
Korte Q&A
Duplicaatdetectie
Automatische samenvattingen

Doorvoer: ~30–40 tokens/s Succespercentage: 98,8 % VRAM: ~8 GB (FP8)

Prestaties & Capaciteit

Doorvoer op enterprise-niveau

Gemeten in een meerweekse duurtest op NVIDIA DGX Spark (GB10) onder reële pipelinebelasting:

Model	Tier	Architectuur	Decode (Tok/s)	Succespercentage
Qwen3.5-4B	Speed-tier	Mamba+MoE · 4B	27–42	98,8 %
Qwen3.5-35B-A3B	Quality-Tier	MoE · 3,3B aktiv	28–77	95–100 %

Modelgeheugen (FP8)

~40 GB

Gewichten van beide model-tiers (FP8)

Streaming

Realtime

Progressieve uitvoer na eerste token

Speculative Decoding

1,5–2× Speedup

EAGLE3, minimaal nauwkeurigheidsverlies

Software-stack

Inference SGLang / vLLM — geoptimaliseerd voor continue batching en hoge doorvoer, CUDA, TRT-LLM, NCCL

API OpenAI-compatibele REST-API (POST /v1/chat/completions) — drop-in vervanging voor bestaande cloud-integraties

RAG Retrieval-Augmented Generation met vectordatabase voor semantisch zoeken, lokale embedding-generatie

Beveiliging mTLS, JWT-gebaseerde autorisatie, versleutelde opslag, audit-logging, netwerkisolatie

Netwerk Volledig air-gapped mogelijk — internet alleen nodig voor initiële modeldownload

Besturingssysteem NVIDIA DGX OS (Ubuntu-gebaseerd) met gedefinieerde beveiligingspatchcyclus

Beschikbaarheid & Betrouwbaarheid

Uitvalveilig door ontwerp

SGLang Inference Server draait als systemd-service met automatische herstart bij fouten

Graceful Model Failover: bij fout in Sonnet-tier valt Atlas terug op Haiku-tier — beperkt, maar functioneel

DGX Spark Nodes draaien onafhankelijk; uitval van één node degradeert de service, maar elimineert deze niet

Optionele redundante QM8700-switch voor volledige hoge beschikbaarheid

NAS-backupsysteem beveiligt modelgewichten, configuratie en indices voor herstel bij node-uitval

Technische vragen? Wij hebben antwoorden.

Plan een technisch gesprek met ons architectuurteam.

Technisch gesprek plannen