Product / Technologie

Enterprise-AI op uw hardware

Lokale AI die met uw organisatie meegroeit: van een compacte instapserver tot een hoogbeschikbaar cluster. Twee AI-model-tiers, volledig on-premises — vergelijkbaar met commerciële cloud-AI-diensten, maar onder uw controle.

Cluster-architectuur

Elke laag geoptimaliseerd voor zijn doel

De hardware schaalt mee met uw aantal gebruikers — van één GPU-server (instap) via het compacte DGX Spark-cluster tot een hoogbeschikbare rack-opstelling. De onderstaande tabel toont de logische lagen; de compute-laag groeit mee met de gekozen configuratie (zie hieronder).

Laag Component Specificatie Rol
Compute 2× NVIDIA L40S → 4× DGX Spark 96 GB → 512 GB LLM Inference
Interconnect InfiniBand / Load-Balancer 200 Gbps (Cluster / HA) Node Fabric
Model (Kwaliteit) Qwen3.5-35B-A3B (MoE) 3,3B actief / 35B totaal, FP8 Sonnet-Tier Tasks
Model (Doorvoer) Qwen3.5-4B FP8, Mamba+MoE Haiku-Tier Tasks
Inference Stack SGLang / vLLM CUDA, TRT-LLM, NCCL Request Routing
API Layer OpenAI-compatibele REST-API HTTPS, mTLS, JWT Auth Atlas-integratie
Applicatie contboxx Atlas On-premises installatie Kennismanagement

Hardwareconfiguraties

Drie configuraties — geschaald naar uw omvang

De lokale AI draait op uw eigen hardware — eenmalige aanschaf, geen terugkerende cloudkosten. De juiste omvang hangt af van het aantal gebruikers en de gebruiksintensiteit: van één GPU-server voor de instap tot een hoogbeschikbaar cluster. Hardware maakt geen deel uit van de licentie en kan ook door de klant worden geleverd.

Instap · Baseline

Compacte GPU-server

tot ~250 medewerkers

  • 2× NVIDIA L40S 48 GB (96 GB totaal) — 864 GB/s per kaart
  • Eén model-tier per kaart
  • 2U-standaardserver — geen speciaal rack, geen waterkoeling
  • Incl. next-business-day-support, redundantie optioneel
Cluster

4× NVIDIA DGX Spark

tot ~500 medewerkers

  • 512 GB Unified Memory (4× 128 GB)
  • 200 Gbps InfiniBand RDMA-fabric
  • Hogere parallelliteit & doorvoermarge
  • Desktop-vormfactor, ~1.000 W, luchtkoeling
Hoogbeschikbaar · Met redundantie

2× rackservers, redundant

500+ medewerkers

  • 2× redundante GPU-servers met load balancer
  • N+1-uitvalveiligheid, SLA-geschikt
  • GPU-klasse schaalbaar: L40S tot H100/H200
  • Voor bedrijfskritische continue werking
NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

Afgebeeld: de clusterconfiguratie (4× NVIDIA DGX Spark).

Richtwaarden ter oriëntatie; de uiteindelijke dimensionering volgt uit het belastingsprofiel. Prijzen en configuratiedetails vindt u op de prijspagina.

Twee-tier modelarchitectuur

Het cluster draait twee LLM-tiers tegelijkertijd, afgestemd op de verschillende verwerkingseisen van contboxx Atlas.

Sonnet-tier — Diepverwerking

Qwen3.5-35B-A3B

Mixture-of-experts met slechts 3,3 miljard actieve van 35 miljard parameters, FP8-gekwantiseerd — draait efficiënt op één GPU. Voor taken waar kwaliteit, nuance en redeneringsdiepte tellen:

  • Complexe RAG-query's
  • Langvorm-samenvattingen
  • Documentoverschrijdende synthese
  • Zoekintentherkenning
  • Compliance-analyse
  • Conceptgeneratie
  • Onboarding-assistentie
Doorvoer: ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)
Haiku-tier — Snelverwerking

Qwen3.5-4B

Compact, FP8-gekwantiseerd Mamba+MoE-model met ruime parallelliteitsmarge. Voor routinehandelingen die snelheid vereisen in plaats van diep redeneren:

  • Volledige tekstindexering
  • Embedding-generatie
  • Auto-tagging & classificatie
  • Korte Q&A
  • Duplicaatdetectie
  • Automatische samenvattingen
Doorvoer: ~30–40 tokens/s Succespercentage: 98,8 % VRAM: ~8 GB (FP8)

Prestaties & Capaciteit

Doorvoer op enterprise-niveau

Gemeten in een meerweekse duurtest op NVIDIA DGX Spark (GB10) onder reële pipelinebelasting:

Model Tier Architectuur Decode (Tok/s) Succespercentage
Qwen3.5-4B Speed-tier Mamba+MoE · 4B 27–42 98,8 %
Qwen3.5-35B-A3B Quality-Tier MoE · 3,3B aktiv 28–77 95–100 %

Modelgeheugen (FP8)

~40 GB

Gewichten van beide model-tiers (FP8)

Streaming

Realtime

Progressieve uitvoer na eerste token

Speculative Decoding

1,5–2× Speedup

EAGLE3, minimaal nauwkeurigheidsverlies

Software-stack

Inference SGLang / vLLM — geoptimaliseerd voor continue batching en hoge doorvoer, CUDA, TRT-LLM, NCCL
API OpenAI-compatibele REST-API (POST /v1/chat/completions) — drop-in vervanging voor bestaande cloud-integraties
RAG Retrieval-Augmented Generation met vectordatabase voor semantisch zoeken, lokale embedding-generatie
Beveiliging mTLS, JWT-gebaseerde autorisatie, versleutelde opslag, audit-logging, netwerkisolatie
Netwerk Volledig air-gapped mogelijk — internet alleen nodig voor initiële modeldownload
Besturingssysteem NVIDIA DGX OS (Ubuntu-gebaseerd) met gedefinieerde beveiligingspatchcyclus

Beschikbaarheid & Betrouwbaarheid

Uitvalveilig door ontwerp

SGLang Inference Server draait als systemd-service met automatische herstart bij fouten
Graceful Model Failover: bij fout in Sonnet-tier valt Atlas terug op Haiku-tier — beperkt, maar functioneel
DGX Spark Nodes draaien onafhankelijk; uitval van één node degradeert de service, maar elimineert deze niet
Optionele redundante QM8700-switch voor volledige hoge beschikbaarheid
NAS-backupsysteem beveiligt modelgewichten, configuratie en indices voor herstel bij node-uitval

Technische vragen? Wij hebben antwoorden.

Plan een technisch gesprek met ons architectuurteam.

Technisch gesprek plannen