Product / Technologie
Enterprise-AI op uw hardware
Lokale AI die met uw organisatie meegroeit: van een compacte instapserver tot een hoogbeschikbaar cluster. Twee AI-model-tiers, volledig on-premises — vergelijkbaar met commerciële cloud-AI-diensten, maar onder uw controle.
Cluster-architectuur
Elke laag geoptimaliseerd voor zijn doel
De hardware schaalt mee met uw aantal gebruikers — van één GPU-server (instap) via het compacte DGX Spark-cluster tot een hoogbeschikbare rack-opstelling. De onderstaande tabel toont de logische lagen; de compute-laag groeit mee met de gekozen configuratie (zie hieronder).
| Laag | Component | Specificatie | Rol |
|---|---|---|---|
| Compute | 2× NVIDIA L40S → 4× DGX Spark | 96 GB → 512 GB | LLM Inference |
| Interconnect | InfiniBand / Load-Balancer | 200 Gbps (Cluster / HA) | Node Fabric |
| Model (Kwaliteit) | Qwen3.5-35B-A3B (MoE) | 3,3B actief / 35B totaal, FP8 | Sonnet-Tier Tasks |
| Model (Doorvoer) | Qwen3.5-4B | FP8, Mamba+MoE | Haiku-Tier Tasks |
| Inference Stack | SGLang / vLLM | CUDA, TRT-LLM, NCCL | Request Routing |
| API Layer | OpenAI-compatibele REST-API | HTTPS, mTLS, JWT Auth | Atlas-integratie |
| Applicatie | contboxx Atlas | On-premises installatie | Kennismanagement |
Hardwareconfiguraties
Drie configuraties — geschaald naar uw omvang
De lokale AI draait op uw eigen hardware — eenmalige aanschaf, geen terugkerende cloudkosten. De juiste omvang hangt af van het aantal gebruikers en de gebruiksintensiteit: van één GPU-server voor de instap tot een hoogbeschikbaar cluster. Hardware maakt geen deel uit van de licentie en kan ook door de klant worden geleverd.
Compacte GPU-server
tot ~250 medewerkers
- 2× NVIDIA L40S 48 GB (96 GB totaal) — 864 GB/s per kaart
- Eén model-tier per kaart
- 2U-standaardserver — geen speciaal rack, geen waterkoeling
- Incl. next-business-day-support, redundantie optioneel
4× NVIDIA DGX Spark
tot ~500 medewerkers
- 512 GB Unified Memory (4× 128 GB)
- 200 Gbps InfiniBand RDMA-fabric
- Hogere parallelliteit & doorvoermarge
- Desktop-vormfactor, ~1.000 W, luchtkoeling
2× rackservers, redundant
500+ medewerkers
- 2× redundante GPU-servers met load balancer
- N+1-uitvalveiligheid, SLA-geschikt
- GPU-klasse schaalbaar: L40S tot H100/H200
- Voor bedrijfskritische continue werking
Afgebeeld: de clusterconfiguratie (4× NVIDIA DGX Spark).
Richtwaarden ter oriëntatie; de uiteindelijke dimensionering volgt uit het belastingsprofiel. Prijzen en configuratiedetails vindt u op de prijspagina.
Twee-tier modelarchitectuur
Het cluster draait twee LLM-tiers tegelijkertijd, afgestemd op de verschillende verwerkingseisen van contboxx Atlas.
Qwen3.5-35B-A3B
Mixture-of-experts met slechts 3,3 miljard actieve van 35 miljard parameters, FP8-gekwantiseerd — draait efficiënt op één GPU. Voor taken waar kwaliteit, nuance en redeneringsdiepte tellen:
- Complexe RAG-query's
- Langvorm-samenvattingen
- Documentoverschrijdende synthese
- Zoekintentherkenning
- Compliance-analyse
- Conceptgeneratie
- Onboarding-assistentie
Qwen3.5-4B
Compact, FP8-gekwantiseerd Mamba+MoE-model met ruime parallelliteitsmarge. Voor routinehandelingen die snelheid vereisen in plaats van diep redeneren:
- Volledige tekstindexering
- Embedding-generatie
- Auto-tagging & classificatie
- Korte Q&A
- Duplicaatdetectie
- Automatische samenvattingen
Prestaties & Capaciteit
Doorvoer op enterprise-niveau
Gemeten in een meerweekse duurtest op NVIDIA DGX Spark (GB10) onder reële pipelinebelasting:
| Model | Tier | Architectuur | Decode (Tok/s) | Succespercentage |
|---|---|---|---|---|
| Qwen3.5-4B | Speed-tier | Mamba+MoE · 4B | 27–42 | 98,8 % |
| Qwen3.5-35B-A3B | Quality-Tier | MoE · 3,3B aktiv | 28–77 | 95–100 % |
Modelgeheugen (FP8)
~40 GB
Gewichten van beide model-tiers (FP8)
Streaming
Realtime
Progressieve uitvoer na eerste token
Speculative Decoding
1,5–2× Speedup
EAGLE3, minimaal nauwkeurigheidsverlies
Software-stack
Beschikbaarheid & Betrouwbaarheid
Uitvalveilig door ontwerp
Technische vragen? Wij hebben antwoorden.
Plan een technisch gesprek met ons architectuurteam.
Technisch gesprek plannen