Produit / Technologie

IA d'entreprise sur votre matériel

Une IA locale qui évolue avec votre organisation : du serveur d'entrée de gamme compact au cluster hautement disponible. Deux niveaux de modèles d'IA, entièrement on-premises — comparable aux services cloud d'IA commerciaux, mais sous votre contrôle.

Architecture du cluster

Chaque couche optimisée pour son rôle

Le matériel évolue avec votre nombre d'utilisateurs — d'un seul serveur GPU (entrée de gamme) au cluster DGX Spark compact jusqu'à une configuration rack hautement disponible. Le tableau ci-dessous présente les couches logiques ; la couche de calcul grandit avec la configuration choisie (voir ci-dessous).

Couche	Composant	Spécification	Rôle
Compute	2× NVIDIA L40S → 4× DGX Spark	96 GB → 512 GB	LLM Inference
Interconnect	InfiniBand / Load-Balancer	200 Gbps (Cluster / HA)	Node Fabric
Modèle (Qualité)	Qwen3.5-35B-A3B (MoE)	3,3B actifs / 35B total, FP8	Sonnet-Tier Tasks
Modèle (Débit)	Qwen3.5-4B	FP8, Mamba+MoE	Haiku-Tier Tasks
Inference Stack	SGLang / vLLM	CUDA, TRT-LLM, NCCL	Request Routing
API Layer	API REST compatible OpenAI	HTTPS, mTLS, JWT Auth	Intégration Atlas
Application	contboxx Atlas	Installation on-premises	Gestion des connaissances

Configurations matérielles

Trois configurations — à l'échelle de votre taille

L'IA locale fonctionne sur votre propre matériel — achat unique, sans coûts cloud récurrents. La taille adaptée dépend du nombre d'utilisateurs et de l'intensité d'usage : d'un seul serveur GPU d'entrée de gamme à un cluster hautement disponible. Le matériel ne fait pas partie de la licence et peut aussi être fourni par le client.

Entrée · Baseline

Serveur GPU compact

jusqu'à ~250 collaborateurs

2× NVIDIA L40S 48 GB (96 GB au total) — 864 GB/s par carte
Un niveau de modèle par carte
Serveur standard 2U — pas de rack spécial, pas de refroidissement par eau
Support next-business-day inclus, redondance en option

Cluster

4× NVIDIA DGX Spark

jusqu'à ~500 collaborateurs

512 Go de mémoire unifiée (4× 128 Go)
Fabric InfiniBand RDMA 200 Gbps
Parallélisme accru & marge de débit
Format bureau, ~1 000 W, refroidissement par air

Haute disponibilité · Avec redondance

2× serveurs rack, redondants

500+ collaborateurs

2× serveurs GPU redondants avec répartiteur de charge
Tolérance aux pannes N+1, compatible SLA
Classe de GPU évolutive : L40S à H100/H200
Pour un fonctionnement continu critique

NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

Illustration : la configuration cluster (4× NVIDIA DGX Spark).

Valeurs indicatives ; le dimensionnement final est déterminé par le profil de charge. Les prix et détails de configuration figurent sur la page tarifs.

Architecture de modèle à deux niveaux

Le cluster exécute deux niveaux de LLM simultanément, adaptés aux différentes exigences de traitement de contboxx Atlas.

Niveau Sonnet — Traitement approfondi

Qwen3.5-35B-A3B

Qualité niveau Sonnet

Mixture-of-experts avec seulement 3,3 milliards de paramètres actifs sur 35 milliards, quantifié en FP8 — fonctionne efficacement sur un seul GPU. Pour les tâches où la qualité, la nuance et la profondeur de raisonnement comptent :

Requêtes RAG complexes
Résumés longs
Synthèse inter-documents
Détection d'intention de recherche
Analyse de conformité
Génération de brouillons
Assistance à l'intégration

Débit : ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)

Niveau Haiku — Traitement rapide

Qwen3.5-4B

Vitesse niveau Haiku

Modèle Mamba+MoE compact, quantifié en FP8, avec une grande marge de parallélisme. Pour les opérations routinières nécessitant la vitesse plutôt qu'un raisonnement profond :

Indexation en texte intégral
Génération d'embeddings
Auto-tagging et classification
Q&R rapides
Détection de doublons
Résumés automatiques

Débit : ~30–40 tokens/s Taux de réussite : 98,8 % VRAM: ~8 GB (FP8)

Performance et capacité

Débit de niveau entreprise

Mesuré lors d'un test prolongé de plusieurs semaines sur NVIDIA DGX Spark (GB10) sous charge réelle de pipeline :

Modèle	Niveau	Architecture	Decode (Tok/s)	Taux de réussite
Qwen3.5-4B	Speed-tier	Mamba+MoE · 4B	27–42	98,8 %
Qwen3.5-35B-A3B	Quality-Tier	MoE · 3,3B aktiv	28–77	95–100 %

Mémoire des modèles (FP8)

~40 GB

Poids des deux niveaux de modèles (FP8)

Streaming

Temps réel

Sortie progressive après le premier token

Speculative Decoding

1,5–2× Speedup

EAGLE3, perte de précision minimale

Stack logiciel

Inference SGLang / vLLM — optimisé pour le batching continu et le haut débit, CUDA, TRT-LLM, NCCL

API API REST compatible OpenAI (POST /v1/chat/completions) — remplacement direct pour les intégrations cloud existantes

RAG Génération augmentée par récupération avec base de données vectorielle pour la recherche sémantique, génération locale d'embeddings

Sécurité mTLS, autorisation basée sur JWT, stockage chiffré, journalisation d'audit, isolation réseau

Réseau Entièrement air-gapped possible — internet uniquement pour le téléchargement initial du modèle

Système d'exploitation NVIDIA DGX OS (basé sur Ubuntu) avec cycle de correctifs de sécurité défini

Disponibilité et fiabilité

Tolérant aux pannes par conception

SGLang Inference Server fonctionne comme un service systemd avec redémarrage automatique en cas d'erreur

Failover gracieux du modèle : en cas d'erreur du niveau Sonnet, Atlas bascule sur le niveau Haiku — limité, mais fonctionnel

Les nœuds DGX Spark fonctionnent indépendamment ; la panne d'un nœud dégrade le service mais ne l'élimine pas

Switch QM8700 redondant optionnel pour une haute disponibilité complète

Système de sauvegarde NAS sécurise les poids du modèle, la configuration et les index pour la récupération en cas de panne de nœud

Des questions techniques ? Nous avons les réponses.

Planifiez un entretien technique avec notre équipe d'architecture.

Planifier un entretien technique