Produit / Technologie
IA d'entreprise sur votre matériel
Une IA locale qui évolue avec votre organisation : du serveur d'entrée de gamme compact au cluster hautement disponible. Deux niveaux de modèles d'IA, entièrement on-premises — comparable aux services cloud d'IA commerciaux, mais sous votre contrôle.
Architecture du cluster
Chaque couche optimisée pour son rôle
Le matériel évolue avec votre nombre d'utilisateurs — d'un seul serveur GPU (entrée de gamme) au cluster DGX Spark compact jusqu'à une configuration rack hautement disponible. Le tableau ci-dessous présente les couches logiques ; la couche de calcul grandit avec la configuration choisie (voir ci-dessous).
| Couche | Composant | Spécification | Rôle |
|---|---|---|---|
| Compute | 2× NVIDIA L40S → 4× DGX Spark | 96 GB → 512 GB | LLM Inference |
| Interconnect | InfiniBand / Load-Balancer | 200 Gbps (Cluster / HA) | Node Fabric |
| Modèle (Qualité) | Qwen3.5-35B-A3B (MoE) | 3,3B actifs / 35B total, FP8 | Sonnet-Tier Tasks |
| Modèle (Débit) | Qwen3.5-4B | FP8, Mamba+MoE | Haiku-Tier Tasks |
| Inference Stack | SGLang / vLLM | CUDA, TRT-LLM, NCCL | Request Routing |
| API Layer | API REST compatible OpenAI | HTTPS, mTLS, JWT Auth | Intégration Atlas |
| Application | contboxx Atlas | Installation on-premises | Gestion des connaissances |
Configurations matérielles
Trois configurations — à l'échelle de votre taille
L'IA locale fonctionne sur votre propre matériel — achat unique, sans coûts cloud récurrents. La taille adaptée dépend du nombre d'utilisateurs et de l'intensité d'usage : d'un seul serveur GPU d'entrée de gamme à un cluster hautement disponible. Le matériel ne fait pas partie de la licence et peut aussi être fourni par le client.
Serveur GPU compact
jusqu'à ~250 collaborateurs
- 2× NVIDIA L40S 48 GB (96 GB au total) — 864 GB/s par carte
- Un niveau de modèle par carte
- Serveur standard 2U — pas de rack spécial, pas de refroidissement par eau
- Support next-business-day inclus, redondance en option
4× NVIDIA DGX Spark
jusqu'à ~500 collaborateurs
- 512 Go de mémoire unifiée (4× 128 Go)
- Fabric InfiniBand RDMA 200 Gbps
- Parallélisme accru & marge de débit
- Format bureau, ~1 000 W, refroidissement par air
2× serveurs rack, redondants
500+ collaborateurs
- 2× serveurs GPU redondants avec répartiteur de charge
- Tolérance aux pannes N+1, compatible SLA
- Classe de GPU évolutive : L40S à H100/H200
- Pour un fonctionnement continu critique
Illustration : la configuration cluster (4× NVIDIA DGX Spark).
Valeurs indicatives ; le dimensionnement final est déterminé par le profil de charge. Les prix et détails de configuration figurent sur la page tarifs.
Architecture de modèle à deux niveaux
Le cluster exécute deux niveaux de LLM simultanément, adaptés aux différentes exigences de traitement de contboxx Atlas.
Qwen3.5-35B-A3B
Mixture-of-experts avec seulement 3,3 milliards de paramètres actifs sur 35 milliards, quantifié en FP8 — fonctionne efficacement sur un seul GPU. Pour les tâches où la qualité, la nuance et la profondeur de raisonnement comptent :
- Requêtes RAG complexes
- Résumés longs
- Synthèse inter-documents
- Détection d'intention de recherche
- Analyse de conformité
- Génération de brouillons
- Assistance à l'intégration
Qwen3.5-4B
Modèle Mamba+MoE compact, quantifié en FP8, avec une grande marge de parallélisme. Pour les opérations routinières nécessitant la vitesse plutôt qu'un raisonnement profond :
- Indexation en texte intégral
- Génération d'embeddings
- Auto-tagging et classification
- Q&R rapides
- Détection de doublons
- Résumés automatiques
Performance et capacité
Débit de niveau entreprise
Mesuré lors d'un test prolongé de plusieurs semaines sur NVIDIA DGX Spark (GB10) sous charge réelle de pipeline :
| Modèle | Niveau | Architecture | Decode (Tok/s) | Taux de réussite |
|---|---|---|---|---|
| Qwen3.5-4B | Speed-tier | Mamba+MoE · 4B | 27–42 | 98,8 % |
| Qwen3.5-35B-A3B | Quality-Tier | MoE · 3,3B aktiv | 28–77 | 95–100 % |
Mémoire des modèles (FP8)
~40 GB
Poids des deux niveaux de modèles (FP8)
Streaming
Temps réel
Sortie progressive après le premier token
Speculative Decoding
1,5–2× Speedup
EAGLE3, perte de précision minimale
Stack logiciel
Disponibilité et fiabilité
Tolérant aux pannes par conception
Des questions techniques ? Nous avons les réponses.
Planifiez un entretien technique avec notre équipe d'architecture.
Planifier un entretien technique