Produit / Technologie

IA d'entreprise sur votre matériel

Une IA locale qui évolue avec votre organisation : du serveur d'entrée de gamme compact au cluster hautement disponible. Deux niveaux de modèles d'IA, entièrement on-premises — comparable aux services cloud d'IA commerciaux, mais sous votre contrôle.

Architecture du cluster

Chaque couche optimisée pour son rôle

Le matériel évolue avec votre nombre d'utilisateurs — d'un seul serveur GPU (entrée de gamme) au cluster DGX Spark compact jusqu'à une configuration rack hautement disponible. Le tableau ci-dessous présente les couches logiques ; la couche de calcul grandit avec la configuration choisie (voir ci-dessous).

Couche Composant Spécification Rôle
Compute 2× NVIDIA L40S → 4× DGX Spark 96 GB → 512 GB LLM Inference
Interconnect InfiniBand / Load-Balancer 200 Gbps (Cluster / HA) Node Fabric
Modèle (Qualité) Qwen3.5-35B-A3B (MoE) 3,3B actifs / 35B total, FP8 Sonnet-Tier Tasks
Modèle (Débit) Qwen3.5-4B FP8, Mamba+MoE Haiku-Tier Tasks
Inference Stack SGLang / vLLM CUDA, TRT-LLM, NCCL Request Routing
API Layer API REST compatible OpenAI HTTPS, mTLS, JWT Auth Intégration Atlas
Application contboxx Atlas Installation on-premises Gestion des connaissances

Configurations matérielles

Trois configurations — à l'échelle de votre taille

L'IA locale fonctionne sur votre propre matériel — achat unique, sans coûts cloud récurrents. La taille adaptée dépend du nombre d'utilisateurs et de l'intensité d'usage : d'un seul serveur GPU d'entrée de gamme à un cluster hautement disponible. Le matériel ne fait pas partie de la licence et peut aussi être fourni par le client.

Entrée · Baseline

Serveur GPU compact

jusqu'à ~250 collaborateurs

  • 2× NVIDIA L40S 48 GB (96 GB au total) — 864 GB/s par carte
  • Un niveau de modèle par carte
  • Serveur standard 2U — pas de rack spécial, pas de refroidissement par eau
  • Support next-business-day inclus, redondance en option
Cluster

4× NVIDIA DGX Spark

jusqu'à ~500 collaborateurs

  • 512 Go de mémoire unifiée (4× 128 Go)
  • Fabric InfiniBand RDMA 200 Gbps
  • Parallélisme accru & marge de débit
  • Format bureau, ~1 000 W, refroidissement par air
Haute disponibilité · Avec redondance

2× serveurs rack, redondants

500+ collaborateurs

  • 2× serveurs GPU redondants avec répartiteur de charge
  • Tolérance aux pannes N+1, compatible SLA
  • Classe de GPU évolutive : L40S à H100/H200
  • Pour un fonctionnement continu critique
NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

Illustration : la configuration cluster (4× NVIDIA DGX Spark).

Valeurs indicatives ; le dimensionnement final est déterminé par le profil de charge. Les prix et détails de configuration figurent sur la page tarifs.

Architecture de modèle à deux niveaux

Le cluster exécute deux niveaux de LLM simultanément, adaptés aux différentes exigences de traitement de contboxx Atlas.

Niveau Sonnet — Traitement approfondi

Qwen3.5-35B-A3B

Mixture-of-experts avec seulement 3,3 milliards de paramètres actifs sur 35 milliards, quantifié en FP8 — fonctionne efficacement sur un seul GPU. Pour les tâches où la qualité, la nuance et la profondeur de raisonnement comptent :

  • Requêtes RAG complexes
  • Résumés longs
  • Synthèse inter-documents
  • Détection d'intention de recherche
  • Analyse de conformité
  • Génération de brouillons
  • Assistance à l'intégration
Débit : ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)
Niveau Haiku — Traitement rapide

Qwen3.5-4B

Modèle Mamba+MoE compact, quantifié en FP8, avec une grande marge de parallélisme. Pour les opérations routinières nécessitant la vitesse plutôt qu'un raisonnement profond :

  • Indexation en texte intégral
  • Génération d'embeddings
  • Auto-tagging et classification
  • Q&R rapides
  • Détection de doublons
  • Résumés automatiques
Débit : ~30–40 tokens/s Taux de réussite : 98,8 % VRAM: ~8 GB (FP8)

Performance et capacité

Débit de niveau entreprise

Mesuré lors d'un test prolongé de plusieurs semaines sur NVIDIA DGX Spark (GB10) sous charge réelle de pipeline :

Modèle Niveau Architecture Decode (Tok/s) Taux de réussite
Qwen3.5-4B Speed-tier Mamba+MoE · 4B 27–42 98,8 %
Qwen3.5-35B-A3B Quality-Tier MoE · 3,3B aktiv 28–77 95–100 %

Mémoire des modèles (FP8)

~40 GB

Poids des deux niveaux de modèles (FP8)

Streaming

Temps réel

Sortie progressive après le premier token

Speculative Decoding

1,5–2× Speedup

EAGLE3, perte de précision minimale

Stack logiciel

Inference SGLang / vLLM — optimisé pour le batching continu et le haut débit, CUDA, TRT-LLM, NCCL
API API REST compatible OpenAI (POST /v1/chat/completions) — remplacement direct pour les intégrations cloud existantes
RAG Génération augmentée par récupération avec base de données vectorielle pour la recherche sémantique, génération locale d'embeddings
Sécurité mTLS, autorisation basée sur JWT, stockage chiffré, journalisation d'audit, isolation réseau
Réseau Entièrement air-gapped possible — internet uniquement pour le téléchargement initial du modèle
Système d'exploitation NVIDIA DGX OS (basé sur Ubuntu) avec cycle de correctifs de sécurité défini

Disponibilité et fiabilité

Tolérant aux pannes par conception

SGLang Inference Server fonctionne comme un service systemd avec redémarrage automatique en cas d'erreur
Failover gracieux du modèle : en cas d'erreur du niveau Sonnet, Atlas bascule sur le niveau Haiku — limité, mais fonctionnel
Les nœuds DGX Spark fonctionnent indépendamment ; la panne d'un nœud dégrade le service mais ne l'élimine pas
Switch QM8700 redondant optionnel pour une haute disponibilité complète
Système de sauvegarde NAS sécurise les poids du modèle, la configuration et les index pour la récupération en cas de panne de nœud

Des questions techniques ? Nous avons les réponses.

Planifiez un entretien technique avec notre équipe d'architecture.

Planifier un entretien technique