Prodotto / Tecnologia

IA aziendale sul vostro hardware

Un'IA locale che cresce con la vostra organizzazione: dal compatto server entry-level al cluster ad alta disponibilità. Due livelli di modelli IA, completamente on-premises — comparabile ai servizi cloud IA commerciali, ma sotto il vostro controllo.

Architettura del cluster

Ogni livello ottimizzato per il suo scopo

L'hardware scala con il numero di utenti — da un singolo server GPU (entry-level) al cluster compatto DGX Spark fino a una configurazione rack ad alta disponibilità. La tabella seguente mostra i livelli logici; il livello di calcolo cresce con la configurazione scelta (vedi sotto).

Livello Componente Specifica Ruolo
Compute 2× NVIDIA L40S → 4× DGX Spark 96 GB → 512 GB LLM Inference
Interconnect InfiniBand / Load-Balancer 200 Gbps (Cluster / HA) Node Fabric
Modello (Qualità) Qwen3.5-35B-A3B (MoE) 3,3B attivi / 35B totali, FP8 Sonnet-Tier Tasks
Modello (Throughput) Qwen3.5-4B FP8, Mamba+MoE Haiku-Tier Tasks
Inference Stack SGLang / vLLM CUDA, TRT-LLM, NCCL Request Routing
API Layer API REST compatibile OpenAI HTTPS, mTLS, JWT Auth Integrazione Atlas
Applicazione contboxx Atlas Installazione on-premises Gestione della conoscenza

Configurazioni hardware

Tre configurazioni — su misura per le vostre dimensioni

L'IA locale gira sul vostro hardware — acquisto una tantum, senza costi cloud ricorrenti. La dimensione giusta dipende dal numero di utenti e dall'intensità d'uso: dal singolo server GPU entry-level al cluster ad alta disponibilità. L'hardware non fa parte della licenza e può essere fornito anche dal cliente.

Entry · Baseline

Server GPU compatto

fino a ~250 dipendenti

  • 2× NVIDIA L40S 48 GB (96 GB totali) — 864 GB/s per scheda
  • Un livello di modello per scheda
  • Server standard 2U — nessun rack speciale, nessun raffreddamento ad acqua
  • Incl. supporto next-business-day, ridondanza opzionale
Cluster

4× NVIDIA DGX Spark

fino a ~500 dipendenti

  • 512 GB di memoria unificata (4× 128 GB)
  • Fabric InfiniBand RDMA da 200 Gbps
  • Maggiore parallelismo e margine di throughput
  • Fattore di forma desktop, ~1.000 W, raffreddamento ad aria
Alta disponibilità · Con ridondanza

2× server rack, ridondanti

500+ dipendenti

  • 2× server GPU ridondanti con load balancer
  • Tolleranza ai guasti N+1, idoneo a SLA
  • Classe GPU scalabile: da L40S a H100/H200
  • Per funzionamento continuo business-critical
NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

In figura: la configurazione cluster (4× NVIDIA DGX Spark).

Valori indicativi; il dimensionamento finale dipende dal profilo di carico. Prezzi e dettagli di configurazione sono nella pagina prezzi.

Architettura modello a due livelli

Il cluster esegue due livelli LLM simultaneamente, calibrati sulle diverse esigenze di elaborazione di contboxx Atlas.

Livello Sonnet — Elaborazione approfondita

Qwen3.5-35B-A3B

Mixture-of-experts con soli 3,3 miliardi di parametri attivi su 35 miliardi, quantizzato in FP8 — gira efficientemente su una singola GPU. Per compiti dove qualità, sfumature e profondità di ragionamento contano:

  • Query RAG complesse
  • Riassunti estesi
  • Sintesi tra documenti
  • Rilevamento intento di ricerca
  • Analisi di conformità
  • Generazione di bozze
  • Assistenza all'onboarding
Throughput: ~30–75 token/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)
Livello Haiku — Elaborazione rapida

Qwen3.5-4B

Modello Mamba+MoE compatto, quantizzato in FP8, con ampio margine di parallelismo. Per operazioni di routine che richiedono velocità anziché ragionamento profondo:

  • Indicizzazione full-text
  • Generazione embedding
  • Auto-tagging e classificazione
  • Q&A brevi
  • Rilevamento duplicati
  • Riassunti automatici
Throughput: ~30–40 token/s Tasso di successo: 98,8 % VRAM: ~8 GB (FP8)

Prestazioni e capacità

Throughput di livello enterprise

Misurato in un test prolungato di più settimane su NVIDIA DGX Spark (GB10) sotto carico reale della pipeline:

Modello Livello Architettura Decode (Tok/s) Tasso di successo
Qwen3.5-4B Speed-tier Mamba+MoE · 4B 27–42 98,8 %
Qwen3.5-35B-A3B Quality-Tier MoE · 3,3B aktiv 28–77 95–100 %

Memoria modelli (FP8)

~40 GB

Pesi di entrambi i livelli di modello (FP8)

Streaming

Tempo reale

Output progressivo dopo il primo token

Speculative Decoding

1,5–2× Speedup

EAGLE3, perdita minima di precisione

Stack software

Inference SGLang / vLLM — ottimizzato per batching continuo e alto throughput, CUDA, TRT-LLM, NCCL
API API REST compatibile OpenAI (POST /v1/chat/completions) — sostituzione diretta per integrazioni cloud esistenti
RAG Retrieval-Augmented Generation con database vettoriale per ricerca semantica, generazione locale di embedding
Sicurezza mTLS, autorizzazione basata su JWT, storage crittografato, audit logging, isolamento di rete
Rete Completamente air-gapped possibile — internet solo per il download iniziale del modello
Sistema operativo NVIDIA DGX OS (basato su Ubuntu) con ciclo definito di patch di sicurezza

Disponibilità e affidabilità

Tollerante ai guasti per design

SGLang Inference Server funziona come servizio systemd con riavvio automatico in caso di errore
Failover graceful del modello: in caso di errore nel livello Sonnet, Atlas ricade sul livello Haiku — limitato, ma funzionale
I nodi DGX Spark funzionano indipendentemente; il guasto di un nodo degrada il servizio ma non lo elimina
Switch QM8700 ridondante opzionale per alta disponibilità completa
Sistema di backup NAS protegge pesi del modello, configurazione e indici per il ripristino in caso di guasto del nodo

Domande tecniche? Abbiamo le risposte.

Programmate un colloquio tecnico con il nostro team di architettura.

Programmare colloquio tecnico