Prodotto / Tecnologia

IA aziendale sul vostro hardware

Un'IA locale che cresce con la vostra organizzazione: dal compatto server entry-level al cluster ad alta disponibilità. Due livelli di modelli IA, completamente on-premises — comparabile ai servizi cloud IA commerciali, ma sotto il vostro controllo.

Architettura del cluster

Ogni livello ottimizzato per il suo scopo

L'hardware scala con il numero di utenti — da un singolo server GPU (entry-level) al cluster compatto DGX Spark fino a una configurazione rack ad alta disponibilità. La tabella seguente mostra i livelli logici; il livello di calcolo cresce con la configurazione scelta (vedi sotto).

Livello	Componente	Specifica	Ruolo
Compute	2× NVIDIA L40S → 4× DGX Spark	96 GB → 512 GB	LLM Inference
Interconnect	InfiniBand / Load-Balancer	200 Gbps (Cluster / HA)	Node Fabric
Modello (Qualità)	Qwen3.5-35B-A3B (MoE)	3,3B attivi / 35B totali, FP8	Sonnet-Tier Tasks
Modello (Throughput)	Qwen3.5-4B	FP8, Mamba+MoE	Haiku-Tier Tasks
Inference Stack	SGLang / vLLM	CUDA, TRT-LLM, NCCL	Request Routing
API Layer	API REST compatibile OpenAI	HTTPS, mTLS, JWT Auth	Integrazione Atlas
Applicazione	contboxx Atlas	Installazione on-premises	Gestione della conoscenza

Configurazioni hardware

Tre configurazioni — su misura per le vostre dimensioni

L'IA locale gira sul vostro hardware — acquisto una tantum, senza costi cloud ricorrenti. La dimensione giusta dipende dal numero di utenti e dall'intensità d'uso: dal singolo server GPU entry-level al cluster ad alta disponibilità. L'hardware non fa parte della licenza e può essere fornito anche dal cliente.

Entry · Baseline

Server GPU compatto

fino a ~250 dipendenti

2× NVIDIA L40S 48 GB (96 GB totali) — 864 GB/s per scheda
Un livello di modello per scheda
Server standard 2U — nessun rack speciale, nessun raffreddamento ad acqua
Incl. supporto next-business-day, ridondanza opzionale

Cluster

4× NVIDIA DGX Spark

fino a ~500 dipendenti

512 GB di memoria unificata (4× 128 GB)
Fabric InfiniBand RDMA da 200 Gbps
Maggiore parallelismo e margine di throughput
Fattore di forma desktop, ~1.000 W, raffreddamento ad aria

Alta disponibilità · Con ridondanza

2× server rack, ridondanti

500+ dipendenti

2× server GPU ridondanti con load balancer
Tolleranza ai guasti N+1, idoneo a SLA
Classe GPU scalabile: da L40S a H100/H200
Per funzionamento continuo business-critical

NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

In figura: la configurazione cluster (4× NVIDIA DGX Spark).

Valori indicativi; il dimensionamento finale dipende dal profilo di carico. Prezzi e dettagli di configurazione sono nella pagina prezzi.

Architettura modello a due livelli

Il cluster esegue due livelli LLM simultaneamente, calibrati sulle diverse esigenze di elaborazione di contboxx Atlas.

Livello Sonnet — Elaborazione approfondita

Qwen3.5-35B-A3B

Qualità livello Sonnet

Mixture-of-experts con soli 3,3 miliardi di parametri attivi su 35 miliardi, quantizzato in FP8 — gira efficientemente su una singola GPU. Per compiti dove qualità, sfumature e profondità di ragionamento contano:

Query RAG complesse
Riassunti estesi
Sintesi tra documenti
Rilevamento intento di ricerca
Analisi di conformità
Generazione di bozze
Assistenza all'onboarding

Throughput: ~30–75 token/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)

Livello Haiku — Elaborazione rapida

Qwen3.5-4B

Velocità livello Haiku

Modello Mamba+MoE compatto, quantizzato in FP8, con ampio margine di parallelismo. Per operazioni di routine che richiedono velocità anziché ragionamento profondo:

Indicizzazione full-text
Generazione embedding
Auto-tagging e classificazione
Q&A brevi
Rilevamento duplicati
Riassunti automatici

Throughput: ~30–40 token/s Tasso di successo: 98,8 % VRAM: ~8 GB (FP8)

Prestazioni e capacità

Throughput di livello enterprise

Misurato in un test prolungato di più settimane su NVIDIA DGX Spark (GB10) sotto carico reale della pipeline:

Modello	Livello	Architettura	Decode (Tok/s)	Tasso di successo
Qwen3.5-4B	Speed-tier	Mamba+MoE · 4B	27–42	98,8 %
Qwen3.5-35B-A3B	Quality-Tier	MoE · 3,3B aktiv	28–77	95–100 %

Memoria modelli (FP8)

~40 GB

Pesi di entrambi i livelli di modello (FP8)

Streaming

Tempo reale

Output progressivo dopo il primo token

Speculative Decoding

1,5–2× Speedup

EAGLE3, perdita minima di precisione

Stack software

Inference SGLang / vLLM — ottimizzato per batching continuo e alto throughput, CUDA, TRT-LLM, NCCL

API API REST compatibile OpenAI (POST /v1/chat/completions) — sostituzione diretta per integrazioni cloud esistenti

RAG Retrieval-Augmented Generation con database vettoriale per ricerca semantica, generazione locale di embedding

Sicurezza mTLS, autorizzazione basata su JWT, storage crittografato, audit logging, isolamento di rete

Rete Completamente air-gapped possibile — internet solo per il download iniziale del modello

Sistema operativo NVIDIA DGX OS (basato su Ubuntu) con ciclo definito di patch di sicurezza

Disponibilità e affidabilità

Tollerante ai guasti per design

SGLang Inference Server funziona come servizio systemd con riavvio automatico in caso di errore

Failover graceful del modello: in caso di errore nel livello Sonnet, Atlas ricade sul livello Haiku — limitato, ma funzionale

I nodi DGX Spark funzionano indipendentemente; il guasto di un nodo degrada il servizio ma non lo elimina

Switch QM8700 ridondante opzionale per alta disponibilità completa

Sistema di backup NAS protegge pesi del modello, configurazione e indici per il ripristino in caso di guasto del nodo

Domande tecniche? Abbiamo le risposte.

Programmate un colloquio tecnico con il nostro team di architettura.

Programmare colloquio tecnico