Prodotto / Tecnologia
IA aziendale sul vostro hardware
Un'IA locale che cresce con la vostra organizzazione: dal compatto server entry-level al cluster ad alta disponibilità. Due livelli di modelli IA, completamente on-premises — comparabile ai servizi cloud IA commerciali, ma sotto il vostro controllo.
Architettura del cluster
Ogni livello ottimizzato per il suo scopo
L'hardware scala con il numero di utenti — da un singolo server GPU (entry-level) al cluster compatto DGX Spark fino a una configurazione rack ad alta disponibilità. La tabella seguente mostra i livelli logici; il livello di calcolo cresce con la configurazione scelta (vedi sotto).
| Livello | Componente | Specifica | Ruolo |
|---|---|---|---|
| Compute | 2× NVIDIA L40S → 4× DGX Spark | 96 GB → 512 GB | LLM Inference |
| Interconnect | InfiniBand / Load-Balancer | 200 Gbps (Cluster / HA) | Node Fabric |
| Modello (Qualità) | Qwen3.5-35B-A3B (MoE) | 3,3B attivi / 35B totali, FP8 | Sonnet-Tier Tasks |
| Modello (Throughput) | Qwen3.5-4B | FP8, Mamba+MoE | Haiku-Tier Tasks |
| Inference Stack | SGLang / vLLM | CUDA, TRT-LLM, NCCL | Request Routing |
| API Layer | API REST compatibile OpenAI | HTTPS, mTLS, JWT Auth | Integrazione Atlas |
| Applicazione | contboxx Atlas | Installazione on-premises | Gestione della conoscenza |
Configurazioni hardware
Tre configurazioni — su misura per le vostre dimensioni
L'IA locale gira sul vostro hardware — acquisto una tantum, senza costi cloud ricorrenti. La dimensione giusta dipende dal numero di utenti e dall'intensità d'uso: dal singolo server GPU entry-level al cluster ad alta disponibilità. L'hardware non fa parte della licenza e può essere fornito anche dal cliente.
Server GPU compatto
fino a ~250 dipendenti
- 2× NVIDIA L40S 48 GB (96 GB totali) — 864 GB/s per scheda
- Un livello di modello per scheda
- Server standard 2U — nessun rack speciale, nessun raffreddamento ad acqua
- Incl. supporto next-business-day, ridondanza opzionale
4× NVIDIA DGX Spark
fino a ~500 dipendenti
- 512 GB di memoria unificata (4× 128 GB)
- Fabric InfiniBand RDMA da 200 Gbps
- Maggiore parallelismo e margine di throughput
- Fattore di forma desktop, ~1.000 W, raffreddamento ad aria
2× server rack, ridondanti
500+ dipendenti
- 2× server GPU ridondanti con load balancer
- Tolleranza ai guasti N+1, idoneo a SLA
- Classe GPU scalabile: da L40S a H100/H200
- Per funzionamento continuo business-critical
In figura: la configurazione cluster (4× NVIDIA DGX Spark).
Valori indicativi; il dimensionamento finale dipende dal profilo di carico. Prezzi e dettagli di configurazione sono nella pagina prezzi.
Architettura modello a due livelli
Il cluster esegue due livelli LLM simultaneamente, calibrati sulle diverse esigenze di elaborazione di contboxx Atlas.
Qwen3.5-35B-A3B
Mixture-of-experts con soli 3,3 miliardi di parametri attivi su 35 miliardi, quantizzato in FP8 — gira efficientemente su una singola GPU. Per compiti dove qualità, sfumature e profondità di ragionamento contano:
- Query RAG complesse
- Riassunti estesi
- Sintesi tra documenti
- Rilevamento intento di ricerca
- Analisi di conformità
- Generazione di bozze
- Assistenza all'onboarding
Qwen3.5-4B
Modello Mamba+MoE compatto, quantizzato in FP8, con ampio margine di parallelismo. Per operazioni di routine che richiedono velocità anziché ragionamento profondo:
- Indicizzazione full-text
- Generazione embedding
- Auto-tagging e classificazione
- Q&A brevi
- Rilevamento duplicati
- Riassunti automatici
Prestazioni e capacità
Throughput di livello enterprise
Misurato in un test prolungato di più settimane su NVIDIA DGX Spark (GB10) sotto carico reale della pipeline:
| Modello | Livello | Architettura | Decode (Tok/s) | Tasso di successo |
|---|---|---|---|---|
| Qwen3.5-4B | Speed-tier | Mamba+MoE · 4B | 27–42 | 98,8 % |
| Qwen3.5-35B-A3B | Quality-Tier | MoE · 3,3B aktiv | 28–77 | 95–100 % |
Memoria modelli (FP8)
~40 GB
Pesi di entrambi i livelli di modello (FP8)
Streaming
Tempo reale
Output progressivo dopo il primo token
Speculative Decoding
1,5–2× Speedup
EAGLE3, perdita minima di precisione
Stack software
Disponibilità e affidabilità
Tollerante ai guasti per design
Domande tecniche? Abbiamo le risposte.
Programmate un colloquio tecnico con il nostro team di architettura.
Programmare colloquio tecnico