Producto / Tecnología

IA empresarial en su hardware

IA local que crece con su organización: desde un servidor de entrada compacto hasta un clúster de alta disponibilidad. Dos niveles de modelo de IA, completamente on-premises — comparable a los servicios de IA en la nube, pero bajo su control.

Arquitectura del clúster

Cada capa optimizada para su propósito

El hardware escala con su número de usuarios — desde un único servidor GPU (entrada) pasando por el clúster compacto DGX Spark hasta una configuración rack de alta disponibilidad. La siguiente tabla muestra las capas lógicas; la capa de cómputo crece con la configuración elegida (ver abajo).

Capa	Componente	Especificación	Rol
Compute	2× NVIDIA L40S → 4× DGX Spark	96 GB → 512 GB	LLM Inference
Interconnect	InfiniBand / Load-Balancer	200 Gbps (Cluster / HA)	Node Fabric
Modelo (Calidad)	Qwen3.5-35B-A3B (MoE)	3,3B activos / 35B total, FP8	Sonnet-Tier Tasks
Modelo (Rendimiento)	Qwen3.5-4B	FP8, Mamba+MoE	Haiku-Tier Tasks
Inference Stack	SGLang / vLLM	CUDA, TRT-LLM, NCCL	Request Routing
API Layer	API REST compatible con OpenAI	HTTPS, mTLS, JWT Auth	Integración Atlas
Aplicación	contboxx Atlas	Instalación on-premises	Gestión del conocimiento

Configuraciones de hardware

Tres configuraciones — a escala de su tamaño

La IA local funciona en su propio hardware — compra única, sin costes recurrentes de nube. El tamaño adecuado depende del número de usuarios y la intensidad de uso: desde un único servidor GPU de entrada hasta un clúster de alta disponibilidad. El hardware no forma parte de la licencia y también puede ser aportado por el cliente.

Entrada · Base

Servidor GPU compacto

hasta ~250 empleados

2× NVIDIA L40S 48 GB (96 GB en total) — 864 GB/s por tarjeta
Un nivel de modelo por tarjeta
Servidor estándar 2U — sin rack especial, sin refrigeración por agua
Incl. soporte next-business-day, redundancia opcional

Clúster

4× NVIDIA DGX Spark

hasta ~500 empleados

512 GB de memoria unificada (4× 128 GB)
Fabric InfiniBand RDMA de 200 Gbps
Mayor concurrencia y margen de rendimiento
Factor de forma de escritorio, ~1.000 W, refrigeración por aire

Alta disponibilidad · Con redundancia

2× servidores rack, redundantes

500+ empleados

2× servidores GPU redundantes con balanceador de carga
Tolerancia a fallos N+1, apto para SLA
Clase de GPU escalable: L40S a H100/H200
Para operación continua de misión crítica

NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

En la imagen: la configuración de clúster (4× NVIDIA DGX Spark).

Valores orientativos; el dimensionamiento final se determina según el perfil de carga. Los precios y detalles de configuración están en la página de precios.

Arquitectura de modelo de dos niveles

El clúster ejecuta dos niveles de LLM simultáneamente, ajustados a los diferentes requisitos de procesamiento de contboxx Atlas.

Nivel Sonnet — Procesamiento profundo

Qwen3.5-35B-A3B

Calidad nivel Sonnet

Mixture-of-experts con solo 3,3 mil millones de parámetros activos de 35 mil millones, cuantizado en FP8 — funciona eficientemente en una sola GPU. Para tareas donde la calidad, los matices y la profundidad de razonamiento importan:

Consultas RAG complejas
Resúmenes extensos
Síntesis entre documentos
Detección de intención de búsqueda
Análisis de cumplimiento
Generación de borradores
Asistencia de incorporación

Rendimiento: ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)

Nivel Haiku — Procesamiento rápido

Qwen3.5-4B

Velocidad nivel Haiku

Modelo Mamba+MoE compacto y cuantizado en FP8 con amplio margen de concurrencia. Para operaciones rutinarias que requieren velocidad en lugar de razonamiento profundo:

Indexación de texto completo
Generación de embeddings
Auto-etiquetado y clasificación
Q&A breve
Detección de duplicados
Resúmenes automáticos

Rendimiento: ~30–40 tokens/s Tasa de éxito: 98,8 % VRAM: ~8 GB (FP8)

Rendimiento y capacidad

Rendimiento a nivel empresarial

Medido en una prueba sostenida de varias semanas en NVIDIA DGX Spark (GB10) bajo carga real de pipeline:

Modelo	Nivel	Arquitectura	Decode (Tok/s)	Tasa de éxito
Qwen3.5-4B	Speed-tier	Mamba+MoE · 4B	27–42	98,8 %
Qwen3.5-35B-A3B	Quality-Tier	MoE · 3,3B aktiv	28–77	95–100 %

Memoria del modelo (FP8)

~40 GB

Pesos de ambos niveles de modelo (FP8)

Streaming

Tiempo real

Salida progresiva después del primer token

Speculative Decoding

1,5–2× Speedup

EAGLE3, pérdida mínima de precisión

Stack de software

Inference SGLang / vLLM — optimizado para batching continuo y alto rendimiento, CUDA, TRT-LLM, NCCL

API API REST compatible con OpenAI (POST /v1/chat/completions) — reemplazo directo para integraciones cloud existentes

RAG Generación aumentada por recuperación con base de datos vectorial para búsqueda semántica, generación local de embeddings

Seguridad mTLS, autorización basada en JWT, almacenamiento cifrado, registro de auditoría, aislamiento de red

Red Totalmente air-gapped posible — internet solo necesario para descarga inicial del modelo

Sistema operativo NVIDIA DGX OS (basado en Ubuntu) con ciclo definido de parches de seguridad

Disponibilidad y fiabilidad

Tolerante a fallos por diseño

SGLang Inference Server se ejecuta como servicio systemd con reinicio automático en caso de error

Failover graceful del modelo: en caso de error en el nivel Sonnet, Atlas recurre al nivel Haiku — limitado, pero funcional

Los nodos DGX Spark funcionan de forma independiente; el fallo de un nodo degrada el servicio pero no lo elimina

Switch QM8700 redundante opcional para alta disponibilidad completa

Sistema de backup NAS asegura pesos del modelo, configuración e índices para recuperación ante fallo de nodo

¿Preguntas técnicas? Tenemos respuestas.

Programe una conversación técnica con nuestro equipo de arquitectura.

Programar conversación técnica