Producto / Tecnología
IA empresarial en su hardware
IA local que crece con su organización: desde un servidor de entrada compacto hasta un clúster de alta disponibilidad. Dos niveles de modelo de IA, completamente on-premises — comparable a los servicios de IA en la nube, pero bajo su control.
Arquitectura del clúster
Cada capa optimizada para su propósito
El hardware escala con su número de usuarios — desde un único servidor GPU (entrada) pasando por el clúster compacto DGX Spark hasta una configuración rack de alta disponibilidad. La siguiente tabla muestra las capas lógicas; la capa de cómputo crece con la configuración elegida (ver abajo).
| Capa | Componente | Especificación | Rol |
|---|---|---|---|
| Compute | 2× NVIDIA L40S → 4× DGX Spark | 96 GB → 512 GB | LLM Inference |
| Interconnect | InfiniBand / Load-Balancer | 200 Gbps (Cluster / HA) | Node Fabric |
| Modelo (Calidad) | Qwen3.5-35B-A3B (MoE) | 3,3B activos / 35B total, FP8 | Sonnet-Tier Tasks |
| Modelo (Rendimiento) | Qwen3.5-4B | FP8, Mamba+MoE | Haiku-Tier Tasks |
| Inference Stack | SGLang / vLLM | CUDA, TRT-LLM, NCCL | Request Routing |
| API Layer | API REST compatible con OpenAI | HTTPS, mTLS, JWT Auth | Integración Atlas |
| Aplicación | contboxx Atlas | Instalación on-premises | Gestión del conocimiento |
Configuraciones de hardware
Tres configuraciones — a escala de su tamaño
La IA local funciona en su propio hardware — compra única, sin costes recurrentes de nube. El tamaño adecuado depende del número de usuarios y la intensidad de uso: desde un único servidor GPU de entrada hasta un clúster de alta disponibilidad. El hardware no forma parte de la licencia y también puede ser aportado por el cliente.
Servidor GPU compacto
hasta ~250 empleados
- 2× NVIDIA L40S 48 GB (96 GB en total) — 864 GB/s por tarjeta
- Un nivel de modelo por tarjeta
- Servidor estándar 2U — sin rack especial, sin refrigeración por agua
- Incl. soporte next-business-day, redundancia opcional
4× NVIDIA DGX Spark
hasta ~500 empleados
- 512 GB de memoria unificada (4× 128 GB)
- Fabric InfiniBand RDMA de 200 Gbps
- Mayor concurrencia y margen de rendimiento
- Factor de forma de escritorio, ~1.000 W, refrigeración por aire
2× servidores rack, redundantes
500+ empleados
- 2× servidores GPU redundantes con balanceador de carga
- Tolerancia a fallos N+1, apto para SLA
- Clase de GPU escalable: L40S a H100/H200
- Para operación continua de misión crítica
En la imagen: la configuración de clúster (4× NVIDIA DGX Spark).
Valores orientativos; el dimensionamiento final se determina según el perfil de carga. Los precios y detalles de configuración están en la página de precios.
Arquitectura de modelo de dos niveles
El clúster ejecuta dos niveles de LLM simultáneamente, ajustados a los diferentes requisitos de procesamiento de contboxx Atlas.
Qwen3.5-35B-A3B
Mixture-of-experts con solo 3,3 mil millones de parámetros activos de 35 mil millones, cuantizado en FP8 — funciona eficientemente en una sola GPU. Para tareas donde la calidad, los matices y la profundidad de razonamiento importan:
- Consultas RAG complejas
- Resúmenes extensos
- Síntesis entre documentos
- Detección de intención de búsqueda
- Análisis de cumplimiento
- Generación de borradores
- Asistencia de incorporación
Qwen3.5-4B
Modelo Mamba+MoE compacto y cuantizado en FP8 con amplio margen de concurrencia. Para operaciones rutinarias que requieren velocidad en lugar de razonamiento profundo:
- Indexación de texto completo
- Generación de embeddings
- Auto-etiquetado y clasificación
- Q&A breve
- Detección de duplicados
- Resúmenes automáticos
Rendimiento y capacidad
Rendimiento a nivel empresarial
Medido en una prueba sostenida de varias semanas en NVIDIA DGX Spark (GB10) bajo carga real de pipeline:
| Modelo | Nivel | Arquitectura | Decode (Tok/s) | Tasa de éxito |
|---|---|---|---|---|
| Qwen3.5-4B | Speed-tier | Mamba+MoE · 4B | 27–42 | 98,8 % |
| Qwen3.5-35B-A3B | Quality-Tier | MoE · 3,3B aktiv | 28–77 | 95–100 % |
Memoria del modelo (FP8)
~40 GB
Pesos de ambos niveles de modelo (FP8)
Streaming
Tiempo real
Salida progresiva después del primer token
Speculative Decoding
1,5–2× Speedup
EAGLE3, pérdida mínima de precisión
Stack de software
Disponibilidad y fiabilidad
Tolerante a fallos por diseño
¿Preguntas técnicas? Tenemos respuestas.
Programe una conversación técnica con nuestro equipo de arquitectura.
Programar conversación técnica