Producto / Tecnología

IA empresarial en su hardware

IA local que crece con su organización: desde un servidor de entrada compacto hasta un clúster de alta disponibilidad. Dos niveles de modelo de IA, completamente on-premises — comparable a los servicios de IA en la nube, pero bajo su control.

Arquitectura del clúster

Cada capa optimizada para su propósito

El hardware escala con su número de usuarios — desde un único servidor GPU (entrada) pasando por el clúster compacto DGX Spark hasta una configuración rack de alta disponibilidad. La siguiente tabla muestra las capas lógicas; la capa de cómputo crece con la configuración elegida (ver abajo).

Capa Componente Especificación Rol
Compute 2× NVIDIA L40S → 4× DGX Spark 96 GB → 512 GB LLM Inference
Interconnect InfiniBand / Load-Balancer 200 Gbps (Cluster / HA) Node Fabric
Modelo (Calidad) Qwen3.5-35B-A3B (MoE) 3,3B activos / 35B total, FP8 Sonnet-Tier Tasks
Modelo (Rendimiento) Qwen3.5-4B FP8, Mamba+MoE Haiku-Tier Tasks
Inference Stack SGLang / vLLM CUDA, TRT-LLM, NCCL Request Routing
API Layer API REST compatible con OpenAI HTTPS, mTLS, JWT Auth Integración Atlas
Aplicación contboxx Atlas Instalación on-premises Gestión del conocimiento

Configuraciones de hardware

Tres configuraciones — a escala de su tamaño

La IA local funciona en su propio hardware — compra única, sin costes recurrentes de nube. El tamaño adecuado depende del número de usuarios y la intensidad de uso: desde un único servidor GPU de entrada hasta un clúster de alta disponibilidad. El hardware no forma parte de la licencia y también puede ser aportado por el cliente.

Entrada · Base

Servidor GPU compacto

hasta ~250 empleados

  • 2× NVIDIA L40S 48 GB (96 GB en total) — 864 GB/s por tarjeta
  • Un nivel de modelo por tarjeta
  • Servidor estándar 2U — sin rack especial, sin refrigeración por agua
  • Incl. soporte next-business-day, redundancia opcional
Clúster

4× NVIDIA DGX Spark

hasta ~500 empleados

  • 512 GB de memoria unificada (4× 128 GB)
  • Fabric InfiniBand RDMA de 200 Gbps
  • Mayor concurrencia y margen de rendimiento
  • Factor de forma de escritorio, ~1.000 W, refrigeración por aire
Alta disponibilidad · Con redundancia

2× servidores rack, redundantes

500+ empleados

  • 2× servidores GPU redundantes con balanceador de carga
  • Tolerancia a fallos N+1, apto para SLA
  • Clase de GPU escalable: L40S a H100/H200
  • Para operación continua de misión crítica
NVIDIA DGX Spark Cluster — die Cluster-Konfiguration von contboxx Vault

En la imagen: la configuración de clúster (4× NVIDIA DGX Spark).

Valores orientativos; el dimensionamiento final se determina según el perfil de carga. Los precios y detalles de configuración están en la página de precios.

Arquitectura de modelo de dos niveles

El clúster ejecuta dos niveles de LLM simultáneamente, ajustados a los diferentes requisitos de procesamiento de contboxx Atlas.

Nivel Sonnet — Procesamiento profundo

Qwen3.5-35B-A3B

Mixture-of-experts con solo 3,3 mil millones de parámetros activos de 35 mil millones, cuantizado en FP8 — funciona eficientemente en una sola GPU. Para tareas donde la calidad, los matices y la profundidad de razonamiento importan:

  • Consultas RAG complejas
  • Resúmenes extensos
  • Síntesis entre documentos
  • Detección de intención de búsqueda
  • Análisis de cumplimiento
  • Generación de borradores
  • Asistencia de incorporación
Rendimiento: ~30–75 tokens/s Parameter: 35B (3,3B aktiv) VRAM: ~30 GB (FP8)
Nivel Haiku — Procesamiento rápido

Qwen3.5-4B

Modelo Mamba+MoE compacto y cuantizado en FP8 con amplio margen de concurrencia. Para operaciones rutinarias que requieren velocidad en lugar de razonamiento profundo:

  • Indexación de texto completo
  • Generación de embeddings
  • Auto-etiquetado y clasificación
  • Q&A breve
  • Detección de duplicados
  • Resúmenes automáticos
Rendimiento: ~30–40 tokens/s Tasa de éxito: 98,8 % VRAM: ~8 GB (FP8)

Rendimiento y capacidad

Rendimiento a nivel empresarial

Medido en una prueba sostenida de varias semanas en NVIDIA DGX Spark (GB10) bajo carga real de pipeline:

Modelo Nivel Arquitectura Decode (Tok/s) Tasa de éxito
Qwen3.5-4B Speed-tier Mamba+MoE · 4B 27–42 98,8 %
Qwen3.5-35B-A3B Quality-Tier MoE · 3,3B aktiv 28–77 95–100 %

Memoria del modelo (FP8)

~40 GB

Pesos de ambos niveles de modelo (FP8)

Streaming

Tiempo real

Salida progresiva después del primer token

Speculative Decoding

1,5–2× Speedup

EAGLE3, pérdida mínima de precisión

Stack de software

Inference SGLang / vLLM — optimizado para batching continuo y alto rendimiento, CUDA, TRT-LLM, NCCL
API API REST compatible con OpenAI (POST /v1/chat/completions) — reemplazo directo para integraciones cloud existentes
RAG Generación aumentada por recuperación con base de datos vectorial para búsqueda semántica, generación local de embeddings
Seguridad mTLS, autorización basada en JWT, almacenamiento cifrado, registro de auditoría, aislamiento de red
Red Totalmente air-gapped posible — internet solo necesario para descarga inicial del modelo
Sistema operativo NVIDIA DGX OS (basado en Ubuntu) con ciclo definido de parches de seguridad

Disponibilidad y fiabilidad

Tolerante a fallos por diseño

SGLang Inference Server se ejecuta como servicio systemd con reinicio automático en caso de error
Failover graceful del modelo: en caso de error en el nivel Sonnet, Atlas recurre al nivel Haiku — limitado, pero funcional
Los nodos DGX Spark funcionan de forma independiente; el fallo de un nodo degrada el servicio pero no lo elimina
Switch QM8700 redundante opcional para alta disponibilidad completa
Sistema de backup NAS asegura pesos del modelo, configuración e índices para recuperación ante fallo de nodo

¿Preguntas técnicas? Tenemos respuestas.

Programe una conversación técnica con nuestro equipo de arquitectura.

Programar conversación técnica