Fuente de datos: ANAM Data Stage
El Data Stage es un archivo ZIP mensual que ANAM entrega a los contribuyentes con información pública de sus operaciones de comercio exterior. Contiene 26 archivos de texto delimitados por pipes, organizados en dos niveles jerárquicos:
- Nivel pedimento (archivos 501–520, 701–702, Selección Automatizada): contienen datos generales del pedimento como RFC, tipo de operación, tipo cambio, fletes, seguros, transporte, contenedores, guías, facturas, fechas, identificadores, cuentas aduaneras, tasas, contribuciones, observaciones, descargos, destinatarios y rectificaciones.
- Nivel partida (archivos 551–558, Incidencias): contienen datos de las líneas del pedimento como fracción arancelaria, descripción de mercancía, precio unitario, valor en aduana, valor comercial, país de origen/destino, marca, modelo, permisos, identificadores a nivel partida, tasas, contribuciones y observaciones.
Las llaves primarias que vinculan toda la información son: Patente Aduanal + Número de Pedimento + Clave de sección aduanera de despacho para nivel pedimento, con la adición de la Secuencia de la fracción arancelaria para nivel partida.
Capacidades técnicas clave
- Pipeline ETL automatizado con Delta Live Tables (ingestión mensual ZIP → S3 → Delta Lake en capas Bronze/Silver/Gold).
- Motor de cumplimiento normativo que evalúa cada pedimento contra las reglas de Anexo 19 y Anexo 22 con scoring ponderado.
- Detección de anomalías con MLflow para precios unitarios, tasas impositivas y tiempos de procesamiento atípicos.
- Agente AI conversacional (Genie) con capacidad de consultar el Data Stage completo del usuario, generar SQL, producir gráficos inline y citar normativa mediante RAG (Ley Aduanera, RGCE, Anexos).
- Arquitectura multi-tenant con seguridad a nivel de fila mediante Unity Catalog, aislando los datos por RFC del contribuyente.
- Más de 86 KPIs validados contra los 26 archivos y 293 campos del Data Stage, clasificados por importancia (48 alto valor, 28 medio, 10 bajo).
- Arquitectura de filtros global y contextual con filtros en cascada que se propagan entre módulos.
- Enriquecimiento externo con catálogos TIGIE, LIGIE, Anexo 19, Anexo 22 Apéndices y APIs de tarifas arancelarias, agregando aproximadamente 40 campos computados.