Cómo elegir variables de segmentación con resultados óptimos
Por Escuela de Gestión de Riesgos el 24 de junio de 2025
En esta sesión Olga Torres, directora de producto, nos enseña por qué la segmentación importa en PLA, el rol de la segmentación en AML, tipos de variables que se pueden usar, enfoques de selección de variables, profundización en técnicas supervisadas, cualés son las técnicas sin variable objetivo, valor de la selección experta y cómo combinarla, nos muestra el caso aplicado FinPay, las conclusiones y recomendaciones.
¿Por qué la segmentación importa en PLA?
- Permite ajustar los umbrales, alertas y controles según el comportamiento y exposición de cada grupo de clientes.
- Ayuda a enfocar los recursos en donde realmente hay mayor riesgo, mejorando la eficiencia del monitoreo.
- Facilita el cumplimiento del enfoque basado en riesgo exigido por organismos como el GAFI.
Objetivos del webinar
- Comprender los principios y técnicas para elegir variables de segmentación.
- Aprender a validar la calidad de las variables sin caer en subjetividad.
Tipos de variables que se pueden usar
- Demográficas: Atributos como edad, género, nacionalidad, escolaridad o estado civil. Ayudan a construir perfiles base y detectar inconsistencias.
- Transaccionales: Miden el comportamiento financiero del cliente: número de operaciones, montos, frecuencia, destinatarios y canales. Son clave para descubrir patrones atípicos.
- De perfil AML: Variables de riesgo inherente como condición PEP, país de residencia de alto riesgo, tipo de producto usado, relación entre ingresos declarados y transacciones.
Enfoques de selección de variables
- Selección por experto / regulador
- Selección estadística supervisada (con etiqueta)
- Selección estadística no supervisada
Evaluemos factores inherentes de las variables
Criterio | ¿Por qué es importante? |
Disponibilidad histórica | Si la variable no está disponible en todas las fechas o clientes, el modelo no será confiable. |
Calidad del dato | Errores de digitación, valores nulos, formatos inconsistentes afectan los cálculos. |
Frecuencia de actualización | Variables que cambian muy poco o muy lento pueden no ser útiles para análisis dinámicos. |
Trazabilidad / auditoría | Si no puedes justificar cómo se calculó un campo, usarlo puede ser un riesgo. |
Costo de adquisición | Algunas variables son caras o difíciles de obtener regularmente (ej: listas de sanción privadas). |
Privacidad y ética |
Hay variables que no se deberían usar aunque sean muy predictivas (sexo, raza, ubicación exacta, etc). |
Caso práctico
FinPay es una fintech latinoamericana con sede en Colombia, dedicada a ofrecer servicios financieros digitales para personas no bancarizadas o sub-bancarizadas. Sus productos incluyen cuentas digitales, tarjetas prepago, transferencias internacionales y microcréditos. Con más de 1.5 millones de usuarios activos, opera principalmente en Colombia, México, Brasil, Venezuela y Panamá.
El modelo 100% digital, el uso intensivo de canales no presenciales y el alto volumen de transacciones pequeñas hacen que la gestión de riesgos de lavado de activos sea un desafío constante. Por eso, FinPay ha decidido implementar un sistema de segmentación inteligente para ajustar sus umbrales de monitoreo y mejorar la eficiencia del análisis de alertas.
Evaluación Inicial
Variable | Completitud |
Actualización | Accesibilidad | Calidad | Ética/Legal |
País de residencia | Alta | Estática | Disponible | Alta | ✅ |
Actividad económica | Media | Estática | Incompleta | Baja | ✅ |
Producto contratado | Alta | Dinámica | Disponible | Alta | ✅ |
Selección por experto / regulador
Parte del conocimiento experto y del cumplimiento normativo. Y se apoya en variables históricas, tipologías y exigencias regulatorias.
Ventajas
- Alineación directa con los requerimientos del regulador.
- Alta aceptabilidad institucional y trazabilidad documental.
- Facilita implementación rápida basada en criterios conocidos
Desventajas
- Posibilidad de sesgo por experiencia o tradición.
- Puede limitar el descubrimiento de patrones novedosos.
- Dificultad para adaptarse a cambios rápidos o comportamientos emergentes
Selección estadística supervisada (con etiqueta)
Este enfoque se aplica cuando se cuenta con una variable objetivo o etiqueta, como una alerta confirmada, un reporte de operación sospechosa (SAR), o una clasificación previa de clientes de alto riesgo. El objetivo es identificar qué variables tienen mayor poder explicativo sobre ese resultado, es decir, cuáles ayudan a distinguir entre clases o perfiles.
Ventajas
- Alta objetividad y cuantificación del aporte de cada variable.
- Favorece la trazabilidad y defensa de las decisiones algorítmicas.
- Posibilita entrenar modelos automatizados de clasificación.
Desventajas
- No aplicable si no se cuenta con variable objetivo válida.
- Puede heredar sesgos o errores presentes en las etiquetas.
- Requiere expertise en validación de modelos y control de overfitting.
Técnicas
- ANOVA F-score: mide si la media de una variable numérica difiere significativamente entre grupos definidos por la etiqueta.
- Mutual Information: evalúa la dependencia (incluso no lineal) entre cada variable y la variable objetivo.
- RFE (Recursive Feature Elimination): elimina iterativamente las variables menos relevantes usando un modelo base (como regresión logística, SVM o Random Forest).
- Modelos basados en árboles (Decision Trees, Random Forest): permiten obtener un ranking de importancia de variables basado en ganancia de información.
Selección estadística no supervisada
Este enfoque permite descubrir segmentos naturales, detectar patrones atípicos y generar agrupaciones útiles para definir estrategias de monitoreo diferenciado. Es muy potente para la exploración y descubrimiento.
Ventajas
- Permite trabajar con grandes volúmenes de datos sin clasificar.
- Detecta relaciones y estructuras no evidentes.
- Facilita la exploración y desarrollo de hipótesis.
Desventajas
- Mayor riesgo de interpretaciones subjetivas.
- No garantiza que los segmentos tengan relevancia operativa.
- Requiere pasos adicionales de validación cualitativa por expertos.
Técnicas
- Filtrado por varianza: elimina variables que no aportan variabilidad y, por tanto, no contribuyen a diferenciar comportamientos.
- Análisis de correlación: identifica variables redundantes o muy similares entre sí, ayudando a reducir ruido.
- PCA (Análisis de Componentes Principales): transforma las variables en nuevas combinaciones que capturan la mayor parte de la varianza, permitiendo reducir la dimensionalidad y visualizar la estructura de los datos.
- Evaluación con Silhouette Score: al aplicar clustering (como K-Means o HDBSCAN), se evalúa qué combinación de variables produce grupos más coherentes y separados.
Complementa tu conocimiento 👇
También te puede gustar
Episodios relacionados

Cómo implementar una cultura de gestión de riesgos

Cómo hacer el control y seguimiento de auditorías

No hay comentarios
Díganos lo que piensa