Segmentación
Consideremos la base de datos de un establecimiento que cuenta con una matrícula de 1.000 alumnos, que viven en las provincias de Osorno, Llanquihue y Chiloé. Respecto de cada alumno se tiene; su identificación, el valor de una variable numérica (Variable_1) y el valor de una segunda variable numérica (Variable_2), además de las coordenadas de su residencia (latitud y longitud).
Utilizando K-Means, una de las técnicas de Machine Learning de Aprendizaje No Supervisado, es posible realizar un análisis exploratorio para revelar agrupaciones naturales en este conjunto de datos y posteriormente visualizarlas en un mapa.
Los pasos a seguir son:
Con Python.
- Revisión del formato de las variables.
- Verificación de la existencia de datos faltantes.
- Estandarización de las variables numéricas 1 y 2, ya que se encuentran en escalas distintas.
- Ajuste del modelo K-Means, seleccionando la cantidad de clústers según el criterio del gráfico de Elbow.
- «Verificamos que la cantidad de clústers (2) seleccionada es la correcta, ya que los registros se agrupan en torno a dos centroides, según el gráfico realizado con Python. Identificamos a los integrantes del clúster 0 con color azul, y a los del clúster 1 con naranjo».
Con Power BI.
- Visualización geográfica de los clústers.
- «Con Power BI es posible ver la distribución en la décima región de quienes componen ambas agrupaciones. Los alumnos pertenecientes al clúster 0 están presentes en la provincia de Chiloé y los del clúster 1 en las provincias de Osorno y Llanquihue».
Revisa el código en nuestro GitHub: