Catálogo de Modelos Analíticos

¿Qué modelo utilizar?

Icons Freepik from Flaticon

Catálogo de Modelos Analíticos

Existen muchos modelos, para seleccionar el(los) más adecuado(s) para los datos disponible se puede responder a preguntas como:

¿Tus datos pueden ser etiquetados o categorizados?

Si tus datos pueden ser separados en clases o grupos específicos, usa algoritmos de clasificación.

¿Estás trabajando con datos de un rango?

Si la naturaleza de tu respuesta es un número real - como la temperatura o el tiempo hasta que un cajero automático falle -, usa modelos o algoritmos de regresión.

¿Aún no sabes como agrupar tus datos?

  • Usa clúster jerárquico para encontrar posibles estructuras en los datos.
  • Usa la evaluación de clústers para encontrar el ‘mejor’ número de grupos.

Tipos de Problemas Analíticos

Los problemas analíticos pueden ser: supervisados o no supervisados. De manera muy genérica, en los problemas supervisados se busca estimar o prever un output basado en uno o más inputs. En los problemas no supervisados, se cuenta con los inputs pero con un output, por lo que se busca entender la estructura de los datos. El diagrama de la figura abajo se presenta las técnicas utilizadas y algunos ejemplos de casos de problemas supervisados y no supervisados.

Model

Problema / Aprendizaje Supervisado

En el aprendizaje supervisado, cada dato, unidad analizada u observación está etiquetada o asociada con una categoría o valor de interés.

Ejemplos:

  • Una imagen es etiquetada como un ‘gato’ o ‘perro’.
  • Un cliente es etiquetado como ‘propenso’ o ‘no propenso’ al uso del canal digital.
  • El precio de venta asociado a un coche usado, es una etiqueta de valor.

El objetivo del aprendizaje supervisado es estudiar muchos ejemplos etiquetados y, luego, poder realizar predicciones sobre los datos futuros. Por ejemplo, identificar nuevas fotografías con el animal correcto, identificar clientes a clientes facilitar el uso de la banca online o asignar precios de venta precisos a otros coches usados.

El aprendizaje supervisado usa técnicas de clasificación y regresión para desarrollar modelos predictivos.

  • Las técnicas de clasificación predicen respuestas discretas —por ejemplo, saber si un correo es genuino o spam, o si un tumor es benigno o maligno. Los modelos de clasificación categorizan los datos de entrada. Entre las aplicaciones típicas se incluyen imágenes médicas, reconocimiento de voz o puntaje crediticio. Cuando hay sólo dos opciones, se denomina clasificación de dos clases o binaria. Cundo hay más categorías, se denomina clasificación multiclase o multinomial.

    • En algunos casos la detección de anomalías se considera una técnica adicional de clasificación. En la detección de fraude, por ejemplo, los patrones de gasto de tarjeta de crédito muy poco habituales son sospechosos. Las posibles variaciones son tan numerosas y los ejemplos de formación son tan pocos, que no es posible saber de qué actividad fraudulenta se trata. El enfoque que toma la detección de anomalías es simplemente aprender qué puede considerarse como actividad normal (haciendo uso de las transacciones no fraudulentas del historial) e identificar todo lo que sea significativamente diferente1.
  • Las técnicas de reducción de dimensionalidad ayudan a disminuir la complejidad de los problemas debida al gran volumen de datos. Cuando mayor es el conjunto de datos, mayor la necesidad de reducir el número de variables (features) que se quieren analizar.

  • Las técnicas de regresión predicen respuestas continuas —por ejemplo, cambios en la temperatura o fluctuaciones en la demanda de energía. Las aplicaciones típicas pueden ser previsión del recurso eléctrico o trading algorítmico.


Problema / Aprendizaje No Supervisado

En el aprendizaje no supervisado, los datos no tienen etiquetas asociadas a ellos. En este caso, el objetivo es organizar los datos de alguna manera o describir su estructura. Esto puede significar agrupar clientes en segmentos, o buscar diferentes maneras de examinar datos complejos para que parezcan más simples.

El aprendizaje no supervisado se utiliza en análisis exploratorio de datos para encontrar características ocultas y agrupar. Las aplicaciones del clustering incluyen análisis de secuencias genéticas, investigación de mercado y reconocimiento de objetos.

Algoritmos de Clasificación

Algunos Algoritmos de Clasificación

Figure 1: Algunos Algoritmos de Clasificación


Regresión Logística

  • ¿Cómo trabaja? Ajusta un modelo que puede predecir la probabilidad de que una respuesta binaria pertenezca a una clase u otra. Debido a su simplicidad, la regresión logística se utiliza comúnmente como punto de partida para los problemas de clasificación binaria.

  • ¿Cuándo se usa? Cuando los datos se pueden separar claramente por un solo límite lineal. Como una línea de base (baseline) para evaluar más complejos métodos de clasificación.


k Vecinos Cercanos (kNN)

  • ¿Cómo trabaja? kNN categoriza los objetos en función de las clases de su vecinos más cercanos en el conjunto de datos. Las predicciones de kNN suponen que los objetos cercanos entre sí son similares. Algunas de las métricas de distancia utilizadas para encontrar el vecino más cercano son: Euclides, bloque de la ciudad_city block, coseno y Chebychev.

  • ¿Cuándo se usa? Cuando se requiere un algoritmo simple para establecer reglas de aprendizaje de referencia o base. Cuando el uso de memoria del modelo entrenado no es una preocupación. Cuando la velocidad de predicción del modelo entrenado tampoco constituye una limitación.


Support Vector Machines (SVM)

  • ¿Cómo trabaja? Clasifica datos encontrando el límite de decisión lineal (hiperplano) que separa todos los puntos de datos de una clase de los de la otra clase. El mejor hiperplano para una SVM es aquel con el mayor margen entre las dos clases, cuando los datos son linealmente separables. Si los datos no son linealmente separables, se utiliza una función de pérdida para penalizar los puntos en el lado equivocado del hiperplano Los SVM a veces usan una transformación de núcleo para transformar los datos no separables linealmente en dimensiones más altas donde un límite de decisión lineal puede ser encontrado.

  • ¿Cuándo se usa? Para datos que tienen exactamente dos clases.Para datos de alta dimensión, no linealmente separables.Cuando se necesita un clasificador que sea simple, fácil de interpretar y preciso.


Redes Neuronales

  • ¿Cómo trabaja? Inspirada en el cerebro humano, una red neuronal consiste enredes de neuronas altamente conectadas que relacionan las entradas a las salidas deseadas La red se entrena de forma iterativa, modificando las fortalezas de las conexiones para que las entradas se asignen a la respuesta correcta.

  • ¿Cuándo se usa? Para modelar sistemas altamente no lineales. Cuando los datos están disponibles de forma incremental y se desea actualiza constantemente el modelo. Cuando podría haber cambios inesperados en su datos de entrada. Cuando la interpretabilidad del modelo no es una preocupación importante.


Árboles de Decisión

  • ¿Cómo trabaja? Un árbol de decisión permite predecir respuestas a datos siguiendo las decisiones organizadas en un árbol, desde la raíz (inicio) hasta un nodo u hoja. Un árbol consiste en condiciones organizadas en forma de ramificaciones, donde el valor de un predictor se compara con un peso entrenado. Los número de ramas y los valores de los pesos se determinan en el proceso de entrenamiento. Algunas acciones adicionales, como la poda, se pueden usar para simplificar el modelo.

  • ¿Cuándo se usa? Cuando se necesita un algoritmo fácil de interpretar y rápido de ejecutar. Para minimizar el uso de memoria. Cuando la precisión predictiva alta no es un requisito.


Bagging, Boosting

  • ¿Cómo trabaja? Varios árboles de decisión “más débiles” son combinados en un conjuto “más fuerte”. Un árbol de decisión en bolsas (bagging) consta de árboles entrenados de forma independiente en los datos que se remuestrean (boostrapping) a partir de los datos de entrada. Boosting implica crear un modelo fuerte mediante la adición iterativa de modelos “débiles” y ajustando el peso de cada modelo débil para centrarse en ejemplos mal clasificados.

  • ¿Cuándo se usa? Cuando los predictores son categóricos (discretos) o se comportan no lineal.


Análisis Discriminante

  • ¿Cómo trabaja? Clasifica los datos a partir de combinaciones lineales de los inputs. El análisis discriminante asume que las diferentes clases de datos se pueden generar a partir de distribuciones gaussianas. Entrenar o ajustar un modelo de análisis discriminante implica encontrar los parámetros para la distribución gaussiana de cada clase.

  • ¿Cuándo se usa? Cuando necesitas un modelo simple que sea fácil de interpretar. Cuando el uso de la memoria durante el entrenamiento es una preocupación. Cuando necesitas un modelo que sea rápido para predecir.

Algoritmos de Regresión

Algunos Algoritmos de Regresión

Figure 2: Algunos Algoritmos de Regresión


Regresión Lineal

  • ¿Cómo trabaja? La regresión lineal es una clase de modelo estadístico utilizado para describir una variable de respuesta continua como una función lineal de una o más variables predictoras. Dado que los modelos de regresión lineal son simples de interpretar y fáciles de entrenar, a menudo constituyen el primer modelo que se ajusta a un nuevo conjunto de datos.

  • ¿Cuándo se usa? Cuando se necesita un algoritmo fácil de interpretar y rápido de ejecutar. Como línea de base para evaluar otros modelos de regresión más complejos.


SVM Regression

  • ¿Cómo trabaja? Los algoritmos de regresión SVM funcionan como los algoritmos de clasificación SVM, pero están modificados para poder predecir una respuesta continua. En lugar de encontrar un hiperplano que separa los datos, los algoritmos de regresión SVM encuentran un modelo que se desvía (aleja) de los datos observados por un valor no mayor que una pequeña cantidad, con valores que son tan pequeños como posible (para minimizar la sensibilidad al error).

  • ¿Cuándo se usa? Para datos de alta dimensión (donde habrá una gran cantidad de variables predictoras)


Generalized Linear Models

  • ¿Cómo trabaja? Un modelo lineal generalizado es un caso especial de modelo no lineal. Implica ajustar un combinación lineal de los inputs a una función no lineal (la función de enlace) de los outputs.

  • ¿Cuándo se usa? Cuando las variables de respuesta tienen un comportamiento de distribución no normal, como una variable de respuesta que se espera que sea siempre positiva.


Regression Tree

  • ¿Cómo trabaja? Los árboles de decisión para la regresión son similares a los árboles de decisión para clasificación, pero se modifican para poder predecir respuestas continuas.

  • ¿Cuándo se usa? Cuando los predictores son categóricos (discretos) o se comportan no lineal.


Gaussian Process Regression Model

  • ¿Cómo trabaja? Los modelos de regresión de procesos gaussianos (GPR) son modelos no paramétricos que se utilizan para predecir el valor de una variable de respuesta continua. Son ampliamente utilizados en el campo del análisis espacial para la interpolación en presencia de incertidumbre. GPR también se conoce como Kriging.

  • ¿Cuándo se usa? Para la interpolación de datos espaciales.

Algoritmos de Segmentación o Clustering

Algunos Algoritmos de Segmentación

Figure 3: Algunos Algoritmos de Segmentación


> La mayoría de las técnicas de aprendizaje no supervisado son una forma de análisis por cluster.


En análisis por cluster, los datos son divididos en grupos de acuerdo con alguna métrica de similaridad o característica compartida. De esta forma los objetos o instancias en el mismo clúster son muy similares y los de distintos muy diferentes.

Los algoritmos de clustering se dividen en dos grandes grupos2:

  • Clustering rígido, donde cada dato pertenece únicamente a un clúster.

  • Clustering suave, donde cada dato puede pertenecer a más de un clúster.


k-means

  • ¿Cómo trabaja? Particiona datos en k número de clusters mutuamente excluyentes. El como de bien un punto se ajuste a un clúster determinado viene dado por su distancia al centro de dicho clúster.

  • ¿Cuándo se usa? Cuando el número de clusters es conocido y cuando se requiere un clustering rápido de grandes conjuntos de datos.

  • ¿Cuál es el resultado? Centroide de cada cluster.


k-medoids

  • ¿Cómo trabaja? Algoritmo similar a k-medias pero requiere de que los centroides sean puntos u observaciones de la muestra.

  • ¿Cuándo se usa? Cuando el número de clusters es conocido. Para clustering rápido de datos categóricos. Para escalar a grandes conjuntos de datos.

  • ¿Cuál es el resultado? Observación o individuo de la muestra que actúa de centroide o medoide de cada cluster.


Hierarchical Clustering

  • ¿Cómo trabaja? Produce conjuntos anidados de datos analizando similaridades entre pares de puntos y agrupando objetos en un arbol binario jerárquico.

  • ¿Cuándo se usa? Cuando se desconoce el número de clusters a los que darán lugar los datos. Cuando se requiere de visualización para guiar la elección.

  • ¿Cuál es el resultado? Dendograma mostrando la relación jerárquica entre los clusters.


Self-Organizing Map

  • ¿Cómo trabaja? Red neuronal basada en clustering que transforma un conjunto de datos en un mapa 2D con preservación de topología.

  • ¿Cuándo se usa? Para observar datos de alta dimensionalidad en mapas 2D o 3D. Para deducir la dimensionalidad de los datos preservando su topología (forma).

  • ¿Cuál es el resultado? Representación en dimensión más baja (típicamente en 2D)


Fuzzy c-Means

  • ¿Cómo trabaja? Agrupamiento difuso. Agrupamiento basado en particiones en el que los datos pueden estar en más de un cluster.

  • ¿Cuándo se usa? Cuando el número de clusters es conocido. Para reconocimento de patrones. Cuando los clusters se sobreponen o se solopan.

  • ¿Cuál es el resultado? Centro de los clústers (similar a k-means) pero con difusión (fuzziness) de forma que las observaciones o individuos pueden pertenecer a más de 1 cluster.


Gaussian Mixture Model

  • ¿Cómo trabaja? Modelo gaussiando mixto. Agrupación basada en particiones en la que los datos provienen de diferentes distribuciones normales multivariantes con ciertas probabilidades.

  • ¿Cuándo se usa? Cuando un punto puede pertenecer a más de un clúster. Cuando los clusters diferentes tamaños y correlaciones entre ellos.

  • ¿Cuál es el resultado? Modelo de distribuciones gausianas que proporciona la probabilidad de que una observación o individuo pertenezca a un clúster.

Avatar
Romy Rodriguez-Ravines
GOING BEYOND DATA

Understand, Model, Predict = Learn and extract value from data for people and organizations.

Related