|

Análisis predictivo

El análisis predictivo es el proceso de utilizar el análisis de datos para realizar predicciones basadas en los datos. En este proceso se hace uso de los datos junto con técnicas analíticas, estadísticas y de aprendizaje automático a fin de crear un modelo predictivo para predecir eventos futuros.

El análisis predictivo agrupa una variedad de técnicas estadísticas de modelización, aprendizaje automático y minería de datos que analiza los datos actuales e históricos reales para hacer predicciones acerca del futuro o acontecimientos no conocidos.

En el ámbito de los negocios los modelos predictivos extraen patrones de los datos históricos y transaccionales para identificar riesgos y oportunidades. Los modelos predictivos identifican relaciones entre diferentes factores que permiten valorar riesgos o probabilidades asociadas sobre la base de un conjunto de condiciones, guiando así al decisor durante las operaciones de la organización.

El efecto funcional que pretenden estas iniciativas técnicas es que el análisis predictivo provea una puntuación (probabilidad) para cada sujeto (cliente, empleado, paciente, producto, vehículo, componente, máquina y otra unidad en la organización) con el objeto de determinar, informar o influir procesos en la organización en el que participen un gran número de sujetos, tal y como ocurre en marketing, evaluación de riesgo de crédito, detección de fraudes, fabricación, salud y operaciones gubernamentales como el orden público.

Lo fundamental del análisis predictivo está en identificar relaciones entre las variables explicativas y las variables predictivas del pasado de forma que se pueda escalar a lo que está por ocurrir. Es importante advertir, en cualquier caso, que la fiabilidad y usabilidad de los resultados dependerán mucho del nivel de análisis del dato y la calidad de las hipótesis.

El término “análisis predictivo” describe la aplicación de una técnica estadística o de aprendizaje automático para crear una predicción cuantitativa sobre el futuro. Con frecuencia, se utilizan técnicas de aprendizaje automático supervisado para predecir un valor futuro (¿Cuánto tiempo puede funcionar esta máquina antes de necesitar mantenimiento?) o para calcular una probabilidad (¿Qué posibilidad existe de que este cliente no pueda pagar un préstamo?).

Análisis de regresión

El análisis de regresión es una técnica estadística para estudiar la relación entre variables. Tanto en el caso de dos variables (regresión simple) como en el caso de más de dos variables (regresión múltiple), el análisis puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio (Y) y una o más variables llamadas independientes, predictoras o regresoras (X1, X2, …, Xn), así como para desarrollar una ecuación lineal con fines predictivo.En problemas de regresión se dispone de una serie de datos de entrenamiento que representan las entradas y las correspondientes salidas de un sistema lineal o no lineal. El objetivo de la regresión es descubrir la relación funcional entre la entrada y la salida de este sistema, para poder así predecir la salida del sistema cuando se le presenta un dato de entrada nuevo.

Modelo de regresión lineal

El análisis de regresión es una técnica estadística para estudiar la relación entre variables. El término regressión fue introducido por Francis Galton. Su trabajo se centró en la descripción de los rasgosfísicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la ley de la regresión universal.

Arboles de clasificación y regresión

Los árboles de clasificación y regresión (Classification And Regression Trees, CART) son una técnica de aprendizaje de árboles de decisión no paramétrica que produce árboles de clasificación o regresión, dependiendo de si la variable dependiente es categórica (cualitativo) o numérica (continua), respectivamente.

En comparación a la alternativa de análisis de clasificación y regresión posee una mayor tolerancia a los outliers. y que mantiene la estructura de clasificación en forma de árbol y su facilidad de interpretación. La principal ventaja de los árboles de decisión frente a otros métodos de regresión es su fácil interpretación y la gran utilidad de su representación gráfica.

Genera un esquema de dicotomías, anidadas con forma de árbol de manera que cada rama se obtiene desde cada iteración de análisis. Al seguir el recorrido de las ramas o nodo se obtiene una predicción de pertenencia en el caso de clasificaciones, o de valor en caso de regresiones, para los individuos que cumplen con las propiedades que se han analizado en el recorrido del árbol.

Cuando tratan con variables continuas, pierden parte de su información al categorizarlas en el momento de la división de los nodos. Por esta razón, suelen ser modelos que consiguen mejores resultados en clasificación que en regresión.

Los árboles de decisión se utilizan para resolver problemas de:

  • Clasificación
    • Binaria: Fraude vs No fraude, Morosidad, Spam en correos.
    • Multiclase: niveles de satisfacción; completamente, bastante, poco satisfecho, totalmente insatisfecho
  • Regresión
    • Pagos de compañías de seguros
    • Gasto de compras por clientes

La partición en cada nodo describe dos conjuntos separados del dataset, donde el corte que separa los datos esta determinao por una o varias condiciones en una de las variables explicativas. El particionamiento es recursivo. Se detiene en los nodos terminales y a cada nodo terminal se le asigna uno de los estados de la variable criterio Y. Para cada nueva observación, el estado de la variable respuesta se predice por el estado del nodo terminal al que dicha observación pertenece.

Fuente: https://rpubs.com/paraneda/predictivo