|

Missing data

Este artículo pretende ser una introducción a la comprensión del concepto de «datos perdidos» (missing data) y la relevancia de este al realizar tareas de análisis de datos. Como medida de simplicidad se han omitido la mayor cantidad de fórmulas donde sea posible.

Patricio Araneda

La incompletitud de datos dentro de cualquier estudio trae aparejado implicaciones muy importantes para su análisis. Sin lugar a dudas, la pérdida de datos necesariamente conlleva a la pérdida de información y a una menor precisión en la estimación de los parámetros de interés (Molenberghs 2015).

Los valores ausentes son relativamente comunes en los set de datos y se deben a muchas causas: fallas en la captura de datos  o en la transcripción de datos. La falta de datos en el proceso de captura puede deberse a diversas situaciones que van desde:

  • fatiga del informante
  • rechazo a informar
  • calidad de la muestra
  • formación del encuestador

Una de las principales tareas para el análisis de datos suele ser por tanto, la evaluación de la inexistencia de datos (datos faltantes o “missing data”). La ausencia de valores en los conjuntos de datos puede tener varios efectos perjudiciales. He aquí algunos ejemplos:

  • Pueden limitar la capacidad para realizar importantes tareas de ciencia de datos, como la conversión de tipos de datos o la visualización de datos.
  • Pueden reducir la validez estadística de los modelos, lo que a su vez aumenta la probabilidad de error de tipo II. El error de tipo II es la incapacidad de rechazar una hipótesis nula falsa.
  • Los datos que faltan pueden reducir la representatividad de las muestras del conjunto de datos.
  • Los datos que faltan pueden distorsionar la validez de los ensayos científicos y llevar a conclusiones no válidas.

En R la ausencia de valores se representa por el valor “NA” lo que permite su reconocimiento y consideración en el uso de funciones sobre datos. Las tareas consisten pues en:

  • Evaluar la existencia de valores perdidos (exploración).
  • Excluir los valores ausentes.
  • Recodificar los valores ausentes (imputación).

Si bien existen funciones que incluyen las funciones como argumento “na.omit” o “na.rm = TRUE,” que permiten ejecutar funciones numéricas sobre datos NA, algunos análisis devolverán un error ante la existencia de valores NA o vacíos («»).

Las acciones que pueden llevarse a cabo frente a datos ausentes son por tanto, las que pueden o no modificar el comportamiento de los datos en su totalidad o llevar a conclusiones erróneas:

  • Eliminar las filas completas que contengan al menos un valor ausente.
  • Eliminar las filas que contengan datos ausentes en alguna variable considerada clave para el análisis.
  • Cambiar los valores ausentes a otro valor.
  • Modificar los valores ausentes a un valor predeterminado.
  • Realizar imputación de datos.

La existencia de datos en un set de datos provoca errores sobre todo en aquellas funciones estadísticas que agrupan datos para obtener un resultado.

Clasificación de datos

En teoría todas las variables tienen datos que tienen alguna probabilidad de estar ausentes dentro de un conjunto de datos. Se identifican 3 mecanismos que establecen datos ausentes.

? Estos mecanismos no son controlados por el encargado del estudio y mas bien se infieren o asumen.

MCAR

Missing Completely at Random. Si la probabilidad de estar ausentes en la misma en todos los casos, entonces se dice que poseen datos perdidos en forma completamente aleatoria. Este es el estado deseado en caso de datos perdidos, ya que indica que no hay sesgo respecto de las perdidas. Por tanto se mantendrían las medidas de normalidad y distribución estadística. La pérdidad de datos no esta relacionada a los datos mismos. Al capturar datos de una muestra los datos no ingresados en ella son evitados en forma MCAR (totalmente aleatoria, cuando el muestreo es correcto). Los valores perdidos no se relacionan con las variables en el set de datos. Esta función elimina las filas que tengan 100% de datos perdidos.

  • Los valores faltan aleatoriamente de su conjunto de datos. Los valores de los datos que faltan no se relacionan con ningún otro dato del conjunto de datos y no existe un patrón para los valores reales de los datos que faltan.
  • Por ejemplo, cuando el estatus de fumador no se registra en un subconjunto aleatorio de pacientes.
  • Esto es fácil de manejar, pero desafortunadamente, los datos casi nunca faltan completamente al azar.

MAR

Missing at Random. Existe una relación sistemática entre los datos observados y la propensión a valores ausentes. Que una observación falte no tiene que ver con esos valores sino con los valores de las variables observadas. Un ejemplo claro es la edad que es más probable que los hombres la digan respecto de las mujeres. Entonces la edad es MAR. Los valores perdidos se relacionan con los valores las otras variables dentro del set de datos.

La ausencia de datos está sesgada ya que no tienen la misma distribución, en el ejemplo anterior, las respuestas ausentes provienen mayoritariamente de mujeres. También puede originarse de una mala muestra de datos (no representativa o sesgada).

Por ejemplo, el estatus de fumador no está documentado en pacientes mujeres porque el médico era demasiado tímido para preguntar.

MNAR

Missing Not at Random. Pérdida de datos no aleatoria. Existe una relación entre la propensión a que falte un dato y sus valores. Esto origina un problema en el análisis de datos. Como ejemplo si la mayoría no responde una pregunta determinada puede deberse a que esa pregunta no se entendió del todo. Las personas más enfermas son las más propensas a abandonar el estudio.

En una encuesta pública las personas con carácter más tímido responderán con menos frecuencia que otras de carácter más fuerte.

  • Por ejemplo, cuando no se registra el estado de tabaquismo en los pacientes ingresados como una emergencia, que también son más propensos a tener peores resultados de la cirugía.
  • La falta de datos no aleatorios es importante, puede alterar sus conclusiones y es la más difícil de diagnosticar y manejar. Sólo pueden detectarse recogiendo y examinando algunos de los datos que faltan. Esto es a menudo difícil o imposible de hacer.
  • La forma de tratar los datos que faltan depende del tipo de falta.

Ver en detalle y código en R: https://rpubs.com/paraneda/missingdata

En construcción los siguientes capítulos …..

….