Machine Learning

Aprendizaje no supervisado

En el aprendizaje no supervisado no hay entrenamiento, debe aprender desde patrones de entrada basados en datos sin etiquetas o clases previamente definidas. Por tanto, no se conoce ningún valor objetivo o de clase, ya sea categórico o numérico. El aprendizaje no supervisado está dedicado a las tareas de agrupamiento, también llamadas clustering o segmentación, donde el objetivo es encontrar grupos similares en el conjunto de datos.

El aprendizaje no supervisado no proporciona resultados «correctos» para los nuevos datos. En su lugar, estos algoritmos exploran los datos, extraen inferencias a partir de los conjuntos de datos, basado en probabilidades.

En la literatura se encontrará que hay tres tareas básicas que realiza esta ténica, clasifiicación, asociación y reducción de dimensiones.

En la clasificación se pretende alcanzar el objetivo de agrupar los datos que no estan etiquetados basados ya en sus similitudes o diferencias. la seáración en grupos esta determinada por el descubrimiento de patrones dentro de los datos.

Algunos algoritmos determinan un cierta número de agrupaciones (k) y según ese número determina la cantidad de datos asociados a uno u otro grupo basados en sus características. Esta técnica (k-means) puede generar grupos excluyentes, donde un dato solo puede pertenecer a un único grupo, o permitir el solapamiento gradual de un dato en más de un grupo.

Es aquí donde efectivamente vamos a utilizar estadísticas avanzadas para análisis de probabilidades. Y una de las recurrentes es el modelo bayesiano (Teorema de Bayes) de probabilidades que se basa en la probabilidad subjetiva para lograr contrastar una hipótesis, en realidad puede contrastar más de una hipótesis. Este teorema permite generar inferencias a partir de un reducido conjunto de datos. Este teorema de estructura simple puede predecir la aparición de un fenomeno dado la aparición de otro fenomeno relacionado.

En el ámbito de la IA el concepto de distancia adquiere importancia ya que en el ámbito de la vida real mide el grado de separación entre dos puntos, y en la IA se utliza para calcular la similitud de dos vectores, donde la distancia es el grado de similitud de esos vectores. Disponemos de diversos algoritmos para el cálculo de las distancias.

  • Euclideana
  • Manhattan
  • Chebyshev
AlgoritmoAplicación
K-means,
Análisis de componentes principales
Análisis de componentes independientes
Apriori
Eclat
Detección de anomalías, recomendaciones,
identificación de personas, imágenes médicas,
Segmentación de clientes,
reconocimiento de voz, chatbot
Análisis genético