Reducción de la Dimensionalidad

En los problemas de Machine Learning y de la ciencia de datos, el objetivo principal sigue siendo encontrar las características más relevantes que juegan un papel dominante en la determinación e influencia de los resultados de la producción.

En la mayoría de los problemas de ciencia de datos, el conjunto de datos está sobrecargado con numerosas características que dan como resultado un ajuste excesivo y aumentan los enormes costes de formación, lo que hace que el proceso sea considerablemente lento. Los algoritmos desarrollados a lo largo del tiempo tienen como objetivo resolver algunos de los problemas básicos, incluyendo:

  • Reducir la dimensión del conjunto de datos de formación restableciendo la varianza y manteniendo intacta la información relevante.
  • Reducir el tiempo y el coste de formación.
  • Estructurar formas de visualización efectivas.

Comencemos con el por qué necesitamos realizar la reducción de la dimensionalidad antes de analizar los datos y llegar a algunas inferencias. A menudo es necesario visualizar el conjunto de datos, para tener una idea de ello. Pero, hoy en día, los conjuntos de datos contienen muchas variables aleatorias, también llamadas características, debido a las cuales se hace difícil visualizar el conjunto de datos. Aquí es donde nos encontramos con la reducción de la dimensionalidad.

Como su nombre lo indica, la reducción de la dimensionalidad es el proceso de reducir el número de variables aleatorias del conjunto de datos bajo consideración, mediante la obtención de un conjunto de variables principales.

¿Por qué es importante la reducción de la dimensionalidad?

Considera este escenario en que necesitas muchas variables de indicadores en el conjunto de datos para alcanzar un resultado más preciso del modelo de Machine Learning, luego tiende a agregar tantas características como sea posible al principio. Sin embargo, después de cierto punto, el rendimiento del modelo disminuirá con el creciente número de elementos. Este fenómeno se conoce como “la maldición de la dimensionalidad”.

La maldición de la dimensionalidad ocurre porque la densidad de la muestra disminuye exponencialmente con el aumento de la dimensionalidad. Cuando seguimos añadiendo características sin aumentar el número de muestras de entrenamiento, la dimensionalidad del espacio de características crece y se vuelve más y más dispersa. Debido a esta escasez, resulta mucho más fácil encontrar una solución perfecta para el modelo de Machine Learning, lo que muy probablemente conduce a un sobreajuste.

El sobreajuste ocurre cuando el modelo se corresponde demasiado con un conjunto particular de datos y no se generaliza bien. Un modelo sobredimensionado funcionaría demasiado bien en el conjunto de datos de formación para que falle en datos futuros y haga que la predicción sea poco fiable.

Entonces, ¿cómo podríamos superar la maldición de la dimensionalidad y evitar el sobreajuste, especialmente cuando tenemos muchas características y comparativamente pocas muestras de entrenamiento? Aquí es donde las técnicas de reducción de la dimensionalidad vienen a rescatarte. En términos generales, la reducción de la dimensionalidad tiene dos clases: eliminación de características y la extracción de características.

  • Eliminación de la característica: es la eliminación de algunas variables completamente si son redundantes con alguna otra variable o si no están proporcionando ninguna información nueva sobre el conjunto de datos. La ventaja de la eliminación de características es que es fácil de implementar y hace que nuestro conjunto de datos sea pequeño, incluyendo solo las variables en las que estamos interesados. Pero como desventaja, podríamos perder algo de información de las variables que dejamos de evaluar.
  • Extracción de variables: es la formación de nuevas variables a partir de las antiguas. Digamos que tienes 29 variables en un conjunto de datos, entonces la técnica de extracción de características creará 29 nuevas variables que son combinaciones de 29 variables antiguas. PCA es el ejemplo de uno de estos métodos de extracción de características.

En la siguiente figura se muestra la clasificación de las diferentes técnicas de reducción de la dimensionalidad.

1

Selección de Características

Ratio de valores perdidos

Es poco probable que las columnas de datos con demasiados valores faltantes contengan mucha información útil. De este modo, se pueden eliminar las columnas de datos con una relación de valores que faltan superior a un umbral determinado. Cuanto más alto sea el umbral, más agresiva será la reducción.

Filtro de baja varianza

Al igual que la técnica anterior, las columnas de datos con pocos cambios en los datos contienen poca información. De este modo, se pueden eliminar todas las columnas de datos con una desviación inferior a un umbral determinado. Observa que la varianza depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta técnica.

Filtro de alta correlación

Es probable que las columnas de datos con tendencias muy similares también contengan información muy similar, y solo una de ellas bastará para la clasificación. Aquí calculamos el coeficiente de correlación de Pearson entre columnas numéricas y el valor de chi-cuadrado de Pearson entre columnas nominales. Para la clasificación final, solo retenemos una columna de cada par de columnas cuya correlación por pares excede un umbral dado. Nótese que la correlación depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta técnica.

Bosques aleatorios

Los bosques aleatorios, son útiles para la selección de columnas, además de ser clasificadores eficaces. Aquí generamos un conjunto grande y cuidadosamente construido de árboles para predecir las clases objetivo y luego usamos las estadísticas de uso de cada columna para encontrar el subconjunto más informativo de columnas. Generamos un gran conjunto de árboles muy poco profundos, y cada árbol se entrena en una pequeña fracción del número total de columnas. Si una columna se selecciona a menudo como la mejor división, es muy poco probable que sea una columna informativa que debemos mantener. Para todas las columnas, calculamos una puntuación como el número de veces que la columna fue seleccionada para la división, dividido por el número de veces que fue un candidato. Las columnas más predictivas son las que tienen las puntuaciones más altas.

Eliminación de características hacia atrás

En esta técnica, en una iteración dada, el algoritmo de clasificación seleccionado se entrena en n columnas de entrada. Luego eliminamos una columna de entrada a la vez y entrenamos el mismo modelo en las columnas n-1. Se elimina la columna de entrada cuya eliminación ha producido el menor aumento en la tasa de error, lo que nos deja con las columnas de entrada n-1. A continuación, se repite la clasificación utilizando columnas n-2, y así sucesivamente. Cada iteración k produce un modelo entrenado en columnas n-k y una tasa de error e(k). Seleccionando la tasa de error máxima tolerable, definimos el menor número de columnas necesarias para alcanzar ese rendimiento de clasificación con el algoritmo de Machine Learning seleccionado.

Construcción de característica secuencial hacia adelante

Este es el proceso inverso a la eliminación de características hacia atrás. Comenzamos con una sola columna, añadiendo progresivamente una columna a la vez, es decir, la columna que produce el mayor aumento en el rendimiento. Ambos algoritmos, la eliminación de característica hacia atrás y este son bastante costosos en términos de tiempo y cálculo. Solo son prácticos cuando se aplican a un conjunto de datos con un número relativamente bajo de columnas de entrada.

Métodos de reducción de la dimensionalidad lineal

Los métodos de reducción de la dimensionalidad más comunes y conocidos son los que aplican transformaciones lineales, como por ejemplo los siguientes.

Análisis factorial

Esta técnica se utiliza para reducir un gran número de variables a un menor número de factores. Los valores de los datos observados se expresan como funciones de varias causas posibles para encontrar las más importantes. Se supone que las observaciones son causadas por una transformación lineal de los factores latentes de dimensiones inferiores y por el ruido gaussiano añadido.

Análisis de componentes principales (PCA)

Es un procedimiento estadístico que transforma ortogonalmente las n dimensiones numéricas originales de un conjunto de datos en un nuevo conjunto de n dimensiones llamadas componentes principales. Como resultado de la transformación, el primer componente principal tiene la mayor varianza posible. Cada componente principal subsiguiente tiene la mayor varianza posible bajo la restricción de que es ortogonal a los componentes principales precedentes, es decir, no está correlacionado con ellos. Mantener solo los primeros m < n componentes principales reduce la dimensionalidad de los datos, al tiempo que conserva la mayor parte de la información de los datos, es decir, la variación en los datos. Nota que la transformación PCA es sensible a la escala relativa de las columnas originales y, por lo tanto, los datos necesitan ser normalizados antes de aplicar PCA. Observa también que las nuevas coordenadas ya no son variables reales producidas por el sistema. La aplicación de PCA al conjunto de datos pierde su capacidad de interpretación. Si la interpretación de los resultados es importante para su análisis, la PCA no es la transformación que debes aplicar.

Análisis discriminante lineal (LDA)

Proyecta los datos de forma que se maximiza la separabilidad de clases. Los ejemplos de la misma clase se ponen muy juntos en la proyección. Ejemplos de diferentes clases son colocados muy lejos por la proyección.

Métodos de reducción de la dimensionalidad no lineal

Los métodos de transformación no lineal o los métodos de aprendizaje múltiple se utilizan cuando los datos no se encuentran en un espacio lineal. Se basa en la hipótesis de que, en una estructura de alta dimensión, la información más relevante se concentra en un pequeño número de colectores de baja dimensión. Si un subsespacio lineal es una hoja de papel plana, entonces una hoja de papel enrollada es un ejemplo simple de un colector no lineal. Algunos de los métodos de aprendizaje más populares son los siguientes.

Escala multidimensional (MDS)

Una técnica utilizada para analizar la similitud o disimilitud de los datos como distancias en un espacio geométrico. Proyecto los datos a una dimensión inferior de manera que los puntos de datos que están cerca unos de otros, en términos de distancia euclidiana, en la dimensión superior también estén cerca en la dimensión inferior.

Mapeo de características isométricas (Isomap)

Proyecta los datos a una dimensión inferior al tiempo que preserva la distancia geodésica, en lugar de la distancia euclidiana como en el MDS. La distancia geodésica es la distancia más corta entre dos puntos de una curva.

Incrustación localmente lineal (LLE)

Recupera la estructura global no lineal de los ajustes lineales. Cada parche local del colector puede escribirse como una suma lineal y ponderada de sus vecinos con datos suficientes.

Mapas Hessien (HLLE)

Proyecto los datos a una dimensión más baja mientras preserva el vecindario local como LLE, pero utiliza el operador Hessian para lograr mejorar este resultado y de ahí el nombre.

Incrustación espectral (Mapas laplacianos)

Utiliza técnicas espectrales para realizar la reducción de la dimensionalidad mediante el mapeo de entradas cercanas a salidas cercanas. Preserva la localidad más que la linealidad local.

Incrustación de vecinos estocásticos distribuidos en t (t-SNE)

Calcula la probabilidad de que pares de puntos de datos en el espacio de alta dimensión estén relacionados y luego elige una inserción de baja dimensión que produce una distribución similar.

La reducción de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que trabajamos, todo dependerá la situación.

Con esto finalizamos la explicación. Ya conoces un poco más sobre la reducción de la dimensionalidad y qué métodos utilizar para cumplir con este propósito, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?

Opción 1: Cuando se dispone un conjunto de datos de bastante características se puede utilizar la reducción de la dimensionalidad para poder graficar los datos.

Respuesta Correcta.

Opción 2: La reducción de la dimensionalidad se divide en dos clases, la eliminación de las características y la extracción de variables.

Respuesta Correcta.

Opción 3: La reducción de la dimensionalidad se debe aplicar en todos los conjuntos de datos que se vayan a utilizar en Machine Learning.

Respuesta Incorrecta. La reducción de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que trabamos, todo dependerá la situación.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *