En los problemas de Machine Learning y de la ciencia de datos, el objetivo principal sigue siendo encontrar las caracter铆sticas m谩s relevantes que juegan un papel dominante en la determinaci贸n e influencia de los resultados de la producci贸n.

En la mayor铆a de los problemas de ciencia de datos, el conjunto de datos est谩 sobrecargado con numerosas caracter铆sticas que dan como resultado un ajuste excesivo y aumentan los enormes costes de formaci贸n, lo que hace que el proceso sea considerablemente lento. Los algoritmos desarrollados a lo largo del tiempo tienen como objetivo resolver algunos de los problemas b谩sicos, incluyendo:

  • Reducir la dimensi贸n del conjunto de datos de formaci贸n restableciendo la varianza y manteniendo intacta la informaci贸n relevante.
  • Reducir el tiempo y el coste de formaci贸n.
  • Estructurar formas de visualizaci贸n efectivas.

Comencemos con el por qu茅 necesitamos realizar la reducci贸n de la dimensionalidad antes de analizar los datos y llegar a algunas inferencias. A menudo es necesario visualizar el conjunto de datos, para tener una idea de ello. Pero, hoy en d铆a, los conjuntos de datos contienen muchas variables aleatorias, tambi茅n llamadas caracter铆sticas, debido a las cuales se hace dif铆cil visualizar el conjunto de datos. Aqu铆 es donde nos encontramos con la reducci贸n de la dimensionalidad.

Como su nombre lo indica, la reducci贸n de la dimensionalidad es el proceso de reducir el n煤mero de variables aleatorias del conjunto de datos bajo consideraci贸n, mediante la obtenci贸n de un conjunto de variables principales.

驴Por qu茅 es importante la reducci贸n de la dimensionalidad?

Considera este escenario en que necesitas muchas variables de indicadores en el conjunto de datos para alcanzar un resultado m谩s preciso del modelo de Machine Learning, luego tiende a agregar tantas caracter铆sticas como sea posible al principio. Sin embargo, despu茅s de cierto punto, el rendimiento del modelo disminuir谩 con el creciente n煤mero de elementos. Este fen贸meno se conoce como 鈥渓a maldici贸n de la dimensionalidad鈥.

La maldici贸n de la dimensionalidad ocurre porque la densidad de la muestra disminuye exponencialmente con el aumento de la dimensionalidad. Cuando seguimos a帽adiendo caracter铆sticas sin aumentar el n煤mero de muestras de entrenamiento, la dimensionalidad del espacio de caracter铆sticas crece y se vuelve m谩s y m谩s dispersa. Debido a esta escasez, resulta mucho m谩s f谩cil encontrar una soluci贸n perfecta para el modelo de Machine Learning, lo que muy probablemente conduce a un sobreajuste.

El sobreajuste ocurre cuando el modelo se corresponde demasiado con un conjunto particular de datos y no se generaliza bien. Un modelo sobredimensionado funcionar铆a demasiado bien en el conjunto de datos de formaci贸n para que falle en datos futuros y haga que la predicci贸n sea poco fiable.

Entonces, 驴c贸mo podr铆amos superar la maldici贸n de la dimensionalidad y evitar el sobreajuste, especialmente cuando tenemos muchas caracter铆sticas y comparativamente pocas muestras de entrenamiento? Aqu铆 es donde las t茅cnicas de reducci贸n de la dimensionalidad vienen a rescatarte. En t茅rminos generales, la reducci贸n de la dimensionalidad tiene dos clases: eliminaci贸n de caracter铆sticas y la extracci贸n de caracter铆sticas.

  • Eliminaci贸n de la caracter铆stica: es la eliminaci贸n de algunas variables completamente si son redundantes con alguna otra variable o si no est谩n proporcionando ninguna informaci贸n nueva sobre el conjunto de datos. La ventaja de la eliminaci贸n de caracter铆sticas es que es f谩cil de implementar y hace que nuestro conjunto de datos sea peque帽o, incluyendo solo las variables en las que estamos interesados. Pero como desventaja, podr铆amos perder algo de informaci贸n de las variables que dejamos de evaluar.
  • Extracci贸n de variables: es la formaci贸n de nuevas variables a partir de las antiguas. Digamos que tienes 29 variables en un conjunto de datos, entonces la t茅cnica de extracci贸n de caracter铆sticas crear谩 29 nuevas variables que son combinaciones de 29 variables antiguas. PCA es el ejemplo de uno de estos m茅todos de extracci贸n de caracter铆sticas.

En la siguiente figura se muestra la clasificaci贸n de las diferentes t茅cnicas de reducci贸n de la dimensionalidad.

1

Selecci贸n de Caracter铆sticas

Ratio de valores perdidos

Es poco probable que las columnas de datos con demasiados valores faltantes contengan mucha informaci贸n 煤til. De este modo, se pueden eliminar las columnas de datos con una relaci贸n de valores que faltan superior a un umbral determinado. Cuanto m谩s alto sea el umbral, m谩s agresiva ser谩 la reducci贸n.

Filtro de baja varianza

Al igual que la t茅cnica anterior, las columnas de datos con pocos cambios en los datos contienen poca informaci贸n. De este modo, se pueden eliminar todas las columnas de datos con una desviaci贸n inferior a un umbral determinado. Observa que la varianza depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta t茅cnica.

Filtro de alta correlaci贸n

Es probable que las columnas de datos con tendencias muy similares tambi茅n contengan informaci贸n muy similar, y solo una de ellas bastar谩 para la clasificaci贸n. Aqu铆 calculamos el coeficiente de correlaci贸n de Pearson entre columnas num茅ricas y el valor de chi-cuadrado de Pearson entre columnas nominales. Para la clasificaci贸n final, solo retenemos una columna de cada par de columnas cuya correlaci贸n por pares excede un umbral dado. N贸tese que la correlaci贸n depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta t茅cnica.

Bosques aleatorios

Los bosques aleatorios, son 煤tiles para la selecci贸n de columnas, adem谩s de ser clasificadores eficaces. Aqu铆 generamos un conjunto grande y cuidadosamente construido de 谩rboles para predecir las clases objetivo y luego usamos las estad铆sticas de uso de cada columna para encontrar el subconjunto m谩s informativo de columnas. Generamos un gran conjunto de 谩rboles muy poco profundos, y cada 谩rbol se entrena en una peque帽a fracci贸n del n煤mero total de columnas. Si una columna se selecciona a menudo como la mejor divisi贸n, es muy poco probable que sea una columna informativa que debemos mantener. Para todas las columnas, calculamos una puntuaci贸n como el n煤mero de veces que la columna fue seleccionada para la divisi贸n, dividido por el n煤mero de veces que fue un candidato. Las columnas m谩s predictivas son las que tienen las puntuaciones m谩s altas.

Eliminaci贸n de caracter铆sticas hacia atr谩s

En esta t茅cnica, en una iteraci贸n dada, el algoritmo de clasificaci贸n seleccionado se entrena en n columnas de entrada. Luego eliminamos una columna de entrada a la vez y entrenamos el mismo modelo en las columnas n-1. Se elimina la columna de entrada cuya eliminaci贸n ha producido el menor aumento en la tasa de error, lo que nos deja con las columnas de entrada n-1. A continuaci贸n, se repite la clasificaci贸n utilizando columnas n-2, y as铆 sucesivamente. Cada iteraci贸n k produce un modelo entrenado en columnas n-k y una tasa de error e(k). Seleccionando la tasa de error m谩xima tolerable, definimos el menor n煤mero de columnas necesarias para alcanzar ese rendimiento de clasificaci贸n con el algoritmo de Machine Learning seleccionado.

Construcci贸n de caracter铆stica secuencial hacia adelante

Este es el proceso inverso a la eliminaci贸n de caracter铆sticas hacia atr谩s. Comenzamos con una sola columna, a帽adiendo progresivamente una columna a la vez, es decir, la columna que produce el mayor aumento en el rendimiento. Ambos algoritmos, la eliminaci贸n de caracter铆stica hacia atr谩s y este son bastante costosos en t茅rminos de tiempo y c谩lculo. Solo son pr谩cticos cuando se aplican a un conjunto de datos con un n煤mero relativamente bajo de columnas de entrada.

M茅todos de reducci贸n de la dimensionalidad lineal

Los m茅todos de reducci贸n de la dimensionalidad m谩s comunes y conocidos son los que aplican transformaciones lineales, como por ejemplo los siguientes.

An谩lisis factorial

Esta t茅cnica se utiliza para reducir un gran n煤mero de variables a un menor n煤mero de factores. Los valores de los datos observados se expresan como funciones de varias causas posibles para encontrar las m谩s importantes. Se supone que las observaciones son causadas por una transformaci贸n lineal de los factores latentes de dimensiones inferiores y por el ruido gaussiano a帽adido.

An谩lisis de componentes principales (PCA)

Es un procedimiento estad铆stico que transforma ortogonalmente las n dimensiones num茅ricas originales de un conjunto de datos en un nuevo conjunto de n dimensiones llamadas componentes principales. Como resultado de la transformaci贸n, el primer componente principal tiene la mayor varianza posible. Cada componente principal subsiguiente tiene la mayor varianza posible bajo la restricci贸n de que es ortogonal a los componentes principales precedentes, es decir, no est谩 correlacionado con ellos. Mantener solo los primeros m < n componentes principales reduce la dimensionalidad de los datos, al tiempo que conserva la mayor parte de la informaci贸n de los datos, es decir, la variaci贸n en los datos. Nota que la transformaci贸n PCA es sensible a la escala relativa de las columnas originales y, por lo tanto, los datos necesitan ser normalizados antes de aplicar PCA. Observa tambi茅n que las nuevas coordenadas ya no son variables reales producidas por el sistema. La aplicaci贸n de PCA al conjunto de datos pierde su capacidad de interpretaci贸n. Si la interpretaci贸n de los resultados es importante para su an谩lisis, la PCA no es la transformaci贸n que debes aplicar.

An谩lisis discriminante lineal (LDA)

Proyecta los datos de forma que se maximiza la separabilidad de clases. Los ejemplos de la misma clase se ponen muy juntos en la proyecci贸n. Ejemplos de diferentes clases son colocados muy lejos por la proyecci贸n.

M茅todos de reducci贸n de la dimensionalidad no lineal

Los m茅todos de transformaci贸n no lineal o los m茅todos de aprendizaje m煤ltiple se utilizan cuando los datos no se encuentran en un espacio lineal. Se basa en la hip贸tesis de que, en una estructura de alta dimensi贸n, la informaci贸n m谩s relevante se concentra en un peque帽o n煤mero de colectores de baja dimensi贸n. Si un subsespacio lineal es una hoja de papel plana, entonces una hoja de papel enrollada es un ejemplo simple de un colector no lineal. Algunos de los m茅todos de aprendizaje m谩s populares son los siguientes.

Escala multidimensional (MDS)

Una t茅cnica utilizada para analizar la similitud o disimilitud de los datos como distancias en un espacio geom茅trico. Proyecto los datos a una dimensi贸n inferior de manera que los puntos de datos que est谩n cerca unos de otros, en t茅rminos de distancia euclidiana, en la dimensi贸n superior tambi茅n est茅n cerca en la dimensi贸n inferior.

Mapeo de caracter铆sticas isom茅tricas (Isomap)

Proyecta los datos a una dimensi贸n inferior al tiempo que preserva la distancia geod茅sica, en lugar de la distancia euclidiana como en el MDS. La distancia geod茅sica es la distancia m谩s corta entre dos puntos de una curva.

Incrustaci贸n localmente lineal (LLE)

Recupera la estructura global no lineal de los ajustes lineales. Cada parche local del colector puede escribirse como una suma lineal y ponderada de sus vecinos con datos suficientes.

Mapas Hessien (HLLE)

Proyecto los datos a una dimensi贸n m谩s baja mientras preserva el vecindario local como LLE, pero utiliza el operador Hessian para lograr mejorar este resultado y de ah铆 el nombre.

Incrustaci贸n espectral (Mapas laplacianos)

Utiliza t茅cnicas espectrales para realizar la reducci贸n de la dimensionalidad mediante el mapeo de entradas cercanas a salidas cercanas. Preserva la localidad m谩s que la linealidad local.

Incrustaci贸n de vecinos estoc谩sticos distribuidos en t (t-SNE)

Calcula la probabilidad de que pares de puntos de datos en el espacio de alta dimensi贸n est茅n relacionados y luego elige una inserci贸n de baja dimensi贸n que produce una distribuci贸n similar.

La reducci贸n de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que trabajamos, todo depender谩 la situaci贸n.

Con esto finalizamos la explicaci贸n. Ya conoces un poco m谩s sobre la reducci贸n de la dimensionalidad y qu茅 m茅todos utilizar para cumplir con este prop贸sito, por lo tanto te dejo la siguiente pregunta, 驴Cu谩les de las siguientes afirmaciones crees t煤 que sea cierta?

Opci贸n 1: Cuando se dispone un conjunto de datos de bastante caracter铆sticas se puede utilizar la reducci贸n de la dimensionalidad para poder graficar los datos.

Respuesta Correcta.

Opci贸n 2: La reducci贸n de la dimensionalidad se divide en dos clases, la eliminaci贸n de las caracter铆sticas y la extracci贸n de variables.

Respuesta Correcta.

Opci贸n 3: La reducci贸n de la dimensionalidad se debe aplicar en todos los conjuntos de datos que se vayan a utilizar en Machine Learning.

Respuesta Incorrecta. La reducci贸n de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que trabamos, todo depender谩 la situaci贸n.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.