¿Cómo se utiliza las estadísticas en Machine Learning?
Tabla de contenidos
La estadística es un componente esencial de Machine Learning. Te ayuda a analizar y visualizar los datos para encontrar patrones no vistos. De igual forma, se utiliza para analizar los datos brutos, construir modelos de datos e inferir resultados.
En el caso que estés interesado en Machine Learning, aprender estadística debería ser uno de los primeros pasos. Por lo que en este artículo aprenderás todos los conceptos básicos de la estadística para Machine Learning.
La estadística es un conjunto de métodos y herramientas matemáticas que nos permiten responder a preguntas importantes sobre los datos. Se ocupa de recoger, analizar, interpretar y visualizar datos empíricos.
Se divide en dos categorías:
- Estadística descriptiva: ofrece métodos para resumir los datos transformando las observaciones en bruto en información significativa que es fácil de interpretar y compartir.
- Estadística inferencial: ofrece métodos para estudiar los experimentos realizados con pequeñas muestras de datos y hacer inferencias a toda la población o todo el dominio.
La estadística y Machine Learning son dos áreas de estudio estrechamente relacionadas, ya que nos ayuda a seleccionar, evaluar e interpretar los modelos predictivos.
Algunos de los otros usos que tiene la estadística dentro de Machine Learning son:
- Hacer preguntas sobre los datos
- Limpiar y preprocesar los datos
- Seleccionar las características adecuadas
- Evaluar y predecir el modelo
Sabiendo todo esto, es buen momento para profundizar en el aprendizaje de todos los conceptos cruciales relacionados con la estadística para Machine Learning.
Tipos de datos
Hay 2 tipos de datos que necesitamos manejar y analizar los datos numéricos y categóricos.
Los datos numéricos son simplemente números o enteros que se dividen en 2 categorías: las variables numéricas discretas, se refieren a aquellos valores que tienen un rango finito y las variables numéricas continua, que se refiere a los valores que tienen un rango infinito.
Por otro lado, los datos categóricos son categorías o cadenas de programación. De igual forma se dividen en 2 categorías: las variables ordinales, en donde los valores se pueden clasificar entre cualquier rango y las variables nominales, que consisten en variables que no se pueden clasificar, simplemente contienen nombres o números de categorías.
Medidas de tendencia central
Las medidas de tendencia central son las que se utilizan para describir la distribución de los datos con un único valor. Contiene varios términos como la media, la mediana y la moda
Comencemos explicando la media.
La media es el promedio de todos los números de una variable numérica en particular. Cuando los conjuntos de datos que estamos utilizando contienen valores atípicos, no se recomienda encontrar la media y utilizarla en cualquier tipo de manipulación, ya que un solo valor atípico afecta a la media.
Por su parte, la mediana es el valor medio que divide los datos en dos partes iguales una vez que ordena los datos en orden ascendente. No depende ni afecta a los valores atípicos hasta que la mitad de los datos no se convierten en atípicos.
Finalmente tenemos el modo, este representa la observación más frecuente en una variable numérica. Toma en cuenta que puede haber más de un modo en un conjunto de datos.
Medidas de dispersión
Las medidas de dispersión ayudan a comprender la dispersión de los datos, es decir, dónde están más dispersos los datos, positivo, negativo o centro. Las medidas de dispersión son las siguientes:
- Rango: describe la diferencia entre el punto más grande y el más pequeño de los datos
- Percentiles: indica el valor por debajo del cual cae un determinado porcentaje de observaciones en un grupo de observaciones.
- Cuartiles: valores que dividen una lista de números en cuartos.
- Rango intercuartil: es una medida de dispersión entre los cuartiles superior (75) e inferior (25). Este es un término muy importante en la estadística que se utiliza en la mayoría de los cálculos y el preprocesamiento de datos como el tratamiento de los valores atípicos.
- Desviación media absoluta: describe la variación en el conjunto de datos. Indica la distancia media absoluta de cada punto del conjunto.
- Varianza: se utiliza para medir la variabilidad de los datos con respecto a la media.
- Desviación estándar: esta es simplemente la raíz cuadrada de la varianza.
Tanto la varianza como la desviación estándar representan las medidas de ajuste, es decir, lo bien que la media representa los datos.
Distribución gaussiana o normal
En estadística y probabilidad, la distribución gaussiana es una popular distribución de probabilidad continua para cualquier variable aleatoria. Se caracteriza por 2 parámetros: la media y la desviación estándar. La mayoría de los conjuntos de datos en Machine Learning siguen este tipo de distribución.
Las propiedades que tienen la distribución gaussiana son:
- La media, la mediana y la moda son iguales
- Tiene una forma de campana simétrica
- El 68% de los datos se encuentra dentro de una desviación estándar de la media.
- El 95% de los datos se encuentran dentro de 2 desviaciones estándar de la media.
- El 99,7% de los datos se sitúan dentro de las 3 desviaciones estándar de la media.
La estadística es un componente esencial de Machine Learning. Ayuda a sacar conclusiones significativas mediante el análisis de los datos en bruto. Acá has podido aprender sobre la misma y la importancia que tiene dentro de Machine Learning.
También ya conoces los tipos de estadísticas, cuáles son los tipos de datos que tratamos y los términos básicos que requerimos para realizar algunas operaciones para entender la naturaleza de los datos. Esta es solo una explicación básica sobre estos temas, todavía hay mucho más por aprender acá.