¿Cómo se utiliza la probabilidad en Machine Learning?
Cuando comienzas a aprender los algoritmos de Machine Learning es normal hacerlo sin comprender los temas relacionados a la probabilidad que está detrás de ella, pero a medida que avanzas con algoritmos más complejos esto puede obligarte a revisar los fundamentos.
Estos conceptos pueden parecer complejos, pero precisamente en esta publicación quiero simplificar los mismos y ayudarte a entender la importancia que tiene la probabilidad dentro de Machine Learning.
La importancia que tiene la probabilidad es que proporciona un medio para cuantificar la incertidumbre y también proporciona una forma para derivar nuevas afirmaciones inciertas.
Las leyes de la probabilidad pueden indicarnos cómo deben razonar los algoritmos de Machine Learning.
Por lo tanto, la teoría de la probabilidad nos da la capacidad de razonar ante la incertidumbre.
Y la incertidumbre puede provenir por distintas fuentes, desde la estocasticidad del sistema que se modela, el no poder observar todas las variables que afectan a un mercado concreto en un momento determinado y inclusive cuando tenemos una modelización incompleta ya que el modelo descarta parte de la información observada porque el sistema es demasiado complejo.
La probabilidad puede calcularse mediante el número de veces que se produce el suceso dividido por el número total de resultados posibles y siempre se sitúa entre 0 y 1.
Variables aleatorias
Como su nombre lo indica, una variable aleatoria no es más que una variable que puede tomar diferentes valores de forma aleatoria.
Las variables aleatorias pueden ser variables discretas o continuas. Las variables discretas toman un conjunto finito de valores, mientras que una variable continua toma un número infinito de valores.
En probabilidad, definimos la probabilidad de las variables discretas utilizando la función de masa de probabilidad. Los tres criterios para que una variable aleatoria discreta sea una función de masa de probabilidad incluyen:
- El dominio de la distribución de probabilidad P debe ser el conjunto de los estados posibles de x.
- La distribución de probabilidad está comprendida entre 0 y 1.
- La suma de las probabilidades es igual a 1, esto se conoce como estar normalizado.
Por otra parte, para las variables continuas puede definirse mediante la función de densidad de probabilidad. Este es el tipo de distribución de probabilidad que verás de forma omnipresente en la investigación de Machine Learning. Para ser una función de densidad de probabilidad necesita satisfacer 3 criterios:
- El dominio de p debe ser el conjunto de todos los estados posibles de x.
- Para variables continuas podemos tener probabilidades superiores la 100%
- En lugar de la suma utilizamos una integral para normalizar.
Distribuciones de probabilidad
La distribución de probabilidad define la probabilidad de los posibles valores que puede tomar una variable aleatoria.
Si quieres determinar la distribución de probabilidad en dos o más variables aleatorias, utilizamos la distribución de probabilidad conjunta. Para un atributo de datos típico en Machine Learning, tenemos múltiples valores posibles.
En caso de quieras definir la distribución de probabilidad solo en un subconjunto de variables, utilizamos la distribución de probabilidad marginal. Esto es útil si quieres estimar la probabilidad solo en un conjunto específico de variables de entrada (X) cuando se dan los otros valores de salida (y).
Expectativa, varianza y covarianza
Conociendo los tipos de probabilidad, ahora es bueno conocer los conceptos introductorios de la teoría de la probabilidad y las distribuciones de probabilidad, como lo son la expectativa, la varianza y la covarianza.
Comencemos con la expectativa o el valor esperado, que es la medida de muchas repeticiones de un evento. En la práctica, ayuda a determinar si hay que participar en un evento determinado.
Una variable puede tomar varios valores posibles (probabilidades), cada uno de los cuales lleva aparejada una probabilidad. Sumando estos datos es una sola variable se obtiene la expectativa.
Por otro lado, la varianza, define cómo varía el resultado de un suceso a medida que los valores, que influyen en el suceso, son elegidos de una distribución de probabilidad. Define cómo difiere un valor de los demás, o en términos sencillos, la variabilidad del conjunto de datos.
Finalmente tenemos la covarianza, que define la relación lineal entre dos variables. Si es positiva, ambas variables tienden a tomar valores más altos y si es negativa, cuando una variable toma un valor más alto, la otra toma un valor más bajo.
Tipos de distribuciones de probabilidad
A continuación, se explica las distribuciones que se encuentran comúnmente en Machine Learning.
- Distribución de Bernoulli: es una distribución sobre una única variable aleatoria binaria. Suele estar relacionada con un escenario de Verdadero/Falso o de clasificación.
- Distribución Multinomial: es el caso en el que una sola variable puede tener múltiples resultados. Es el paso de binario a varias categorías. Cuando se trata de un problema de multiclasificación, esta distribución es la que se utiliza.
- Distribución Gaussiana: está es la distribución comúnmente utilizada en Machine Learning y es la distribución más común sobre los números reales. Esta distribución induce la máxima incertidumbre en los datos y requiere un conocimiento previo, ya que solo puede definirse utilizando la media y la varianza de los datos.
- Distribución exponencial: se refiere a tiempo que transcurre hasta que se produce un evento.
- Distribución de Laplace: es la misma que la distribución exponencial, excepto que el punto agudo no tiene que estar en el punto x = 0, sino en otro punto.
Las distribuciones exponenciales y de Laplace no aparecen con tanta frecuencia en la naturaleza como la distribución gaussiana, pero sí aparecen con bastante frecuencia en Machine Learning.
En estos momentos tienes un conocimiento bases sobre la teoría de la probabilidad que se utilizan dentro del campo de Machine Learning. La probabilidad es crucial para Machine Learning porque las leyes de la probabilidad pueden indicar a nuestros algoritmos cómo deben razón ante la incertidumbre.
Por supuesto, hay mucho más que aprender sobre cada uno de estos temas, pero el objetivo acá fue proporcionarte una visión general de los conceptos más importantes de la teoría de la probabilidad que surgen en Machine Learning.
interesante tema de las probabilidades, estoy interesado en pronostico de calidad del aire aplicando IA