Regresión Logística – Teoría
Las técnicas de clasificación son una parte esencial de Machine Learning, ya que aproximadamente el 70% de los problemas son de clasificación. Hay muchos algoritmos de clasificación, pero la Regresión Logística es común y es un método de regresión útil para resolver problemas de clasificación binaria.
Definición
La regresión logística o Logistic Regression es un algoritmo de clasificación que se utiliza para predecir la probabilidad de una variable dependiente categórica. En la regresión logística, la variable dependiente es una variable binaria que contiene datos codificados como 1 – 0, sí – no, abierto – cerrado, etc.
El resultado o variable objetivo es de naturaleza dicotómica. Dicotómica significa que solo hay dos clases posibles. Por ejemplo, se puede utilizar para problemas de detección de cáncer o calcular la probabilidad de que ocurra un evento.
La regresión logística es uno de los algoritmos de Machine Learning más simples y más utilizados para la clasificación de dos clases. Es fácil de implementar y se puede usar como línea de base para cualquier problema de clasificación binaria. Describe y estima la relación entre una variable binaria dependiente y las variables independientes.
Este modelo logístico binario se utiliza para estimar la probabilidad de una respuesta binaria basada en una o más variables predictoras o independientes. Permite decir que la presencia de un factor de riesgo aumenta la probabilidad de un resultado dado un porcentaje específico.
Como todos los análisis de regresión, la regresión logística es un análisis predictivo. Se usa para describir datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes nominales, ordinales, de intervalo o de nivel de razón.
En general, este algoritmo se puede utilizar para varios problemas de clasificación, como la detección de spam, predicción de la diabetes, si un cliente determinado comprará un producto en particular o si se irá con la competencia, hay muchos más ejemplos en donde se puede aplicar este algoritmo.
La razón por la cual la regresión logística es ampliamente utilizada, a pesar de los algoritmos avanzados como redes neuronales profunda, es porque es muy eficiente y no requiere demasiados recursos computacionales que hacen que sea asequibles ejecutar la producción.
Representación matemática de los vectores de soporte regresión
La Regresión Logística lleva el nombre de la función utilizada en el núcleo del método, la función logística es también llamada función Sigmoide. Esta función es una curva en forma de S que puede tomar cualquier número de valor real y asignar a un valor entre 0 y 1.
Si la curva va a infinito positivo la predicción se convertirá en 1, y si la curva pasa el infinito negativo, la predicción se convertirá en 0. Si la salida de la función Sigmoide es mayor que 0.5, podemos clasificar el resultado como 1 o SI, y si es menor que 0.5 podemos clasificarlo como 0 o NO. Por su parte si el resultado es 0.75, podemos decir en términos de probabilidad como, hay un 75% de probabilidades de que el paciente sufra cáncer.
Pero veamos este algoritmo de manera matemática, la ecuación de Regresión Lineal es está:
Donde “y” es la variable dependiente y “x1, x2, …” son variables independientes o explicativas.
Por su parte, la ecuación de la función Sigmoide es la siguiente:
Entonces si aplicamos la función Sigmoide en la Regresión Lineal nos quedaría algo como esto:
Características de la Regresión Logística
Algunas de las características que debes considerar para este algoritmo son las siguientes:
Variable de salida binaria. Esto puede ser obvio, pero la regresión logística está destinada a problemas de clasificación binarios (dos clases). Predicará la probabilidad de que una instancia pertenezca a la clase predeterminada, que puede dividirse en una clasificación 0 ó 1.
Eliminar ruido. La regresión logística no asume ningún error en la variable de salida (y). Considera la eliminación de los valores atípicos y posiblemente las instancias más clasificadas de sus datos de entrenamiento.
Distribución gaussiana. La regresión logística es un algoritmo lineal, con una transformación no lineal en la salida. Las transformaciones de datos de sus variables de entrada que exponen mejor esta relación lineal pueden dar como resultado un modelo más preciso.
Eliminar entradas correlacionadas. Al igual que la regresión lineal, el modelo puede sobreajustarse si tiene múltiples entradas altamente correlacionadas. Consideremos calcular las correlaciones por pares entre todas las entradas y eliminar las entradas altamente correlacionadas.
No se puede converger. Es posible que el proceso de estimación de probabilidad esperado aprenda que los coeficientes no convergen, esto puede suceder si hay muchas entradas altamente correlacionadas en sus datos o si los datos son muy escasos.
Diferencias entre Regresión Lineal y Regresión Logística
La Regresión Lineal proporciona una salida continua, pero la Regresión Logística proporciona una salida discreta. Un ejemplo de una salida continua es conocer el porcentaje de probabilidad de lluvia o el precio de una acción. Un ejemplo de una salida discreta, por su parte, es conocer si va a llover o no, o si el precio de una acción subirá o no.
Tipos de Regresión Logística
- Regresión Logística Binaria: la variable objetivo tiene solo dos resultados posible, Llueve o NO Llueve, Sube o Baja.
- Regresión Logística Multinomial: la variable objetivo tiene tres o más categorías nominales, como predecir el tipo de vino.
- Regresión Logística Ordinal: la variable objetivo tiene tres o más categorías ordinales, como clasificar un restaurante o un producto del 1 al 5.
En resumen la Regresión Logística es el algoritmo de Machine Learning más famoso después de la Regresión Lineal, es un algoritmo simple que se puede utilizar para tareas de clasificación binarias y multivariadas.
Respuesta a la pregunta del video
Opción 1: Predecir la temperatura de un lugar específico de acuerdo a los datos históricos. Respuesta Incorrecta. Con este algoritmo no se puede predecir la temperatura de un lugar ya que para ello se requiere utilizar un algoritmo de regresión y este es un algoritmo de clasificación.
Opción 2: Predecir si una acción de la bolsa de valores va a subir o bajar, utilizando los valores histórico. Respuesta Correcta. Con este algoritmo se puede predecir si una acción de la bolsa va a subir o bajar, ya que le predicción siempre será una de estas dos condiciones.
Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Correcta. Con este algoritmo se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que la predicción será una de estas dos condiciones.
Excelente educación. Gracias por enseñar.
Hola German, me alegro que la información que publico te este ayudando en tu aprendizaje. Saludos
Hola, muchas gracias por todos estos conocimientos que compartes. conoces herramientas de bajo código de pago o abierto, que permitan la identificación profesional de sonidos de aves, mamíferos y anfibios. Así como la identificación de imágenes de plantas y mamíferos. Si es posible con especies de Colombia. Has trabajado en alguno de estos campos? Me puedes regalar tu correo?
Hola German, la semana pasada publique una información de aplicaciones de bajo código o sin código que de repente te puede ayudar, te dejo acá la publicación: https://bit.ly/2HdlCJ0. Saludos.
Muchísimas gracias por esta información, se aprecia que se traiga en lengua castellana.
Hola Julian, me alegro que la información que publico te este ayudando en tu aprendizaje. Saludos
Hola una dua por favor, se empieza diciendo que la regresion logistica tiene variable dependiente dicotomica pero luego se indica q existe la regresion logistica binaria y multivariada y ésta última puede tener mas de 2 categorías. En ese caso ya no sería una variable dicotomica. Ahí no habría una incongruencia en la definición? Gracias.
Hola Liz, la regresión logística en su gran mayoría se utiliza para proyectos en donde solamente se tenga salidas binarias, y este es su principal uso, pero también se puede utilizar con salidas multivariada. Saludos
Hola una duda por favor, se empieza diciendo que la regresion logistica tiene variable dependiente dicotomica pero luego se indica q existe la regresion logistica binaria y multivariada y ésta última puede tener mas de 2 categorías. En ese caso ya no sería una variable dicotomica. Ahí no habría una incongruencia en la definición? Muchas Gracias.
Muchas gracias por compartir información me sirvió mucho para mi tarea
Hola Miri, me alegra que te haya gustado esta publicación, espero que te ayude en tu aprendizaje. Saludos.