Aunque un algoritmo no siempre será mejor que otro, hay algunas propiedades de cada algoritmo que podemos usar como guía para seleccionar el correcto de forma rápida y para ajustar los parámetros hiperactivos. Por lo tanto, la elección correcta del algoritmo a menudo permanece poco clara a menos que probemos nuestros algoritmos directamente a través de un simple ensayo y error.
En esta entrada verás algunos algoritmos de Machine Learning para problemas de clasificación y podrás establecer las pautas para cuando usarlos según sus fortalezas y debilidades.
Regresión Logística
Definición
La Regresión Logística es el análisis de regresión apropiado para realizar cuando la variable dependiente es binaria. Como todos los análisis de regresión, la regresión logística es un análisis predictivo. Se utiliza para describir datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes nominales, ordinales, de intervalo o de nivel de razón.
Ventajas
- Fácil de entender y explicar
- Rara vez existe sobreajuste
- El uso de la regularización es efectivo en la selección de funciones.
- Rápido para entrenar.
- Fácil de entrenar sobre grandes datos gracias a su versión estocástica.
Desventajas
- Tienes que trabajar duro para que se ajuste a los datos no lineales.
- Puede sufrir con valores atípicos.
- En algunas ocasiones es muy simple para captar relaciones complejas entre variables.
Son útiles
- Ordenar los resultados por probabilidad
- Modelado de respuestas de marketing
K Vecinos más Cercanos Clasificación
Definición
K Vecinos más cercanos es un algoritmo de Machine Learning muy simple, fácil de entender, versátil. Esta basado en la similitud de características. Es un algoritmo no paramétrico que significa que no hace suposiciones para la distribución de datos subyacente. En otras palabras, la estructura modelo determinada a partir del set de datos. Es un algoritmo perezoso, es decir que no necesita puntos de datos de entrenamiento para la generación de modelos.
Ventajas
- Simple
- Potente
- Entrenamiento rápido
- Puede manejar naturalmente problemas extremos de multiclases, como etiquetado de texto.
Desventajas
- Costoso y lento para predecir nuevas instancias.
- Se debe definir una función de distancia significativa.
- Funciona mal en conjuntos de datos de alta dimensionalidad.
Son útiles
- Conjuntos de datos de baja dimensión
- Visión por computador
- Seguridad informática: detección de intrusos
- Detección de fallos en la fabricación de semiconductores
- Sistema de recomendación
- Problemas de corrección ortográfica
- Recuperación de contenido de video
Máquines Vectores de Soporte Clasificación
Definción
Se basa en la construcción de un hiperplano óptimo en forma de superficie de decisión, de modo que el margen de separación entre las dos clases en los datos se amplía al máximo. Los vectores de soporte hacen referencia a un pequeño subconjunto de las observaciones de entrenamiento que se utilizan como soporte para la ubicación óptima de la superficie de decisión.
Ventajas
- Se pueden modelar relaciones complejas, no lineales.
- Robusto al ruido, esto se debe a que maximizan los márgenes.
Desventajas
- Necesidad de seleccionar una buena función de kernel.
- Los parámetros del modelo son difíciles de interpretar.
- Requiere memoria significativa y poder de procesamiento.
- Cuando se tiene muchos datos toma demasiado tiempo para entrenar.
Son útiles
- Clasificación de texto e imágenes.
- Reconocimiento de escritura a mano.
Naive Bayes
Definición
Un clasificador Naive Bayes es un modelo probabilístico de Machine Learning que se utiliza para las tareas de clasificación. Este algoritmo clasificador se basa en el teorema de Bayes.
Ventajas
- Fácil y rápido de implementar.
- No requiere demasiada memoria y se puede utilizar para el aprendizaje en línea.
- Fácil de entender.
Desventajas
- Falla al estimar las características raras.
- Sufre al tener características irrelevantes.
Son útiles
- Reconocimiento de rostros
- Análisis de los sentimientos
- Detección de spam
- Clasificación de textos
Árboles de Decisión Clasificación
Definición
Dado un conjunto de datos se fabrican diagramas de construcción lógicas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema.
Ventajas
- Muy fácil de interpretar y entender.
- Rápido.
- Robusto al ruido y valores perdidos.
- Preciso
- Excelente para aprender relaciones complejas, altamente no lineales. Por lo general, pueden lograr un rendimiento bastante alto.
Desventajas
- Los árboles complejos son difíciles de interpretar.
- Es posible la duplicación dentro del mismo subárbol.
- En ocasiones no es utilizado por ser un algoritmo tan sencillo y no tan poderoso para datos complejos.
Son útiles
- Diagnóstico médico.
- Análisis de riesgo crediticio.
Bosques Aleatorios Clasificación
Definición
Es una combinación árboles de decisión tal que cada árbol depende de los valores de un vectores aleatorio probado indpendientemente y con la misma distribución para cada uno de estos.
Ventajas
- Puede trabajar en paralelo.
- Rara vez se sobreajusta.
- Maneja automáticamente los valores perdidos.
- No es necesario transformar ninguna variable.
- No hay necesidad de ajustar parámetros.
- Puede ser utilizado por casi cualquier persona con excelentes resultados.
Desventajas
- Difícil de interpretar.
- Parcialmente en problemas multiclase hacia clases más frecuentes.
Son útiles
- Para casi cualquier problema de Machine Learning.
- Bioinformática.
Estos son solo algunas ventajas de desventajas de los algoritmos de Machine Learning para clasificación, esta información te puede ser bastante útil al momento de desarrollar tus proyectos.