Nuestras computadoras son capaces de ejecutar muchos programas y aplicaciones diferentes. Sin embargo, cuando quieras crear o escribir tu propio programa como, por ejemplo, construir un proyecto de Machine Learning, es importante configurar tu computador de la forma correcta.
Digamos que quieres trabajar con un conjunto de datos de registros de viviendas en ventas para tratar de predecir el monto en que puedas vender una nueva casa. Necesitarás algunas herramientas para hacer esto.
Una para explorar los datos, otra para hacer un modelo de predicción, una para hacer gráficos para presentar los hallazgos a los demás y otra más para realizar experimentos y juntar a todas las demás.
Precisamente aquí es donde entra Anaconda, una herramienta que te ayuda a manejar tus estas herramientas.
Anaconda es una asombrosa colección de paquetes científicos, herramientas, recursos e IDEs. Este paquete incluye muchas herramientas importantes que un Científico de Datos puede usar para aprovechar.
La edición individual de Anaconda es gratuita y de código abierto. Esto hace que trabajar con ella sea accesible y fácil. Solo tiene que ir a la página web y descarga la distribución.
Definición
Anaconda es una distribución de software, viene con más de 150 paquetes de Ciencia de Datos.
Anaconda, puede pensarse en el almacén de hardware de los Científicos de Datos. Tiene todo lo que necesita. Desde paquetes para explotar conjuntos de datos, paquetes para modelarlos, a paquetes para visualizar lo que has encontrado. Todo el mundo puede acceder a Anaconda y a todos los paquetes que hay dentro.
Un paquete es un pedazo de código que alguien ha escrito y que puede ser ejecutado y a menudo sirve para un propósito específico. Puedes considerar un paquete como una herramienta que puedes usar para tus propios proyectos.
Los paquetes son útiles porque sin ellos, tendrías que escribir mucho más código para conseguir lo que necesitas. Dado que muchas personas tienen problemas similares, a menudo encontrarás un grupo de personas que han escrito código para ayudar a resolver su problema y lo han liberado como un paquete.
Por ejemplo, Conda es un gestor de paquetes. Te ayuda a cuidar de tus diferentes paquetes, encargándose de la instalación, actualización y eliminación de los mismos.
Conda ayuda a organizar todos los paquetes. Aunque Anaconda viene con muchos de ellos listos para usar, a veces necesitarás ser cambiados. Conda es como el asistente que hace un inventario de todos los paquetes.
Este no es el único gestor de paquetes, también está pip, pipeny, y otros más.
Navegador de Anaconda
Dentro del Navegador de Anaconda encontramos varias aplicaciones que podemos utilizar, a continuación, se explican cada una de ellas,
Jupyter Notebook
Este es un software de código abierto que permite a los Científicos de Datos realizar flujos de trabajo y realizar eficazmente soluciones científicas y computacionales. Con un énfasis en la presentación y la legibilidad, Jupyter Notebook es una opción inteligencia para proyectos de colaboración y publicaciones perspicaces. Jupyter Notebook es de código abierto y desarrollado en GitHub públicamente por la comunidad Jupyter.
PyCharm
Un IDE Python de primera categoría que está lleno de características y paquetes preinstalados. Con una cómoda gestión de entorno y una estación de trabajo fácil de configurar. Con ediciones comunitarias, profesionales y empresariales, hay una versión para todos.
Visual Studio Code (VSCode)
Una de las mejores soluciones de código abierto que puedes elegir para la programación. Este editor de texto es una excelente opción para principiantes y programadores avanzados. El Visual Studio Code ofrece intelliSense, un depurador incorporado, un entorno increíblemente personalizable e integraciones con extensiones populares.
Consola Qt
Un programa ligero que es como una consola inflable. Ofrece resaltado de sintaxis, figuras en línea y más.
Spyder
Una plataforma Python de Ciencia de Datos altamente avanzada. Creada con Python para Python, este IDE cuenta con algunas herramientas inmensamente robustas. Con un editor, una consola IPython, un explorador de variables, una funcionalidad avanzada de ploteo, un depurador incorporado y herramientas de ayuda para la documentación de objetos, el IDE Spyder es una opción prometedora para una gran cantidad de tareas de Ciencia de los Datos.
Glueviz
Esta biblioteca de Python permite ver las visualizaciones de los datos combinando los conjuntos de datos y usando los enlaces lógicos dentro de ellos.
Orange 3
Si la minería de datos es tu objetivo, entonces Orange 3 te tiene cubierto. Orange 3 es un conjunto de herramientas construidas para la minería de datos. Ofrecen una gran interfaz gráfica de usuario, funcionalidad extensible con complementos, gestión de datos y visualizaciones interactivas de datos. También, amado por las comunidades de profesores y estudiantes para sus visualizaciones inmersivas, figuras y gráficos.
R Studio
El entorno recomendado para trabajar con el lenguaje de programación R. R Studio viene en dos versiones: R Studio Desktop y R Studio Server. Soluciones de sintaxis inteligentes, ejecución de R desde el editor, herramientas de ayuda, administración de directorios, documentos y ayuda de R integrados, depurador incorporado y herramientas de paquete son solo algunas de las características que ofrece R Studio Desktop. R Studio Desktop y R Studio Server vienen en una edición de código abierto y una edición profesional.
Miniconda
Como su nombre lo indica es la versión reducida de Anaconda.
Vendría siendo el banco de trabajo de un Científico de Datos. Cada banco de trabajo empieza limpio con solo lo necesario. Pero a medida que un proyecto crece, también lo hace el número de herramientas en el banco de trabajo. Se usan, se cambian, se intercambian.
Miniconda puede ser personalizado de la manera que un Científico de Datos quiera. La configuración de Miniconda de un Científico de Datos puede ser completamente diferente a otro, incluso si están en el mismo equipo.
Anaconda o Miniconda
Usa Anaconda, si deseas un enfoque de tamaño único que funciona de forma automática para la mayoría de los proyectos, a su vez si disponer de 3 GB de espacio en tu equipo.
Por su parte, usa Miniconda, si no tienes 3 GB de espacio en tu computadora y prefieres una configuración que sol tienes lo que necesitas.
La principal consideración al comenzar con Anaconda o Miniconda es el espacio en tu computador.
Tanto Anaconda como Miniconda vienen con Conda. Y como Conda es un administrador de paquetes, lo que puedes hacer con Anaconda, puedes hacerlo con Miniconda.
Anaconda hace que la gestión y el despliegue de paquetes relacionados a la Ciencia de Datos sea rápido y fácil. Repleto de herramientas, IDEs, paquetes y librerías Anaconda es una decisión verdaderamente auténtica para la Ciencia de Datos.
Debido a que la popularidad de Anaconda parece estar expandiéndose en muchas industrias y áreas que son nuevas al tener la disponibilidad de capacidades tan avanzadas, nunca ha sido mejor momento para comenzar con este paquete de herramientas y recursos en constante crecimiento.