Ecosistema BigData: Aplicaciones, SGBD Y Herramientas


Debido a las características que tiene la Big Data (4 V’s) es necesario disponer de herramientas lo bastante potentes para procesar y almacenar grandes volúmenes de información. Y debido a que la tecnología avanza rápidamente, cada vez aparecen nuevas herramientas de diversas compañías que nos ofrecen nuevas suites para ello. Se presentará una sucinta descripción de cada uno de ellos.

1. Ingesta

Tecnología orientada a recolección de datos desde su origen, ya sea de bases de datos tradicionales o de flujos continuos a través de la red.

Flume: Servicio para recolectar de forma eficiente grandes volúmenes de datos. Tiene una arquitectura flexible y tolerante a fallos.

Sqoop: Herramienta diseñada para transferir de forma eficiente grandes paquetes de datos y bases de datos relacionales.

2. Almacenamiento

Tecnología capaces de guardar y gestionar grandes volúmenes de datos, en este grupo estarían las bases de datos NoSQL.

Hadoop HDFS: Sistema distribuido de ficheros. Ofrece alto rendimiento y soporta archivos de gran tamaño. Tolerante a fallos y una de las piezas mas importantes de Hadoop.
Cassandra: Base de datos NoSQL linealmente escalable. Sigue una arquitectura de anillo sin nodo maestro.

3. Gestion de recursos

Tecnologías diseñadas para planificación y asignación de los recursos del clúster.

Yarn: Es un componente de Hadoop responsable de manejar recursos de computación del clúster, planificar el trabajo de los usuarios y las aplicaciones .

4. Motores de procesamiento

Corazón de la tecnología Big Data, son capaces de realizar el cómputo de manera distribuida entre varios nodos de computación y realizar operaciones costosas en tiempos pequeños.

Hadoop MapReduce: Está diseñado para trabajar sobre HDFS, procesando los datos en paralelo de acuerdo al paradigma Map/Reduce. Está orientado al procesamiento de trabajos en batch y hace un uso intensivo del disco lo que penaliza su rendimiento.

Spark: Es un framework para procesamiento distribuido posterior a Hadoop, fue diseñado desde cero pensando en sustituir el componente MapReduce. Soporta un conjunto mayor de transformaciones que pueden ser ejecutadas en paralelo. Trabaja intensivamente en memoria lo que lo hace hasta 100 veces más rápido que Hadoop MapReduce. Soporta procesamiento en streaming.

5. Mensajería

Tecnologías que nos permiten el intercambio de datos entre los diferentes componentes software de manera eficiente

Kafka: Está diseñado para manejar cientos de MB de mensajes por segundo, generados y consumidos por miles de clientes y ordenados en “topics”. Es escalable gracias a que puede ejecutar a lo largo de un cluster de nodos.

6. Consulta

Tecnología orientada a simplificar el acceso a los datos, generalmente se basan en los motores de procesamiento para realizar las consultas de manera eficiente.

Spark SQL: Módulo incluido en Spark para trabajar datos estructurados usando una sintaxis de estilo SQL, pero aprovechando las ventajas de ejecutar sobre el core de Spark.

Hive: Nos ofrece un conjunto de herramientas para leer, escribir y manejar datos sobre Hadoop con una sintaxis similar a SQL.

7. Machine Learning

Tecnologías que implementan algoritmos para clasificar, predecir o perfilar. Se basan en los motores de procesamiento paralelo de los que aprovechan su capacidad de realizar cálculos complejos muy rápido.

Spark Mlib: Framework que incluye algoritmos de machine learning implementados sobre Spark y aprovechando de esta manera las ventajas del cálculo distribuido y el trabajo intensivo en memoria que nos ofrece Spark.

APLICACION

Se trabajará con una base de datos del estado acerca de llamadas realizadas a la Linea 100 — Programa Nacional Contra la Violencia Familiar y Sexual, recopiladas por provincias desde el 2012. Se utilizará los campos relacionados a llamadas registradas que a su vez están separados en género y el tipo de violencia denunciada (física, psicológica, sexual y económica). Si bien se tiene los datos separados por edades y género, no están debidamente llenados.

Codigo realizado en spark sobre Databrick: Enlace

Se llegó a los siguientes Insights:

1. De ordenar el Dataframe por Departamentos con los porcentajes totales de llamadas y porcentajes relativos de llamadas por Genero, se obtiene que en general en el Perú los hombres que denuncian algún tipo de violencia no sobrepasan el 20%, a excepción de Huancavelica (26%). Y que , dejando los outsiders (Lima Met. y Lima), el callao y La Libertad son los que presentan mayor denuncias de Violencia.

2. De ordenar el Dataframe por Año con los porcentajes totales de llamadas y porcentajes relativos de llamadas por Genero, se obtiene que se ha aumentado en casi 50%casi , desde el 2012, la cantidad de denuncias realizadas. Además, que las denuncias realizadas por hombres han aumentado(9% a 16%)con respecto a las denuncias presentadas por mujeres (91% a 73%). Si bien aun es considerable la diferencia, se puede notar ligeramente la variación.

3. De ordenar el Dataframe por Departamentos con los acumulados de tipos de violencia registrada en todo el periodo (2012–2019), se obtiene que (dejando de lado los outsiders)en :

- Piura se reportan mas denuncias por violencia Física( 9075)

- La Libertad se reportan mas denuncias por violencia Psicológica(5754)

- Callao se reportan mas denuncias por violencia Sexual(1423)

- Callao se reportan mas denuncias por violencia económica (23)

4. De ordenar el Dataframe por Año y Departamentos con la Mayor cantidad de reportes de Genero y tipo de violencia, se obtiene que en Lima metropolitana han aumentado considerablemente en los últimos 4 años los reporte de violencia de hombres con respecto a las otras provincias. Si bien en las reportes de violencia de mujeres es un numero considerablemente alto, se han mantenido similiares en lima metropolitana, incrementandose en La Libertad, Arequipa y Piura. Por otro lado, la violencia sexual reportada ha aumentado considerablemente en Arequipa, Junín y Piura con respecto a años anteriores.

Tendencias del big data y hacia dónde se está moviendo

Big data se utiliza en todas las industrias e impacta los procesos centrales de negocio. Algunos de los sectores son:

a) Servicios financieros. 
Las empresas del mercado de capitales son pioneras en el uso del big data y continúan innovando en sistemas de baja latencia para desbloquear oportunidades de arbitraje comercial.

b) Retail. 
Los datos emergentes basados en la localización, las compras en grupo y los prospectos en línea, permiten a los minoristas escuchar, comprometerse y actuar continuamente en la intención del cliente durante el ciclo de compras. 

c) Comunicaciones.
Los datos móviles de los proveedores de servicios crean nuevos modelos de negocio y flujos de ingresos, desde la colocación de anuncios al aire libre hasta la adhesión médica. 
En conclusión, según el modelo de David Rogers “Playbook de la transformación digital”, las empresas se están moviendo hacia dos direcciones:

i. Analógica.

Es caro generar datos / información.
El almacenamiento y la gestión son los retos que generan los datos.
Se aprovechan solo los datos estructurados.
Los datos se administran en silos operativos.
La información es una herramienta para optimizar procesos.

ii. Digital.

Los datos se generan continuamente en todos lados.
El reto de los datos es convertirlos en información de valor. 
Poco a poco es posible usar y sacar valor de los datos no estructurados.
El valor de los datos se realiza cuando se conectan silos.
Los datos son un activo clave para la generación de valor.

Muchas personas hablan de datos e información como si fueran sinónimos, pero la diferencia entre ambos términos es bastante sutil. Los datos son simplemente un registro de los acontecimientos que tuvieron lugar. Además, los datos en bruto describen cuándo, dónde y cómo sucedió, así como quién está involucrado.

El valor de cualquier dato es tan importante como la información y conocimiento que podemos extraer de él. La información y el conocimiento nos ayudarán a tomar mejores decisiones y nos darán una ventaja competitiva.

Christian Giovanni Zevillanos Begazo(2019) "BIG DATA : Definición, ecosistema y aplicación

ENCUMEX(2020) "Los retos del big data en una cadena de cambio" Recuperado de: https://thelogisticsworld.com/historico/los-retos-del-big-data-en-una-cadena-de-cambio/

Comments