0% found this document useful (0 votes)
42 views32 pages

(Bda) Big Data Architect On Azure

Big data
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
42 views32 pages

(Bda) Big Data Architect On Azure

Big data
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 32

Big Data Architect on

Azure
BIG DATA ACADEMY

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Elasticidad en la nube
Podemos aumentar o disminuir la cantidad de servidores del clúster según la necesidad de procesamiento

DATA INPUT CLÚSTER BIG DATA ON CLOUD DATA OUTPUT

DÍA 1
CLÚSTER DE 3 SERVIDORES
300GB
3$ la hora

DÍA 2 CLÚSTER DE 5
500GB SERVIDORES
5$ la hora

DÍA 3
CLÚSTER DE 1 SERVIDOR
100GB
1$ la hora

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Latencia de transferencia de red
Norte de Virginia
Asia

[120 MIN]

[140 MIN]
Perú
Brasil

10 TB [100 MIN]

Mientras más cercana la región a nuestra ubicación física, menor el tiempo de transferencia de red

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Costos en regiones
Norte de Virginia
Asia
… [100GB RAM = 1$ / hora] … [100GB RAM = 1.15$ / hora]

[140 MIN]

Brasil

… [100GB RAM = 1.20$ / hora]

[100 MIN]

Los costos de infraestructura en EEUU son los más baratos, en el resto de regiones los costos aumentan entre
un 15% a 20%

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Base de Datos como SaaS

“Crea una base de datos llamada


DB_GERENCIA”

DB_GERENCIA
[Esperamos 1 minuto]
DB_GERENCIA

Físicamente, el servidor sigue existiendo, y dentro el


gestor de la base de datos, sólo que ya no lo
administramos, sólo administramos la base de datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Recursos de un servidor

Capacidad de discos duros

Memoria RAM

Cantidad de núcleos de CPU

¿Cómo hacemos el sizing de los recursos del servidor?

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Series de servidores
Dependiendo de lo que queramos instalar en el servidor, nos convendrá seleccionar una serie de servidor
optimizada en algún tipo de recurso, por ejemplo

Hacer una POC de


Serie B: Servidores con RAM y CPU lentas, pero muy baratas
cualquier herramienta

Instalar una herramienta para


procesamiento en memoria Serie E: Servidores con módulos de memoria RAM optimizados
RAM (p.e. lenguajes de
programación)

Instalar una herramienta para


procesamiento matricial (p.e., Serie F: Servidores con GPU optimizados para cálculos matriciales
frameworks de Deep Learning)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Series de servidores

Instalar una herramienta para


procesamiento gráfico (p.e. Serie N: Servidores con GPU optimizados para renderización
renderización 3D)

Instalar una herramienta que


necesite un uso equilibrado de Serie D: Servidores de uso general
RAM y CPU (p.e., bases de
datos)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Arquitectura de Integración On-Premise - Cloud
Haremos un montado remoto del FILE STORAGE sobre el GATEWAY, se montará como un disco duro más del
GATEWAY, cuando el orquestador ON-PREMISE escriba sobre ese disco duro, automáticamente estará
escribiendo en el FILE STORAGE

ON-PREMISE CLOUD

Servidor de Storage Account


Base de Datos Gateway
File Storage Blob Storage

El orquestador on-premise
Con esto podemos escribir procesos automatizados de carga
exporta la tabla al gateway

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Instalación
La instalación varía dependiendo del tipo de sistema operativo, practicaremos la instalación en un
servidor DEBIAN LINUX (están adjuntos los manuales para todos los sistemas operativos)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Sistema de almacenamiento
Es el servicio que nos permite crear un sistema de archivos para almacenar los datos que se procesarán
sobre la nube.

Sistema de Almacenamiento

2. Una vez subido, podemos usar los servicios


1. Primero debemos de subir a la nube el de procesamiento para procesarlo en la nube
archivo que queremos procesar

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Redundancia de la cuenta de
almacenamiento
Para entender la redundancia, primero debemos de entender cómo se organiza una región. Una región
está organizada en varias zonas, cada zona tiene su propio generador eléctrico, de esta manera, si el
generador se malogra, sólo esa zona deja de funcionar, el resto de zonas sigue funcionando

ZONA 1 ZONA 2 ZONA 3

… … …

Alonso Melgarejo [alonsoraulmgs@gmail.com]


File Storage y Blob Storage
Ambos servicios permiten almacenar archivos, pero se usan de manera diferente

Storage Account

File Storage Blob Storage

1. Los archivos se suben desde el entorno ON- 2. Movemos archivos desde el FILE STORAGE hacía
PREMISE hacía el FILE STORAGE, ya que un el BLOB STORAGE, el FILE STORAGE es un sistema de
FILE STORAGE está especializado en conexión archivos temporal, el BLOB STORAGE es un sistema
ON-PREMISE de archivos permanente

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Sistema de Almacenamiento NoSQL

CSV Cosmos DB es una base de


CONTENEDOR datos NoSQL serverless
Archivo
Estructurado (SaaS) que nos permite
almacenar los registros de
archivos estructurados y
CONTENEDOR
JSON
semi-estructurados en
tablas (contenedores)
Archivo BASE DE DATOS
Semi-Estructurado

Alonso Melgarejo [alonsoraulmgs@gmail.com]


¿Cómo nos comunicamos con la Base de Datos?
Al crear la base de datos deberemos seleccionar el dialecto (API) de comunicación

SQL estándar COSMOS DB

El dialecto (API) sólo nos da


A el juego de comandos, la
P tecnología de
I almacenamiento sigue
siendo Cosmos DB

Usaremos el “SQL estándar”, pero si conoces otros


Dialectos para enviarle comandos a Cosmos DB dialectos (p.e. Mongo DB), puedes usar otro.

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Cosmos DB como SaaS (serverless)

Cuando creamos una base


de datos en Cosmos DB, se
nos asigna un clúster de
servidores en donde
vivirán las tablas de la base
de datos

Al ser SaaS, no debemos de administrar


la infraestructura, sólo usar la base de
datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Particionamiento de una tabla

10 10 10 10 10
100 MILLONES DE REGISTROS MILLONES MILLONES MILLONES MILLONES MILLONES

10 10 10 10 10
MILLONES MILLONES MILLONES MILLONES MILLONES

Cuando creamos una tabla, físicamente los registros se distribuyen entre los servidores del
clúster. Para hacer esta distribución debemos de definir una estrategia de particionamiento

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Pipelines de Procesamiento
Data Factory es una
herramienta de creación
visual de pipelines,
también permite
integrar dentro de los
pipelines otras
herramientas de
procesamiento de Azure,
como por ejemplo Azure
Functions
Se usa generalmente para la preparación y limpieza de datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Arquitectura Data Factory
ON-PREMISE CLOUD

File Storage Blob Storage

SOURCE_PERSONA INPUT_PERSONA OUTPUT_REPORTE


Crearemos dos pasos:
Gateway

1. “TO_INPUT”: copiará el
contenido de “SOURCE”
a “INPUT”
2. “PROCESAR”: Procesará
los datasets “INPUT” y el
resultado lo guardará en
los datasets “OUPUT”

TO_INPUT PROCESAR

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Azure Functions
Es un servicio que nos permite crear funciones “serverless” (sin la necesidad de administrar el servidor)
usando diferentes lenguajes de programación

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑝𝑦𝑡ℎ𝑜𝑛

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑗𝑎𝑣𝑎

𝑓𝑢𝑛𝑐𝑖𝑜𝑛.𝑛𝑒𝑡

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑛𝑜𝑑𝑒.𝑗𝑠

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑟𝑢𝑏𝑦

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Arquitectura Data Lake
<<TEXTO PLANO>> <<PARQUET>> <<PARQUET>>
LANDING UNIVERSAL SOLUTION

RIESGO_CREDITICIO.PARQUET

RIESGO_CREDITICIO.CSV TO_UNIVERSAL

PERSONA.PARQUET

TO_SOLUTION
REPORTE.PARQUET

EMPRESA.PARQUET
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON

TRANSACCION.PARQUET

Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Arquitectura Delta Lake
<<TEXTO PLANO>> <<DELTA>> <<DELTA>>
BRONZE SILVER GOLD

RIESGO_CREDITICIO.DELTA

RIESGO_CREDITICIO.CSV TO_UNIVERSAL

PERSONA.DELTA

TO_SOLUTION
REPORTE.DELTA

EMPRESA.DELTA
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON

TRANSACCION.DELTA

Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Montado remoto del Delta Lake sobre el
DBFS

BRONZE
SILVER
GOLD
BRONZE SILVER GOLD MNT

DELTA LAKE DBFS CLÚSTER

Montaremos remotamente el BLOB STORAGE de AZURE sobre el DBFS, en un directorio especial llamado
“/mnt”, de esta manera el clúster SPARK podrá procesar los archivos de datos del DELTA LAKE

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Pipelines de Procesamiento para Big Data
Synapse Analytics es una
herramienta de
procesamiento para
entornos de Big Data que
permite dibujar flujos de
procesamiento (Data
Factory y Dataflow),
escribir código (Spark) y
explotar los datos (SQL)
Se usa generalmente para la construcción de DATA LAKES y DELTA LAKES

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Herramientas visuales para Big Data
Data Factory Dataflow
Permite crear la malla de procesamiento Permite dibujar procesos simples de limpieza de datos

IMPORTANTE: si los procesos son más complejos, por


ejemplo, modelamiento semi-estructurado, la limpieza de
datos se hace con una herramienta de código (Spark)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Herramientas de código para Big Data
En Synapse existen tres motores de procesamiento de datos basados en SPARK

Crea y ejecuta códigos de Spark desde un


Notebook, se encuentra incluido dentro de
Synapse y es la opción recomendada por Azure

Crea y ejecuta códigos de Spark desde un


Notebook, no se encuentra incluido dentro de
Synapse, debe configurarse para ser incluído

Crea y ejecuta códigos de Spark, pero no desde


un Notebook, sino desde un Script

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Event Hubs para procesamiento Real-Time
Es el servicio propietario de Azure para gestión de tópicos basados en el estándar
Kafka

Event Hubs

Es un servicio serverless, es decir no tendremos que administrar la infraestructura


de Kafka ni de ZooKeeper

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Unidades de Procesamiento
En Azure, una unidad de procesamiento puede procesar hasta 1000 registros por segundo

{“ID_PERSONA”: “1”, “ID_EMPRESA”: ”6”, “MONTO”: “1935”}

{“ID_PERSONA”: “3”, “ID_EMPRESA”: ”1”, “MONTO”: “2993”}


REAL-TIME
DATA SOURCE {“ID_PERSONA”: “7”, “ID_EMPRESA”: ”8”, “MONTO”: “7956”} TÓPICO

… Event Hubs
{“ID_PERSONA”: “9”, “ID_EMPRESA”: ”2”, “MONTO”: “1540”}

Por ejemplo, si se esperan 4500 registros por segundo, necesitaríamos 5 unidades de procesamiento

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Planes tarifarios
En Event Hubs, existen tres planes tarifarios

• Retención de mensajes: • Retención de mensajes: • Retención de mensajes:


Hasta 1 día Hasta 7 días Hasta 90 días
• Costo: 11.16$ por cada • Costo: 22.32$ por cada • Costo: 764.09$ por cada
unidad de procesamiento unidad de procesamiento unidad de procesamiento
• Recomendado: Para • Recomendado: Para • Recomendado: Para
entornos de desarrollo entornos de producción entornos críticos (p.e.,
para almacenamiento de
transacciones bancarias)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Microsoft Fabric e implementación de un
One Lake
Es un almacenamiento
escalable de datos (es
como el “blob storage”),
sobre él se colocan las
soluciones de Big Data
(como por ejemplo un
Data Lake)

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Lake House
Es una solución que puede construirse
sobre el One Lake, combina:

• Un Data Lake: Escalabilidad de


diferentes estructuras (archivos
estructurados, semi-estructurados y
no estructurados) y diferentes
velocidades de procesamiento (batcth
y real-time)

• Un Data Warehouse: Crea un modelo


de industria sobre el cual se analizan,
agrupan y consultan los datos.

Alonso Melgarejo [alonsoraulmgs@gmail.com]


Accede al 50% de dcto por últimas vacantes
MODALIDAD: En vivo, vía Zoom
PRECIO REGULAR: 570 SOLES
*PRECIO CON 50% DE DCTO: 285 SOLES*
INICIO: Viernes 18 de Agosto
HORARIO [UTC-5]: Viernes de 7PM a 10PM y Sábados de 3PM a 6PM
FIN: Sábado 9 de Septiembre

ENLACE 50% DE DCTO


https://www.bigdataacademy.org/producto/big-data-architect-on-
azure/?currency=PEN

TEMARIO Y PROFESORES
https://drive.google.com/file/d/1e-4ifp4BUNYfnAd_OqVxWnax-
kObMCe6/view

¿No puedes seguir las clases en vivo?, podrás llevarlas con las
grabaciones de cada sesión.

Alonso Melgarejo [alonsoraulmgs@gmail.com]

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy