(Bda) Big Data Architect On Azure
(Bda) Big Data Architect On Azure
Azure
BIG DATA ACADEMY
DÍA 1
CLÚSTER DE 3 SERVIDORES
300GB
3$ la hora
DÍA 2 CLÚSTER DE 5
500GB SERVIDORES
5$ la hora
DÍA 3
CLÚSTER DE 1 SERVIDOR
100GB
1$ la hora
[120 MIN]
[140 MIN]
Perú
Brasil
10 TB [100 MIN]
Mientras más cercana la región a nuestra ubicación física, menor el tiempo de transferencia de red
[140 MIN]
Brasil
[100 MIN]
Los costos de infraestructura en EEUU son los más baratos, en el resto de regiones los costos aumentan entre
un 15% a 20%
DB_GERENCIA
[Esperamos 1 minuto]
DB_GERENCIA
Memoria RAM
ON-PREMISE CLOUD
El orquestador on-premise
Con esto podemos escribir procesos automatizados de carga
exporta la tabla al gateway
Sistema de Almacenamiento
… … …
Storage Account
1. Los archivos se suben desde el entorno ON- 2. Movemos archivos desde el FILE STORAGE hacía
PREMISE hacía el FILE STORAGE, ya que un el BLOB STORAGE, el FILE STORAGE es un sistema de
FILE STORAGE está especializado en conexión archivos temporal, el BLOB STORAGE es un sistema
ON-PREMISE de archivos permanente
10 10 10 10 10
100 MILLONES DE REGISTROS MILLONES MILLONES MILLONES MILLONES MILLONES
10 10 10 10 10
MILLONES MILLONES MILLONES MILLONES MILLONES
Cuando creamos una tabla, físicamente los registros se distribuyen entre los servidores del
clúster. Para hacer esta distribución debemos de definir una estrategia de particionamiento
1. “TO_INPUT”: copiará el
contenido de “SOURCE”
a “INPUT”
2. “PROCESAR”: Procesará
los datasets “INPUT” y el
resultado lo guardará en
los datasets “OUPUT”
TO_INPUT PROCESAR
𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑝𝑦𝑡ℎ𝑜𝑛
𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑗𝑎𝑣𝑎
𝑓𝑢𝑛𝑐𝑖𝑜𝑛.𝑛𝑒𝑡
𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑛𝑜𝑑𝑒.𝑗𝑠
𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑟𝑢𝑏𝑦
RIESGO_CREDITICIO.PARQUET
RIESGO_CREDITICIO.CSV TO_UNIVERSAL
PERSONA.PARQUET
TO_SOLUTION
REPORTE.PARQUET
EMPRESA.PARQUET
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON
TRANSACCION.PARQUET
Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio
RIESGO_CREDITICIO.DELTA
RIESGO_CREDITICIO.CSV TO_UNIVERSAL
PERSONA.DELTA
TO_SOLUTION
REPORTE.DELTA
EMPRESA.DELTA
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON
TRANSACCION.DELTA
Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio
BRONZE
SILVER
GOLD
BRONZE SILVER GOLD MNT
Montaremos remotamente el BLOB STORAGE de AZURE sobre el DBFS, en un directorio especial llamado
“/mnt”, de esta manera el clúster SPARK podrá procesar los archivos de datos del DELTA LAKE
Event Hubs
… Event Hubs
{“ID_PERSONA”: “9”, “ID_EMPRESA”: ”2”, “MONTO”: “1540”}
Por ejemplo, si se esperan 4500 registros por segundo, necesitaríamos 5 unidades de procesamiento
TEMARIO Y PROFESORES
https://drive.google.com/file/d/1e-4ifp4BUNYfnAd_OqVxWnax-
kObMCe6/view
¿No puedes seguir las clases en vivo?, podrás llevarlas con las
grabaciones de cada sesión.