0% found this document useful (0 votes)

42 views32 pages

(Bda) Big Data Architect On Azure

Big data

Uploaded by

giuliana.gamarra.27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

42 views32 pages

(Bda) Big Data Architect On Azure

Big data

Uploaded by

giuliana.gamarra.27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 32

Big Data Architect on

Azure
BIG DATA ACADEMY

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Elasticidad en la nube
Podemos aumentar o disminuir la cantidad de servidores del clúster según la necesidad de procesamiento

DATA INPUT CLÚSTER BIG DATA ON CLOUD DATA OUTPUT

DÍA 1
CLÚSTER DE 3 SERVIDORES
300GB
3$ la hora

DÍA 2 CLÚSTER DE 5
500GB SERVIDORES
5$ la hora

DÍA 3
CLÚSTER DE 1 SERVIDOR
100GB
1$ la hora

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Latencia de transferencia de red
Norte de Virginia
Asia
…
…

[120 MIN]

[140 MIN]
Perú
Brasil

10 TB [100 MIN]

Mientras más cercana la región a nuestra ubicación física, menor el tiempo de transferencia de red

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Costos en regiones
Norte de Virginia
Asia
… [100GB RAM = 1$ / hora] … [100GB RAM = 1.15$ / hora]

[140 MIN]

Brasil

… [100GB RAM = 1.20$ / hora]

[100 MIN]

Los costos de infraestructura en EEUU son los más baratos, en el resto de regiones los costos aumentan entre
un 15% a 20%

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Base de Datos como SaaS

“Crea una base de datos llamada

DB_GERENCIA”

DB_GERENCIA
[Esperamos 1 minuto]
DB_GERENCIA

Físicamente, el servidor sigue existiendo, y dentro el

gestor de la base de datos, sólo que ya no lo
administramos, sólo administramos la base de datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Recursos de un servidor

Capacidad de discos duros

Memoria RAM

Cantidad de núcleos de CPU

¿Cómo hacemos el sizing de los recursos del servidor?

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Series de servidores
Dependiendo de lo que queramos instalar en el servidor, nos convendrá seleccionar una serie de servidor
optimizada en algún tipo de recurso, por ejemplo

Hacer una POC de

Serie B: Servidores con RAM y CPU lentas, pero muy baratas
cualquier herramienta

Instalar una herramienta para

procesamiento en memoria Serie E: Servidores con módulos de memoria RAM optimizados
RAM (p.e. lenguajes de
programación)

Instalar una herramienta para

procesamiento matricial (p.e., Serie F: Servidores con GPU optimizados para cálculos matriciales
frameworks de Deep Learning)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Series de servidores

Instalar una herramienta para

procesamiento gráfico (p.e. Serie N: Servidores con GPU optimizados para renderización
renderización 3D)

Instalar una herramienta que

necesite un uso equilibrado de Serie D: Servidores de uso general
RAM y CPU (p.e., bases de
datos)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Arquitectura de Integración On-Premise - Cloud
Haremos un montado remoto del FILE STORAGE sobre el GATEWAY, se montará como un disco duro más del
GATEWAY, cuando el orquestador ON-PREMISE escriba sobre ese disco duro, automáticamente estará
escribiendo en el FILE STORAGE

ON-PREMISE CLOUD

Servidor de Storage Account

Base de Datos Gateway
File Storage Blob Storage

El orquestador on-premise
Con esto podemos escribir procesos automatizados de carga
exporta la tabla al gateway

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Instalación
La instalación varía dependiendo del tipo de sistema operativo, practicaremos la instalación en un
servidor DEBIAN LINUX (están adjuntos los manuales para todos los sistemas operativos)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Sistema de almacenamiento
Es el servicio que nos permite crear un sistema de archivos para almacenar los datos que se procesarán
sobre la nube.

Sistema de Almacenamiento

2. Una vez subido, podemos usar los servicios

1. Primero debemos de subir a la nube el de procesamiento para procesarlo en la nube
archivo que queremos procesar

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Redundancia de la cuenta de
almacenamiento
Para entender la redundancia, primero debemos de entender cómo se organiza una región. Una región
está organizada en varias zonas, cada zona tiene su propio generador eléctrico, de esta manera, si el
generador se malogra, sólo esa zona deja de funcionar, el resto de zonas sigue funcionando

ZONA 1 ZONA 2 ZONA 3

… … …

Alonso Melgarejo [alonsoraulmgs@gmail.com]

File Storage y Blob Storage
Ambos servicios permiten almacenar archivos, pero se usan de manera diferente

Storage Account

File Storage Blob Storage

1. Los archivos se suben desde el entorno ON- 2. Movemos archivos desde el FILE STORAGE hacía
PREMISE hacía el FILE STORAGE, ya que un el BLOB STORAGE, el FILE STORAGE es un sistema de
FILE STORAGE está especializado en conexión archivos temporal, el BLOB STORAGE es un sistema
ON-PREMISE de archivos permanente

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Sistema de Almacenamiento NoSQL

CSV Cosmos DB es una base de

CONTENEDOR datos NoSQL serverless
Archivo
Estructurado (SaaS) que nos permite
almacenar los registros de
archivos estructurados y
CONTENEDOR
JSON
semi-estructurados en
tablas (contenedores)
Archivo BASE DE DATOS
Semi-Estructurado

Alonso Melgarejo [alonsoraulmgs@gmail.com]

¿Cómo nos comunicamos con la Base de Datos?
Al crear la base de datos deberemos seleccionar el dialecto (API) de comunicación

SQL estándar COSMOS DB

El dialecto (API) sólo nos da

A el juego de comandos, la
P tecnología de
I almacenamiento sigue
siendo Cosmos DB

Usaremos el “SQL estándar”, pero si conoces otros

Dialectos para enviarle comandos a Cosmos DB dialectos (p.e. Mongo DB), puedes usar otro.

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Cosmos DB como SaaS (serverless)

Cuando creamos una base

de datos en Cosmos DB, se
nos asigna un clúster de
servidores en donde
vivirán las tablas de la base
de datos

Al ser SaaS, no debemos de administrar

la infraestructura, sólo usar la base de
datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Particionamiento de una tabla

10 10 10 10 10
100 MILLONES DE REGISTROS MILLONES MILLONES MILLONES MILLONES MILLONES

10 10 10 10 10
MILLONES MILLONES MILLONES MILLONES MILLONES

Cuando creamos una tabla, físicamente los registros se distribuyen entre los servidores del
clúster. Para hacer esta distribución debemos de definir una estrategia de particionamiento

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Pipelines de Procesamiento
Data Factory es una
herramienta de creación
visual de pipelines,
también permite
integrar dentro de los
pipelines otras
herramientas de
procesamiento de Azure,
como por ejemplo Azure
Functions
Se usa generalmente para la preparación y limpieza de datos

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Arquitectura Data Factory
ON-PREMISE CLOUD

File Storage Blob Storage

SOURCE_PERSONA INPUT_PERSONA OUTPUT_REPORTE

Crearemos dos pasos:
Gateway

1. “TO_INPUT”: copiará el
contenido de “SOURCE”
a “INPUT”
2. “PROCESAR”: Procesará
los datasets “INPUT” y el
resultado lo guardará en
los datasets “OUPUT”

TO_INPUT PROCESAR

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Azure Functions
Es un servicio que nos permite crear funciones “serverless” (sin la necesidad de administrar el servidor)
usando diferentes lenguajes de programación

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑝𝑦𝑡ℎ𝑜𝑛

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑗𝑎𝑣𝑎

𝑓𝑢𝑛𝑐𝑖𝑜𝑛.𝑛𝑒𝑡

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑛𝑜𝑑𝑒.𝑗𝑠

𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑟𝑢𝑏𝑦

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Arquitectura Data Lake
<<TEXTO PLANO>> <<PARQUET>> <<PARQUET>>
LANDING UNIVERSAL SOLUTION

RIESGO_CREDITICIO.PARQUET

RIESGO_CREDITICIO.CSV TO_UNIVERSAL

PERSONA.PARQUET

TO_SOLUTION
REPORTE.PARQUET

EMPRESA.PARQUET
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON

TRANSACCION.PARQUET

Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Arquitectura Delta Lake
<<TEXTO PLANO>> <<DELTA>> <<DELTA>>
BRONZE SILVER GOLD

RIESGO_CREDITICIO.DELTA

RIESGO_CREDITICIO.CSV TO_UNIVERSAL

PERSONA.DELTA

TO_SOLUTION
REPORTE.DELTA

EMPRESA.DELTA
TO_UNIVERSAL
TRANSACCIONES_BANCARIAS.JSON

TRANSACCION.DELTA

Zona de aterrizaje de archivos Zona de limpieza, modelamiento y binarización Zona de soluciones de negocio

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Montado remoto del Delta Lake sobre el
DBFS

BRONZE
SILVER
GOLD
BRONZE SILVER GOLD MNT

DELTA LAKE DBFS CLÚSTER

Montaremos remotamente el BLOB STORAGE de AZURE sobre el DBFS, en un directorio especial llamado
“/mnt”, de esta manera el clúster SPARK podrá procesar los archivos de datos del DELTA LAKE

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Pipelines de Procesamiento para Big Data
Synapse Analytics es una
herramienta de
procesamiento para
entornos de Big Data que
permite dibujar flujos de
procesamiento (Data
Factory y Dataflow),
escribir código (Spark) y
explotar los datos (SQL)
Se usa generalmente para la construcción de DATA LAKES y DELTA LAKES

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Herramientas visuales para Big Data
Data Factory Dataflow
Permite crear la malla de procesamiento Permite dibujar procesos simples de limpieza de datos

IMPORTANTE: si los procesos son más complejos, por

ejemplo, modelamiento semi-estructurado, la limpieza de
datos se hace con una herramienta de código (Spark)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Herramientas de código para Big Data
En Synapse existen tres motores de procesamiento de datos basados en SPARK

Crea y ejecuta códigos de Spark desde un

Notebook, se encuentra incluido dentro de
Synapse y es la opción recomendada por Azure

Crea y ejecuta códigos de Spark desde un

Notebook, no se encuentra incluido dentro de
Synapse, debe configurarse para ser incluído

Crea y ejecuta códigos de Spark, pero no desde

un Notebook, sino desde un Script

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Event Hubs para procesamiento Real-Time
Es el servicio propietario de Azure para gestión de tópicos basados en el estándar
Kafka

Event Hubs

Es un servicio serverless, es decir no tendremos que administrar la infraestructura

de Kafka ni de ZooKeeper

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Unidades de Procesamiento
En Azure, una unidad de procesamiento puede procesar hasta 1000 registros por segundo

{“ID_PERSONA”: “1”, “ID_EMPRESA”: ”6”, “MONTO”: “1935”}

{“ID_PERSONA”: “3”, “ID_EMPRESA”: ”1”, “MONTO”: “2993”}

REAL-TIME
DATA SOURCE {“ID_PERSONA”: “7”, “ID_EMPRESA”: ”8”, “MONTO”: “7956”} TÓPICO

… Event Hubs
{“ID_PERSONA”: “9”, “ID_EMPRESA”: ”2”, “MONTO”: “1540”}

Por ejemplo, si se esperan 4500 registros por segundo, necesitaríamos 5 unidades de procesamiento

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Planes tarifarios
En Event Hubs, existen tres planes tarifarios

• Retención de mensajes: • Retención de mensajes: • Retención de mensajes:

Hasta 1 día Hasta 7 días Hasta 90 días
• Costo: 11.16$ por cada • Costo: 22.32$ por cada • Costo: 764.09$ por cada
unidad de procesamiento unidad de procesamiento unidad de procesamiento
• Recomendado: Para • Recomendado: Para • Recomendado: Para
entornos de desarrollo entornos de producción entornos críticos (p.e.,
para almacenamiento de
transacciones bancarias)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Microsoft Fabric e implementación de un
One Lake
Es un almacenamiento
escalable de datos (es
como el “blob storage”),
sobre él se colocan las
soluciones de Big Data
(como por ejemplo un
Data Lake)

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Lake House
Es una solución que puede construirse
sobre el One Lake, combina:

• Un Data Lake: Escalabilidad de

diferentes estructuras (archivos
estructurados, semi-estructurados y
no estructurados) y diferentes
velocidades de procesamiento (batcth
y real-time)

• Un Data Warehouse: Crea un modelo

de industria sobre el cual se analizan,
agrupan y consultan los datos.

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Accede al 50% de dcto por últimas vacantes
MODALIDAD: En vivo, vía Zoom
PRECIO REGULAR: 570 SOLES
*PRECIO CON 50% DE DCTO: 285 SOLES*
INICIO: Viernes 18 de Agosto
HORARIO [UTC-5]: Viernes de 7PM a 10PM y Sábados de 3PM a 6PM
FIN: Sábado 9 de Septiembre

ENLACE 50% DE DCTO

https://www.bigdataacademy.org/producto/big-data-architect-on-
azure/?currency=PEN

TEMARIO Y PROFESORES
https://drive.google.com/file/d/1e-4ifp4BUNYfnAd_OqVxWnax-
kObMCe6/view

¿No puedes seguir las clases en vivo?, podrás llevarlas con las
grabaciones de cada sesión.

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Cloud Unit3
No ratings yet
Cloud Unit3
26 pages
Azure Databricks Course Slide Deck
75% (4)
Azure Databricks Course Slide Deck
169 pages
Computer Security Log Book
No ratings yet
Computer Security Log Book
13 pages
START UP FAQ For VM Series 30 Day Trial 2023 04 04
No ratings yet
START UP FAQ For VM Series 30 Day Trial 2023 04 04
12 pages
Start To Finish With Azure Data Factory
100% (2)
Start To Finish With Azure Data Factory
30 pages
2105 Service Manual Ricoh
No ratings yet
2105 Service Manual Ricoh
1,245 pages
Big Data Intro-1
No ratings yet
Big Data Intro-1
75 pages
Cloud Data Storage
No ratings yet
Cloud Data Storage
47 pages
23 Big Data and Data Wrangling
No ratings yet
23 Big Data and Data Wrangling
56 pages
Cloud Computing
No ratings yet
Cloud Computing
88 pages
Session 5-Azure Components
No ratings yet
Session 5-Azure Components
28 pages
Exam 70-445 Prep
No ratings yet
Exam 70-445 Prep
56 pages
Lecture 06
No ratings yet
Lecture 06
68 pages
Software Defined Storage
No ratings yet
Software Defined Storage
26 pages
Unit 5 CC
No ratings yet
Unit 5 CC
8 pages
SLAC - 2018 - Death of The Sysadmin
No ratings yet
SLAC - 2018 - Death of The Sysadmin
40 pages
Data Features and Databases in Cloud and Grid
No ratings yet
Data Features and Databases in Cloud and Grid
18 pages
Azure Cheat Sheet
No ratings yet
Azure Cheat Sheet
42 pages
BDS Session 1
100% (1)
BDS Session 1
70 pages
Big Data Analytics
100% (1)
Big Data Analytics
14 pages
Unit-4 CC
No ratings yet
Unit-4 CC
72 pages
Storage Systems
No ratings yet
Storage Systems
23 pages
BDA Unit 2 1
No ratings yet
BDA Unit 2 1
42 pages
Introducing Relational Database Products-2
No ratings yet
Introducing Relational Database Products-2
43 pages
I Cloud Data Management
No ratings yet
I Cloud Data Management
60 pages
Storage Architecture and Challenges: Faculty Summit, July 29, 2010 Andrew Fikes, Principal Engineer
No ratings yet
Storage Architecture and Challenges: Faculty Summit, July 29, 2010 Andrew Fikes, Principal Engineer
25 pages
Azure Data Platform Overview
100% (2)
Azure Data Platform Overview
57 pages
Data-Intensive Computing
No ratings yet
Data-Intensive Computing
88 pages
Ccomputing Madurya
No ratings yet
Ccomputing Madurya
20 pages
Workreport: Clusters With ELX
No ratings yet
Workreport: Clusters With ELX
27 pages
Module 1
No ratings yet
Module 1
29 pages
CC Intoduction
No ratings yet
CC Intoduction
34 pages
Microsoft Hds
No ratings yet
Microsoft Hds
58 pages
Concept - The MSR Data Depot in Galapagos
No ratings yet
Concept - The MSR Data Depot in Galapagos
72 pages
002.1 DB Evolution
No ratings yet
002.1 DB Evolution
26 pages
IBM Software Defined Storage For Dummies ES
No ratings yet
IBM Software Defined Storage For Dummies ES
10 pages
Big Data
No ratings yet
Big Data
51 pages
Data Factory, Data Integration
No ratings yet
Data Factory, Data Integration
2,034 pages
Rapid Application Development and Short-Time To The Market Low Latency Scalability High Availability Consistent View of The Data
No ratings yet
Rapid Application Development and Short-Time To The Market Low Latency Scalability High Availability Consistent View of The Data
21 pages
Cloud Digital Leader Class Notes Jun 2023
No ratings yet
Cloud Digital Leader Class Notes Jun 2023
18 pages
ssc18 Cloud
No ratings yet
ssc18 Cloud
32 pages
Lecture 02
No ratings yet
Lecture 02
32 pages
Data Science
No ratings yet
Data Science
87 pages
Server Storage
No ratings yet
Server Storage
12 pages
Big Data Streams Analytics: Challenges, Analysis, and Applications
No ratings yet
Big Data Streams Analytics: Challenges, Analysis, and Applications
55 pages
Storage For Containers Whitepaper
No ratings yet
Storage For Containers Whitepaper
11 pages
Data All Delivering Them DW With Azure 202003224202063744
No ratings yet
Data All Delivering Them DW With Azure 202003224202063744
92 pages
ST Open Source Data Pipelines Oreilly f22568 202003 en PDF
No ratings yet
ST Open Source Data Pipelines Oreilly f22568 202003 en PDF
79 pages
Module Six Cloud Computing-1
No ratings yet
Module Six Cloud Computing-1
27 pages
CC - Lecture 6-Data
No ratings yet
CC - Lecture 6-Data
44 pages
Big Data Architecture Basics
No ratings yet
Big Data Architecture Basics
24 pages
Unit 1 1
No ratings yet
Unit 1 1
10 pages
Act 1 Tema 3 - Equipo
No ratings yet
Act 1 Tema 3 - Equipo
19 pages
Introduction To Big Data and NoSQL
No ratings yet
Introduction To Big Data and NoSQL
52 pages
2020 Cloud DB Survey UW
No ratings yet
2020 Cloud DB Survey UW
75 pages
Unit1 - BDH
No ratings yet
Unit1 - BDH
77 pages
Gpfs & Storm: Jon Wakelin University of Bristol
No ratings yet
Gpfs & Storm: Jon Wakelin University of Bristol
22 pages
Course Introduction: Dsecl Zc556 Stream Processing and Analytics Lecture No. 1.0
No ratings yet
Course Introduction: Dsecl Zc556 Stream Processing and Analytics Lecture No. 1.0
52 pages
03 Intro HadoopAndMapReduce BigData
No ratings yet
03 Intro HadoopAndMapReduce BigData
91 pages
777 1651399819 BD Module 5
No ratings yet
777 1651399819 BD Module 5
75 pages
BDA Unit 1 Notes
No ratings yet
BDA Unit 1 Notes
24 pages
Big Data Architecture
No ratings yet
Big Data Architecture
9 pages
Build Your First Home Server
From Everand
Build Your First Home Server
R.R. Arnob
No ratings yet
CLJ Cm6030 Cm6040mfp Solve Problem
No ratings yet
CLJ Cm6030 Cm6040mfp Solve Problem
246 pages
Komplete Kontrol m32 Manual English 28-10-2021
No ratings yet
Komplete Kontrol m32 Manual English 28-10-2021
147 pages
CT042-3-1-IDB-Week 10
No ratings yet
CT042-3-1-IDB-Week 10
42 pages
C1000-174 IBM Exam Practice Questions
No ratings yet
C1000-174 IBM Exam Practice Questions
8 pages
Data Structure MCQ Questions
No ratings yet
Data Structure MCQ Questions
12 pages
Log
No ratings yet
Log
8 pages
Switch Interfaces Configuration
No ratings yet
Switch Interfaces Configuration
5 pages
Show Mac Address-Table: Syntax Description
No ratings yet
Show Mac Address-Table: Syntax Description
3 pages
Notizen SSCP
No ratings yet
Notizen SSCP
37 pages
Kubernetes at CERN
No ratings yet
Kubernetes at CERN
21 pages
Bionic Arduino: Class 2
No ratings yet
Bionic Arduino: Class 2
60 pages
X360ce - X360ce GitHub
No ratings yet
X360ce - X360ce GitHub
4 pages
Difference Between Microkernel and Exokernel
No ratings yet
Difference Between Microkernel and Exokernel
4 pages
Release Notes
No ratings yet
Release Notes
2 pages
Windbg
No ratings yet
Windbg
7 pages
12 IP Practical Project File
No ratings yet
12 IP Practical Project File
10 pages
Communication Protocols
100% (1)
Communication Protocols
23 pages
DesignGuide MILSTD1553
No ratings yet
DesignGuide MILSTD1553
367 pages
DotSpatial - 2 - Symbology e Tabela Atributo
100% (1)
DotSpatial - 2 - Symbology e Tabela Atributo
14 pages
Computer Essentials.
No ratings yet
Computer Essentials.
17 pages
Cisco Advanced Malware Protection For Endpoints Data Sheet
No ratings yet
Cisco Advanced Malware Protection For Endpoints Data Sheet
11 pages
Rhino 2.1 Gettingstarted Guide
No ratings yet
Rhino 2.1 Gettingstarted Guide
38 pages
Digital Network - Lecturer2
No ratings yet
Digital Network - Lecturer2
43 pages
2021 ICT Mock FSLC
No ratings yet
2021 ICT Mock FSLC
4 pages
EP2C621D16GM
No ratings yet
EP2C621D16GM
83 pages
1st Project Pic Pascal v101
100% (1)
1st Project Pic Pascal v101
12 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

(Bda) Big Data Architect On Azure

Uploaded by

(Bda) Big Data Architect On Azure

Uploaded by

Big Data Architect on

Alonso Melgarejo [alonsoraulmgs@gmail.com]

DATA INPUT CLÚSTER BIG DATA ON CLOUD DATA OUTPUT

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

… [100GB RAM = 1.20$ / hora]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

“Crea una base de datos llamada

Físicamente, el servidor sigue existiendo, y dentro el

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Capacidad de discos duros

Cantidad de núcleos de CPU

¿Cómo hacemos el sizing de los recursos del servidor?

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Hacer una POC de

Instalar una herramienta para

Instalar una herramienta para

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Instalar una herramienta para

Instalar una herramienta que

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Servidor de Storage Account

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

2. Una vez subido, podemos usar los servicios

Alonso Melgarejo [alonsoraulmgs@gmail.com]

ZONA 1 ZONA 2 ZONA 3

Alonso Melgarejo [alonsoraulmgs@gmail.com]

File Storage Blob Storage

Alonso Melgarejo [alonsoraulmgs@gmail.com]

CSV Cosmos DB es una base de

Alonso Melgarejo [alonsoraulmgs@gmail.com]

SQL estándar COSMOS DB

El dialecto (API) sólo nos da

Usaremos el “SQL estándar”, pero si conoces otros

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Cuando creamos una base

Al ser SaaS, no debemos de administrar

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

File Storage Blob Storage

SOURCE_PERSONA INPUT_PERSONA OUTPUT_REPORTE

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

DELTA LAKE DBFS CLÚSTER

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

IMPORTANTE: si los procesos son más complejos, por

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Crea y ejecuta códigos de Spark desde un

Crea y ejecuta códigos de Spark desde un

Crea y ejecuta códigos de Spark, pero no desde

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Es un servicio serverless, es decir no tendremos que administrar la infraestructura

Alonso Melgarejo [alonsoraulmgs@gmail.com]

{“ID_PERSONA”: “1”, “ID_EMPRESA”: ”6”, “MONTO”: “1935”}

{“ID_PERSONA”: “3”, “ID_EMPRESA”: ”1”, “MONTO”: “2993”}

Alonso Melgarejo [alonsoraulmgs@gmail.com]

• Retención de mensajes: • Retención de mensajes: • Retención de mensajes:

Alonso Melgarejo [alonsoraulmgs@gmail.com]

Alonso Melgarejo [alonsoraulmgs@gmail.com]

• Un Data Lake: Escalabilidad de

• Un Data Warehouse: Crea un modelo

Alonso Melgarejo [alonsoraulmgs@gmail.com]

ENLACE 50% DE DCTO

Alonso Melgarejo [alonsoraulmgs@gmail.com]

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.