Slides Data Wrangling 091121pdf Portugues
Slides Data Wrangling 091121pdf Portugues
. 696
64 3
Data 9 1 . Wrangling
s 0
rti n
M a
i ra
Ma
-9 2
. 696
64 3
1 .
9Dados no R
Preparação de s 0
rt i n
M a
ira
M a
2
Data wrangling
• Utilizaremos, principalmente, o dplyr 2
-9
. 696
• O dplyr é um pacote contido no tidyverse
64 3
1 .
s 09
n
• Contém funções úteis para a manipulação/preparação
i rt de bancos de dados
M a
ira
• Material para referência:
M a
• https://dplyr.tidyverse.org/
• https://github.com/rstudio/cheatsheets/blob/master/data-transformation.pdf
• Wickham, H. & Grolemund, G. R for Data Science: https://r4ds.had.co.nz/index.html
3
Data wrangling
-9 2
• Pipe: encadeamento de diversas funções em sequência
6 9 6
• Rename: alteração de nomes de variáveis
4 3 .
• Mutate: alteração de conteúdo das variáveis1 . 6
9 e criação de novas variáveis
0 em critérios lógicos
• Filter: seleção de observações com
i n sbase
• Select: seleção de variáveis ar t
a M com medidas resumo (estatísticas descritivas)
• Summarise: criação dertabelas
a i
M das observações com base em critérios
• Group by: agrupamento
• Join: junção (merge) de bancos de dados
4
-9 2
. 696
64 3
9 1 .
Criação de Projects es 0Scripts R Markdown
rt i n
M a
ira
M a
5
R Markdown
-9 2
• Introdução ao R Markdown
. 696
• Formatação básica do texto
6 4 3
• Inserção de fórmulas
9 1 .
• s 0
Chunks
t i n
• Gerando outputs (HTML; PDF,
MarDOC)
a
M air
• Material para referência:
• https://rmarkdown.rstudio.com/index.html
6
-9 2
. 696
64 3
1 .
9 Analytics no GitHub
Projetos de Data Science s 0&
rt i n
M a
ira
M a
7
Git
• Software útil para o controle de versões 2
-9
. 696
64 3
1.
• Registra as alterações feitas nos arquivos
09
i n s
a t
rcom o Github
• Vamos utilizá-lo em conjunto
M
ira
M a
• Instalar o Git no computador (https://git-scm.com/downloads)
8
Github
• Site utilizado para hospedar os arquivos 2
-9
. 696
• https://github.com/
64 3
1 .
s 09
r i n
• Organizado em repositórios (pastas)
t que podem ser compartilhadas,
M a
inclusive, podem ser publicadas
i ra
a
M e compartilhar seu portfólio de projetos
• Útil para armazenar
9
Git e Github
• Add e Commit 2
-9
6 .96
• 4 3
Crie uma pasta na área de trabalho de seu computador
6
• 9
No RStudio, crie um novo scrip e escreva 1 .
apenas # Versão 1
• s 0 Versão Exemplo.R
Salve este arquivo na pasta com ionnome
• r t
Dentro da pasta, clique com oa botão direito do mouse e escolha Git Bash Here
a M
air
Minit (inicializa o Git na pasta selecionada)
• No Git, escreva git
• Escreva git add “Versão Exemplo.R” (adiciona o arquivo para o índice)
• Para gerar versões utilize o comando git commit -m “título” (são as versões)
O nome do commit, exemplo: “Primeira Versão”
10
Git e Github
• Push 2
-9
. 6 96
• Em seu Github, crie um novo repositório e nomeie
6 4 3 como preferir
• Copie o link do repositório criado 9 1 .
s 0
• i
No Git, escreva git remote add origin
rt n ..........(link de sua pasta)..........
• a
Por fim, digite git push –u origin master (envia o arquivo para o repositório,
aM
ficando na ramificaçãorprincipal)
i
M a
• Na primeira vez que for feito, solicitará login no Github
11
Git e Github
• Criando e comparando versões 2
-9
6 96
.
• Abra o arquivo Versão Exemplo e escreva mais
6 4 3uma linha: # Versão 2
9
• Após salvar, feche e com o botão direito 1 .
abra o Git Bash Here na pasta
s 0
• Utilize os mesmos procedimentos:
rtin
M a
ira
• git add “Versão Exemplo.R”
M a
• git commit -m “Segunda Versão”
Note que não foi
necessário informar
• git push –u origin master novamente o endereço
12
Git e Github
• Criando ramificações no repositório 2
-9
696
.
4 3
• Nos comandos anteriores, alteramos a ramificação
6 principal do repositório
1 .
• Poderíamos criar ramificações novas no9 Github
s 0
in
rt
• git checkout -b “nome da nova
M a branch”
i
• No Git, já há a indicaçãorade mudança da “master” para a “nova”
M a
• Os mesmos procedimentos de add e commit
• git push -u origin “nome da nova branch”
13
Git e Github
• Importando repositórios (Clone e Pull) 2
-9
6 96
.
4 3
• Pode ser útil trazer para seu computador arquivos
6 que estão no Github
• Uma forma de “baixar” tais arquivos é 9 1 .
por meio da função clone
s 0
rtin
a
• Crie uma pasta em seu computador
M
a
• Dentro da pasta, comior botão direito do mouse, abra o Git Bash Here
M a
• No Github, no repositório de interesse, clique em code e copie o link
• No Git, digite git clone ..........(link do repositório)..........
• Para baixar novamente, após alterações no Github, indique cd “repositório”
• Na sequencia, digite git pull (o arquivo foi atualizado no computador)
14
Git e Github
• Copiando repositórios públicos (Fork) 2
-9
6
.96
4 3
• É possível copiar repositórios que estão publicados
6 no Github
1 .
09 s
• i
Procure por algum tema de interesse
rt n
• Acesse o repositório
M a
• i ra
No canto superior direito, existe o botão Fork
• Após clicar, poderá
a
M o repositório em sua lista (em seu perfil)
ver
15
Git, Github e RStudio
• É possível integrar o Git, Github e RStudio 2
-9
. 696
64 3
1. → Version Control → Git
• No RStudio, clique em File → New Project
09
n s
i o link do repositório no Github
rt
• Em “Repository URL” basta indicar
a
a M
M air
• Após criar um documento (R Script, R Markdown), clique em Git e
faça o commit e, em seguida, o push
• Também é possível fazer o pull dos arquivos do repositório que foi indicado
16
-9 2
. 696
64 3
1 .
9 Pacote Purrr
Funções e Iterações s 0com
rt i n
M a
ira
M a
17
Functions, Purrr
-9 2
• Criando funções no R
. 696
• Atribuindo condições (“IF”)
64 3
• Iterações com Purrr (funções map) 1 .
s 09
rti n
• Material para referência:
M a
i ra
•
M a
Wickham, H. & Grolemund, G. R for Data Science: https://r4ds.had.co.nz/index.html
• https://github.com/rstudio/cheatsheets/blob/master/purrr.pdf
18