Big Data Ciencia Dados 2
Big Data Ciencia Dados 2
Ciência de Dados
Unidade II
Ciência de Dados
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Gerente Editorial
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva
Olá, possuo graduação em Sistema da Informação pela Unifacisa
– Universidade de Ciências Sociais Aplicadas. Sou mestre em Sistema e
Computação pela UFRN-Universidade Federal de Rio Grande do Norte.
Atualmente sou doutoranda em Sistema e Computação pela UFRN-
Universidade Federal de Rio Grande do Norte e professora conteudista
elaborando cadernos.
OBJETIVO: DEFINIÇÃO:
para o início do houver necessidade
desenvolvimento de de se apresentar um
uma nova compe- novo conceito;
tência;
NOTA: IMPORTANTE:
quando forem as observações
necessários obser- escritas tiveram que
vações ou comple- ser priorizadas para
mentações para o você;
seu conhecimento;
EXPLICANDO VOCÊ SABIA?
MELHOR: curiosidades e
algo precisa ser indagações lúdicas
melhor explicado ou sobre o tema em
detalhado; estudo, se forem
necessárias;
SAIBA MAIS: REFLITA:
textos, referências se houver a neces-
bibliográficas e links sidade de chamar a
para aprofundamen- atenção sobre algo
to do seu conheci- a ser refletido ou dis-
mento; cutido sobre;
ACESSE: RESUMINDO:
se for preciso aces- quando for preciso
sar um ou mais sites se fazer um resumo
para fazer download, acumulativo das últi-
assistir vídeos, ler mas abordagens;
textos, ouvir podcast;
ATIVIDADES: TESTANDO:
quando alguma quando o desen-
atividade de au- volvimento de uma
toaprendizagem for competência for
aplicada; concluído e questões
forem explicadas;
SUMÁRIO
Conceitos e Escopos da Ciência de Dados .......................................10
Fases do Projeto em Ciências de Dados..................................................... 13
Competências Relacionadas...................................................................................................35
Jupyter..................................................................................................................................45
Pandas...................................................................................................................................45
Anaconda...........................................................................................................................45
Big Data e Ciência de Dados 7
02
UNIDADE
8 Big Data e Ciência de Dados
INTRODUÇÃO
Com toda a produção de dados e os avanços tecnológicos,
surgiram soluções computacionais como a big data e a Ciências de
Dados. Assim, nestes capítulos nos deteremos a explicar um pouco mais
sobre a Ciências de Dados, abordando, desde seu surgimento, conceitos
e suas contribuições. Abordaremos ainda os princípios e diferenças entre
a big data e outras soluções computacionais.
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no
desenvolvimento das seguintes objetivos de aprendizagem até o término
desta etapa de estudos:
OBJETIVO:
Fonte: Pixabay
Computação
e habilidades Matemática
de dados e Estática
Conhecimento
substantivos
IMPORTANTE:
• Entendimento de problema;
DESCARTE ANÁLISE
Bertin et. Al. (2017, p.29) trata o ciclo de dados e seu gerenciamento
determinado por essas etapas:
Implementação, Definição de parâmetros, Exploração de
dados: possibilidade de preservação de dados científicos,
desenvolvimento de políticas de gerenciamentos de ciclo
de dados para projetos e atividades relevantes; Ingestão
de dados, Obtenção de dados: estratégias que preveem
a preservação e o acesso a longo prazo e rentáveis à
qualidade adequada, garantindo proteção de alta confiança
e confidencialidade ;Tomada de decisão: aplicações para
os requisitos legais e regulamentados para toda a gama
de tipo de dados e Utilização do modelo: recuperação dos
dados de pesquisa, tendo em vista a sua implementação.
16 Big Data e Ciência de Dados
NOTA:
NOTA:
1. Business Intelligence:
2. Data Analytics:
3. Data Mining:
RESUMINDO:
OBJETIVO:
Fonte: Freepik
SAIBA MAIS:
Fonte: Freepik
SAIBA MAIS:
Fonte Freepik
RESUMINDO:
OBJETIVO:
Cientista de Dados
A ciência de dados acarretou alterações através de toda a
complexidade existente na exploração e extração de dados, bem como, na
necessidade de profissionais capacitados no tratamento de dados, como
o programador para análises, ferramentas eficientes para exploração e
comportamentos dos dados, como também, o profissional da informação
com especialidade em dados, para fornecerem eficiência na comunicação
com os usuários e contribuírem as necessidades informacionais para as
organizações (REIS, 2019).
SAIBA MAIS:
Fonte: Freepik
NOTA:
Perfil do Profissional
Capacidade de programar;
• Improvisação;
• Análise estatística;
• Técnicas de visualização;
34 Big Data e Ciência de Dados
• Aprendizado de máquina;
Competências Relacionadas
Como estudamos, a ciência de dados e o Big Data, são executados
por meio de equipes multidisciplinares, cada um especializado em uma
determinada áreas e lideradas pelo cientista de dados. Com isto, o autor
Amaral (2016), elencou essas especialidades necessárias conforme
apresentada abaixo:
RESUMINDO:
OBJETIVO:
Fonte: Pixabay
40 Big Data e Ciência de Dados
Fonte: Pixabay
SAIBA MAIS:
• Alteryx
• Talend
• Knime
Jupyter
Notebook Jupyter ou caderno Jupyter, é um ambiente desenvolvido
para se trabalhar com programação literária. Neste paradigma de
programação, há uma intersecção entre a codificação e a documentação
em forma de narrativa, ao invés de manipulá-los como elementos
independentes. Também permite criar e compartilhar documentos que
contenham código vivo, equações, visualizações e texto narrativo. A sua
utilização possibilita a limpeza e transformação de dados, simulação
numérica, modelagem estatística, visualização de dados, aprendizado de
máquina, entre outras funções (JUPYTER, 2020).
Pandas
É uma ferramenta prática flexível e fácil de utilizar para análise
e manipulação de dados de código aberto, construída em cima da
linguagem de programação Python. Esta provê uma estrutura de dados e
funções robustas para trabalhar com grandes massas de dados de modo
mais rápida (PANDAS, 2020).
Anaconda
É uma distribuição que disponibiliza vários pacotes que podem ser
instalados todos de uma vez, sendo um importante recurso para trabalhar
com Ciências de Dados. Além de permitir instalar os pacotes otimizando
o trabalho do desenvolvedor em configurar o ambiente de trabalho, o
Anaconda também disponibiliza o Conda, que é responsável por controle
de versões dos pacotes instalados. Assim, o desenvolvedor passa a poder
46 Big Data e Ciência de Dados
RESUMINDO:
REFERÊNCIAS
AMARAL, Fernando. Introdução à ciência de dados: mineração de
dados e Big Data. Rio de Janeiro: ALTA Books,2016.
BELL, G., Hey, T., & Szalay, A. (2009). Beyond the Data Deluge.
Tradução Google translate. Science, 323:1297–1298.
GADELHA Jr., L. M. R., Stanzani, S., Correa, P., Dalcin, E., Gomes, C.
R. O., Sato, L., e Siqueira, M. (2012b). Scalable and provenance—enabled
scientific workflows for predicting distribution of species. In Proc. 8th
International Conference on Ecological Informatics (ISEI 2012), Bras´ılia, DF.
SWAN, A.; BROWN, S. The skills, role and career structureof data
scientistsand curators: anassessment of currentpr actice and future
needs. Reporttothe Joint Information Systems Committee (JISC). Truro:
Key Perspectives for JISC, 2008. 34 p.