Big Data

Código:

BINF025

Sigla:

Áreas Científicas
Classificação	Área Científica
OFICIAL	Informática

Ocorrência: 2023/2024 - 1S

Ativa?	Sim
Unidade Responsável:	Departamento de Matemática e Informática
Curso/CE Responsável:	Licenciatura em Bioinformática

Ciclos de Estudo/Cursos

Sigla	Nº de Estudantes	Plano de Estudos	Anos Curriculares	Créditos UCN	Créditos ECTS	Horas de Contacto	Horas Totais
BINF	16	Plano Estudos 2016	3	-	5	67,5	135

Docência - Responsabilidades

Docente	Responsabilidade
António Leonardo Gonçalves	Responsável

Docência - Horas

Ensino Teórico-Prático:	2,00
Ensino Prático e Laboratorial:	2,00

Tipo	Docente	Turmas	Horas
Ensino Teórico-Prático	Totais	1	2,00
	António Leonardo Gonçalves		2,00
	Maria Raquel Feliciano Barreira		2,00
Ensino Prático e Laboratorial	Totais	1	2,00
	António Leonardo Gonçalves		2,00
	Maria Raquel Feliciano Barreira		2,00

Língua de trabalho

Português

Objetivos

Esta UC permitirá o conhecimento de ferramentas de armazenamento, processamento e visualização de grandes volumes de dados, o desenvolvimento de competências na construção e teste de algoritmos eficientes para Big Data, nomeadamente o estudo de paradigmas, modelos, ferramentas e linguagens de programação paralela.
No fim da unidade curricular o estudante deverá ser capaz de

- Determinar a solução a aplicar e os instrumentos a utilizar no armazenamento, exploração e análise de um grande volume de dados
- Selecionar opções de visualização adequadas para resumir e extrair conhecimento de um grande volume de dados

- Compreender o conceito de processamento paralelo e distribuído como forma de aumentar o desempenho na gestão e análise de dados
- Desenvolver algoritmos e modelos que permitam resolver problemas que explorem a gestão da concorrência, da distribuição e do paralelismo

- Reconhecer as diferentes arquiteturas de hardware de suporte ao funcionamento destes algoritmos

Resultados de aprendizagem e competências

Não aplicável

Modo de trabalho

Presencial

Programa

1.Visualização de grande volume de dados
2.Armazenamento em larga escala
Bases de dados não relacionais (chave-valor, orientadas a documentos, família de colunas, orientadas a grafos) Comparativo entre bases de dados relacionais e não relacionais
3.Modelos de Programação Paralela
Modelo de Memória Partilhada
Modelo de Threads
Memória distribuída
Modelo de passagem de mensagens
Modelo de dados paralelos
Modelo Híbridos
Single Program Multiple Data (SPMD)
Multiple Program Multiple Data (MPMD)
4. Desenho de programas paralelos
Paralelização automática vs. Manual
Particionamento
Comunicações
Sincronização
Dependências de dados
Balanceamento de carga
Granularidade
E/S
Depuração
Análise e afinação de desempenho
5.Algoritmos paralelos
Algoritmos paralelos para sequências e strings
Algoritmos paralelos para árvores e gráficos
Algoritmos paralelos para computação numérica/científica

Bibliografia Obrigatória

Sadalage et al.; No SQL distilled : a brief guide to the emerging world of polyglot persistence, Pearson Education, 2012
O'Neil, C. and Schutt, R.; Doing Data Science: Straight Talk from the Frontline, 2013
Leskovec, J., Rajaraman, A., Ullman, K.; Mining of Massive Datasets, Cambridge University Press, 2nd Ed., 2014
White, T.; Hadoop: The Definitive Guide, O'Reilly, 2015
Wilke, C. O; Data Visualisation, O’Reilly, 2019
Pacheco, P.; Introduction to Parallel Algorithms (2nd ed.), 2021
Kleppmann, M. ; Designing data-intensive applications: The big ideas behind reliable, scalable, and maintainable systems, 2017

Bibliografia Complementar

Knaflick, N. C; Storytelling with data, Wiley, 2015

Métodos de ensino e atividades de aprendizagem

As metodologias de ensino predominantes serão a exposição de conceitos, com recurso a slides e a demonstração de exemplos laboratório de informática. Os estudantes serão constantemente desafiados a resolver novos problemas, com base nos exemplos já demonstrados, e a refletir sobre os resultados e desempenho do processos de armazenamento e processamento em estudo.

Software

Pyspark
Python
MongoDb

Tipo de avaliação

Avaliação distribuída com exame final

Componentes de Avaliação

Designação	Peso (%)
Teste	40,00
Trabalho escrito	60,00
Total:	100,00

Componentes de Ocupação

Designação	Tempo (Horas)
Estudo autónomo	45,00
Frequência das aulas	45,00
Trabalho laboratorial	45,00
Total:	135,00

Obtenção de frequência

N/A

Fórmula de cálculo da classificação final

Por avaliação contínua

nota final= 20%*projeto1+20%*projeto2+20%*projeto3 + 40%*teste

Por avaliação final

Nota final= 20%*projeto1+20%*projeto2+20%*projeto3 + 40%*exame

Em época de exame: pesos idênticos, podendo os projetos ser os realizados durante o semestre ou projetos novos a realizar individualmente durante o período de exames caso o estudante não tenha realizado os projetos durante o período letivo.

Recomendar Página Voltar ao Topo