Saltar para:
This page in english Ajuda Autenticar-se
ESTB
Você está em: Início > BINF025

Big Data

Código: BINF025     Sigla: BD

Áreas Científicas
Classificação Área Científica
OFICIAL Informática

Ocorrência: 2023/2024 - 1S

Ativa? Sim
Unidade Responsável: Departamento de Matemática e Informática
Curso/CE Responsável: Licenciatura em Bioinformática

Ciclos de Estudo/Cursos

Sigla Nº de Estudantes Plano de Estudos Anos Curriculares Créditos UCN Créditos ECTS Horas de Contacto Horas Totais
BINF 16 Plano Estudos 2016 3 - 5 67,5 135

Docência - Responsabilidades

Docente Responsabilidade
António Leonardo Gonçalves Responsável

Docência - Horas

Ensino Teórico-Prático: 2,00
Ensino Prático e Laboratorial: 2,00
Tipo Docente Turmas Horas
Ensino Teórico-Prático Totais 1 2,00
António Leonardo Gonçalves 2,00
Maria Raquel Feliciano Barreira 2,00
Ensino Prático e Laboratorial Totais 1 2,00
António Leonardo Gonçalves 2,00
Maria Raquel Feliciano Barreira 2,00

Língua de trabalho

Português

Objetivos









Esta UC permitirá o conhecimento de ferramentas de armazenamento, processamento e visualização de grandes volumes de dados, o desenvolvimento de competências na construção e teste de algoritmos eficientes para Big Data, nomeadamente o estudo de paradigmas, modelos, ferramentas e linguagens de programação paralela.
No fim da unidade curricular o estudante deverá ser capaz de


- Determinar a solução a aplicar e os instrumentos a utilizar no armazenamento, exploração e análise de um grande volume de dados
- Selecionar opções de visualização adequadas para resumir e extrair conhecimento de um grande volume de dados


- Compreender o conceito de processamento paralelo e distribuído como forma de aumentar o desempenho na gestão e análise de dados
- Desenvolver algoritmos e modelos que permitam resolver problemas que explorem a gestão da concorrência, da distribuição e do paralelismo






- Reconhecer as diferentes arquiteturas de hardware de suporte ao funcionamento destes algoritmos













Resultados de aprendizagem e competências

Não aplicável

Modo de trabalho

Presencial

Programa









1.Visualização de grande volume de dados
2.Armazenamento em larga escala
Bases de dados não relacionais (chave-valor, orientadas a documentos, família de colunas, orientadas a grafos) Comparativo entre bases de dados relacionais e não relacionais
3.Modelos de Programação Paralela
Modelo de Memória Partilhada
Modelo de Threads
Memória distribuída
Modelo de passagem de mensagens
Modelo de dados paralelos
Modelo Híbridos
Single Program Multiple Data (SPMD)
Multiple Program Multiple Data (MPMD)
4. Desenho de programas paralelos
Paralelização automática vs. Manual
Particionamento
Comunicações
Sincronização
Dependências de dados
Balanceamento de carga
Granularidade
E/S
Depuração
Análise e afinação de desempenho
5.Algoritmos paralelos
Algoritmos paralelos para sequências e strings
Algoritmos paralelos para árvores e gráficos
Algoritmos paralelos para computação numérica/científica









Bibliografia Obrigatória

Sadalage et al.; No SQL distilled : a brief guide to the emerging world of polyglot persistence, Pearson Education, 2012
O'Neil, C. and Schutt, R.; Doing Data Science: Straight Talk from the Frontline, 2013
Leskovec, J., Rajaraman, A., Ullman, K.; Mining of Massive Datasets, Cambridge University Press, 2nd Ed., 2014
White, T.; Hadoop: The Definitive Guide, O'Reilly, 2015
Wilke, C. O; Data Visualisation, O’Reilly, 2019
Pacheco, P.; Introduction to Parallel Algorithms (2nd ed.), 2021
Kleppmann, M. ; Designing data-intensive applications: The big ideas behind reliable, scalable, and maintainable systems, 2017

Bibliografia Complementar

Knaflick, N. C; Storytelling with data, Wiley, 2015

Métodos de ensino e atividades de aprendizagem









As metodologias de ensino predominantes serão a exposição de conceitos, com recurso a slides e a demonstração de exemplos laboratório de informática. Os estudantes serão constantemente desafiados a resolver novos problemas, com base nos exemplos já demonstrados, e a refletir sobre os resultados e desempenho do processos de armazenamento e processamento em estudo.









Software

Pyspark
Python
MongoDb

Tipo de avaliação

Avaliação distribuída com exame final

Componentes de Avaliação

Designação Peso (%)
Teste 40,00
Trabalho escrito 60,00
Total: 100,00

Componentes de Ocupação

Designação Tempo (Horas)
Estudo autónomo 45,00
Frequência das aulas 45,00
Trabalho laboratorial 45,00
Total: 135,00

Obtenção de frequência

N/A

Fórmula de cálculo da classificação final

Por avaliação contínua


  • nota final= 20%*projeto1+20%*projeto2+20%*projeto3 + 40%*teste 



  

 Por avaliação final



  • Nota final= 20%*projeto1+20%*projeto2+20%*projeto3 + 40%*exame 




Em época de exame: pesos idênticos, podendo os projetos ser os realizados durante o semestre ou projetos novos a realizar individualmente durante o período de exames caso o estudante não tenha realizado os projetos durante o período letivo.
Recomendar Página Voltar ao Topo
Copyright 1996-2024 © Instituto Politécnico de Setúbal - Escola Superior de Tecnologia do Barreiro  I Termos e Condições  I Acessibilidade  I Índice A-Z
Página gerada em: 2024-05-18 às 08:47:00