Técnicas Matemáticas para Big Data

Informação

Corpo docente: Eugénio Rocha

Duração: Semestral

Horas de trabalho: 162

Horas de contacto: 45

ECTS: 6

Área científica: Matemática

Objetivos

Os avanços tecnológicos ocorridos nas últimas décadas proporcionaram uma capacidade de armazenamento e disponibilização de informação nunca antes possível. Esta unidade curricular tem como objetivo primordial o contacto com algumas técnicas matemáticas vocacionadas ao tratamento destes grandes volumes de dados, cujo estudo é vital à atividade humana.

Resultados de Aprendizagem

Após o término desta unidade curricular, os estudantes deverão ser capazes de usar métodos de otimização numérica em problemas de grande dimensão, aplicar técnicas de redução de dimensionalidade e metodologias de agregação, lidar com conceitos de informação e entropia em inferência, analisar grafos de grande dimensão, bem como usar técnicas de aprendizagem computacional (machine learning) adequadas a problemas de grande dimensão. Espera-se, ainda, que os estudantes sejam capazes de interpretar e comunicar resultados técnicos em qualquer ambiente intercultural.

Avaliação

A avaliação será composta pela apresentação e discussão, em aula, de um trabalho (50%) e pela realização de uma prova escrita (50%).

Metodologia

As aulas decorrem em salas com computadores. Destaque especial será concedido à apresentação de técnicas, de algoritmos e de software (MATLAB, R e Python). A autonomia na resolução de problemas propostos será vivamente fomentada.

Conteúdos

  • Métodos de otimização numérica em problemas de grande dimensão
  • Redução de dimensionalidade
  • Procedimentos de agregação em dados homogéneos e não homogéneos
  • Info-Metrics (informação, máxima entropia e inferência)
  • Algoritmos de regressão, classificação e clustering para problemas de grande dimensão
  • Análise de grafos de grande dimensão (conectividade, centralidade, caminhos).

Bibliografia recomendada

  • Aggarwal, C. C. and Reddy, C. K. (2013). Data Clustering: algorithms and applications. CRC Press, Chapman and Hall
  • Golan, A. (2017). Foundations of Info-Metrics: Modeling and Inference with Imperfect Information. Oxford University Press, 2017
  • Hastie, T., Tibshirani, R. and Wainwright, M. (2015). Statistical Learning with Sparsity: The Lasso and Generalizations. CRC Press, Taylor & Francis Group
  • Newman, M. (2010). Networks: An Introduction. Oxford University Press
  • Nocedal, J. and Wright, S. J. (2006). Numerical Optimization. Springer, 2nd Edition
  • Suthaharan, S. (2016). Machine Learning Models and Algorithms for Big Data Classification. Springer, 1st Edition.