Técnicas Matemáticas para Big Data
Informação
Corpo docente: Eugénio Rocha
Duração: Semestral
Horas de trabalho: 162
Horas de contacto: 45
ECTS: 6
Área científica: Matemática
Objetivos
Os avanços tecnológicos ocorridos nas últimas décadas proporcionaram uma capacidade de armazenamento e disponibilização de informação nunca antes possível. Esta unidade curricular tem como objetivo primordial o contacto com algumas técnicas matemáticas vocacionadas ao tratamento destes grandes volumes de dados, cujo estudo é vital à atividade humana.
Resultados de Aprendizagem
Após o término desta unidade curricular, os estudantes deverão ser capazes de usar métodos de otimização numérica em problemas de grande dimensão, aplicar técnicas de redução de dimensionalidade e metodologias de agregação, lidar com conceitos de informação e entropia em inferência, analisar grafos de grande dimensão, bem como usar técnicas de aprendizagem computacional (machine learning) adequadas a problemas de grande dimensão. Espera-se, ainda, que os estudantes sejam capazes de interpretar e comunicar resultados técnicos em qualquer ambiente intercultural.
Avaliação
A avaliação será composta pela apresentação e discussão, em aula, de um trabalho (50%) e pela realização de uma prova escrita (50%).
Metodologia
As aulas decorrem em salas com computadores. Destaque especial será concedido à apresentação de técnicas, de algoritmos e de software (MATLAB, R e Python). A autonomia na resolução de problemas propostos será vivamente fomentada.
Conteúdos
- Métodos de otimização numérica em problemas de grande dimensão
- Redução de dimensionalidade
- Procedimentos de agregação em dados homogéneos e não homogéneos
- Info-Metrics (informação, máxima entropia e inferência)
- Algoritmos de regressão, classificação e clustering para problemas de grande dimensão
- Análise de grafos de grande dimensão (conectividade, centralidade, caminhos).
Bibliografia recomendada
- Aggarwal, C. C. and Reddy, C. K. (2013). Data Clustering: algorithms and applications. CRC Press, Chapman and Hall
- Golan, A. (2017). Foundations of Info-Metrics: Modeling and Inference with Imperfect Information. Oxford University Press, 2017
- Hastie, T., Tibshirani, R. and Wainwright, M. (2015). Statistical Learning with Sparsity: The Lasso and Generalizations. CRC Press, Taylor & Francis Group
- Newman, M. (2010). Networks: An Introduction. Oxford University Press
- Nocedal, J. and Wright, S. J. (2006). Numerical Optimization. Springer, 2nd Edition
- Suthaharan, S. (2016). Machine Learning Models and Algorithms for Big Data Classification. Springer, 1st Edition.