Carlos Costa investigador ALGORITMI concluiu doutoramento em PDTSI

Tema da Tese: Advancing the Design and Implementation of Big Data Warehousing Systems
Autor (a) : Carlos Filipe Machado da Silva Costa
Programa Doutoral : Programa Doutoral em Tecnologias e Sistemas de Informação (PDTSI)
Orientador (a): Maribel Yasmina Santos 
Data de Defesa: 
11/04/2019

Resumo:
Os avanços atuais das Tecnologias da Informação têm levado as organizações a procurar um elevado valordo negócio e vantagens competitivas através da recolha, armazenamento, processamento, e análise de vastas quantidades de dados heterogéneos, gerados a velocidades cada vez maiores. Dado que um DW é um artefacto de dados fundamental nas organizações, uma linha de investigação atual é o conceito de BDW, caracterizando sistemas em tempo-real, escaláveis, de elevado desempenho, com armazenamento flexível, e baseados em commodity hardware, sendo capazes de ultrapassar as limitações dos DWs tradicionais de forma a assegurar uma variedade de tarefas complexas de Big Data analytics. O estado da arte em BDWing reflete o facto de ser um conceito emergente, bem como a ambiguidade e falta de abordagens integradas para a conceção e implementação destes sistemas. Preencher esta lacuna é significativamente relevante, razão pela qual este trabalho propõe uma abordagem composta por modelos e métodos para conceber e implementar BDWs, focando-se nos componentes lógicos, fluxos de dados, infraestrutura tecnológica, modelação de dados, e na recolha, preparação, e enriquecimento dos dados. Para demonstrar a utilidade, eficácia, e eficiência da solução proposta, este trabalho considera quatro casos de demonstração: 1) a aplicação do método proposto para a modelação de dados em várias potenciais aplicações do mundo-real, incluindo retalho, produção, finanças, desenvolvimento de software, sistemas baseados em sensores, e notícias e eventos a nível mundial; 2) a aplicação do método para recolher, preparar e enriquecer dados (batch e streaming ) provenientes de vários sistemas-fonte; 3) uma extensão do SSB desenvolvida à medida (SSB+), na qual várias workloads foram executadas de modo a avaliar o desempenho de um BDW implementado usando a abordagem proposta, comparando-o com um DW dimensional tradicional; 4) uma instância do mundo-real baseada no desenvolvimento de um sistema de BDWing no contexto de smart cities. Os resultados deste trabalho revelam que a abordagem pode ser aplicada e generalizada para suportar vários contextos de aplicação, disponibilizando modelos de dados adequados e flexíveis que conseguem reduzir o tempo de implementação entre a recolha de dados e a análise de dados. Além disso, a abordagem apresenta frequentemente tempos mais rápidos na execução de queries e um uso de recursos mais eficiente do que uma abordagem dimensional tradicional. Consequentemente, a abordagem proposta pode ser usada para a conceção e implementação de BDWs seguindo uma abordagem sistémica, em vez de uma abordagem ad hoc e use case driven, o que é visto como um contributo valioso para a comunidade técnico-científica relacionada com este tópico.
Palavras-chave – Big Data, Big Data Warehouse, Engenharia de Dados, Ciência de Dados.”