Ciência de Dados aplicada à Saúde | Plataforma de Ciência de Dados aplicada à Saúde

Acesse a Plataforma

Ciência de Dados aplicada à Saúde

A Plataforma de Ciência de Dados aplicada à Saúde (PCDaS) é uma iniciativa do Laboratório de Informação em Saúde (Lis) do Instituto de Comunicação e Informação Científica e Tecnológica em Saúde (Icict) da Fundação Oswaldo Cruz (Fiocruz), em parceria com o Laboratório Nacional de Computação Científica (LNCC). Tem como objetivo principal disponibilizar serviços tecnológicos e computação científica para armazenamento, gestão e análise de grandes quantidades de dados para pesquisadores, docentes e discentes de instituições de ensino e pesquisa.

 

Ciência de Dados é um campo de estudo que se destaca pela capacidade de auxiliar a descoberta de informação útil a partir de grandes ou complexas bases de dados, bem como a tomada de decisão orientada por dados. Pode ser definida como um conjunto de estratégias, ferramentas e técnicas para coleta, transformação e análise de dados realizadas por equipes multidisciplinares formadas por pesquisadores com conhecimento substantivo do problema em análise – no nosso caso saúde pública - estatísticos, matemáticos e cientistas da computação (data-driven analysis).

 

Ela combina métodos tradicionais de análise com algoritmos sofisticados para processar grandes volumes de dados em formatos diversos; estruturados, semiestruturados e não-estruturados. O processo de análise no âmbito da Ciência de Dados  envolve as fases de (i) coleta e ingestão: extração, transformação e carga (mais conhecido como ETL, do inglês Extract Transform Load); (ii) pré-processamento: seleção de registros, redução de dimensionalidade, normalização, criação de subconjuntos de dados; (iii) análise exploratória e mineração de dados: principalmente análises voltadas para classificação, associação, agrupamento, detecção de anomalias e predição; (iv) pós-processamento: interpretação de padrões, filtragem, visualização e acoplamento em sistemas de apoio a decisão e plataformas online para visualização.

 

 

O termo “Big Data” vem despertando atenção fora dos grupos de pesquisa acadêmica que estão na fronteira do conhecimento em ciência da computação, física de partículas, genética e astronomia. Para definir Big Data, com certeza estamos falando de um volume de dados muito grande, mas além de grandes volumes existe outras características importantes na composição do conceito. Além do volume (que deve ser “Big”) uma de suas principais características é a variedade de dados a serem processados, que podem ser dados estruturados, dados semiestruturados e dados não estruturados (comentários em redes sociais, blogs, websites, buscas no Google, etc.). Outro fator que caracteriza Big Data é a velocidade necessária para o processamento das grandes e diversas bases de dados armazenadas e com a possibilidade de processamento em tempo real. Em ambos os casos a inovação está na adoção do processamento distribuído.

 

No âmbito do setor saúde não é difícil imaginar as possibilidades da abordagem da Ciência de Dados para análise, monitoramento, predição de eventos (casos) e situações de saúde e doença na população, bem como a associação destes com seus determinantes sociais. O setor saúde já produz uma quantidade enorme de dados sobre as pessoas que acessam o SUS, porém é importante também termos informações disponíveis sobre quem ainda não acessou, e isso só é possível com integração de bases externas ao setor e processamento em tempo real, como por exemplo, as redes sociais, blogs e mídia digital.

 

A adoção dessas ferramentas e estratégias nos forçará a modificar a forma como coletamos, armazenamos, gerenciamos, analisamos e visualizamos os dados de saúde, e os dados de interesse para a saúde.