ICICT Ciência de Dados

A Ciência de Dados é um conjunto de estratégias, ferramentas e técnicas que busca reunir equipes multidisciplinares formadas por pesquisadores com conhecimento substantivo do problema em análise (no nosso caso saúde pública), estatísticos, matemáticos e cientistas da computação. Trata-se de um campo de estudo bastante promissor e destaca-se pela capacidade de auxiliar a descoberta de informação útil a partir de grandes bases de dados e a tomada de decisão orientada por dados (data-driven analysis).

 

Ela combina métodos tradicionais de análise com algoritmos sofisticados para processar grandes volumes de dados em formatos diversos; estruturados, semiestruturados e não-estruturados. O processo de análise no âmbito da Ciência de Dados  envolve as fases de (i) coleta e ingestão: extração, transformação e carga (mais conhecido como ETL, do inglês Extract Transform Load); (ii) pré-processamento: seleção de registros, redução de dimensionalidade, normalização, criação de subconjuntos de dados; (iii) análise exploratória e mineração de dados: principalmente análises voltadas para classificação, associação, agrupamento, detecção de anomalias e predição; (iv) pós-processamento: interpretação de padrões, filtragem, visualização e acoplamento em sistemas de apoio a decisão e plataformas online para visualização.

 

 

O termo “Big Data” vem despertando atenção fora dos grupos de pesquisa acadêmica que estão na fronteira do conhecimento em ciência da computação, física de partículas, genética e astronomia. Para definir Big Data, com certeza estamos falando de um volume de dados muito grande, mas além de grandes volumes existem outras características importantes na composição do conceito. Além do volume (que deve ser “Big”) uma de suas principais características é a variedade de dados a serem processados, que podem ser dados estruturados, dados semiestruturados e dados não estruturados (comentários em redes sociais, blogs, websites, buscas no Google, etc.). Outro fator que caracteriza Big Data é a velocidade necessária para o processamento das grandes e diversas bases de dados armazenadas e com a possibilidade de processamento em tempo real. Em ambos os casos a inovação está na adoção do processamento paralelo e distribuído em diversas máquinas.

 

No âmbito do setor saúde não é difícil imaginar as possibilidades da abordagem Big Data para análise, monitoramento, predição de eventos (casos) e situações de saúde e doença na população, bem como a associação destes com seus determinantes sociais. O setor saúde já produz uma quantidade enorme de dados sobre as pessoas que acessam o SUS, porém é importante também termos informações disponíveis sobre quem ainda não acessou, e isso só é possível com integração de bases externas ao setor e processamento em tempo real, como por exemplo, as redes sociais, blogs e mídia digital.

 

A adoção da estratégia de Big Data em Saúde nos forçará a modificar a forma como coletamos, armazenamos, gerenciamos, analisamos e visualizamos os dados de saúde, e os dados de interesse para a saúde.