Investigando essas extrações nacionais da base da SIVEP-Gripe, e comparando com as extrações feitas para estados e municípios por outras secretarias de saúde, detectamos grandes inconsistências com a base nacional, começando em 02/06/2020.
1
4
40
As extrações públicas são anonimizadas, ou seja, são retirados todos os dados sensíveis (nome, endereço, etc) e mantidos apenas os dados necessários para análises epidemiológicas.
1
1
33
A partir do dia 02/06, a base nacional passou a mostrar apenas metade do números de casos diários de COVID-19 que já constavam para extrações anteriores da SIVEP, como vemos no gráfico para dados do Estado de SP.
Imagem
1
7
40
Essa mudança removeu inclusive casos antigos, em dias em que a base já estava consolidada. Podemos comparar também a mesma base divulgada por duas esferas diferentes: nacional e estadual, na mesma data.
1
3
37
Para o estado de São Paulo, o número de casos representados na extração nacional pública é basicamente a metade do que está na extração feita pela SES SP. Extrações feitas por outras Secretarias Municipais e Estaduais mostram a mesma diferença de ~50%.
Imagem
1
6
38
Uma comparação detalhada mostra que essa diferença está na base nacional, já que praticamente metade dos dados não estão presentes na extração disponível ao público, mas todos os registros da base nacional aparecem na base estadual.
Mas as estimativas de duplicações são da ordem de 5%, não 50%. Além disso, as duplicatas deveriam ser removidas diretamente do banco de dados original, e não das extrações. .
1
1
30
Então há algum tratamento não esclarecido nos microdados que o MS disponibiliza publicamente. Não deve ser uma alteração na SIVEP-Gripe, pois as secretarias estaduais fizeram extrações desta mesma base de dados e não encontraram inconsistências significativas.
1
4
31
As consolidações não batem, e os dados parecem estar só pela metade no portal de dados abertos. Essa análise é válida para a base SIVEP-Gripe, onde constam casos graves de COVID-19, além de casos de SRAG.
1
2
35
Conclusão: é necessária muita cautela ao utilizar os dados consolidados disponibilizados nas plataformas de acesso público, recomendando-se quando possível utilizar os dados primários disponíveis para análises e planejamento.