Método inovador e rápido desenvolvido por brasileiros codifica em sequências de DNA os registros de identificação de pessoas, possibilitando que informações de vários bancos sejam interligadas mesmo que contenham erros ou inconsistências. Plataforma pode ser usada para análises epidemiológicas e formulação de políticas públicas (imagem: Gerd Altmann/Pixabay)
Método inovador e rápido desenvolvido por brasileiros codifica em sequências de DNA os registros de identificação de pessoas, possibilitando que informações de vários bancos sejam interligadas mesmo que contenham erros ou inconsistências. Plataforma pode ser usada para análises epidemiológicas e formulação de políticas públicas
Método inovador e rápido desenvolvido por brasileiros codifica em sequências de DNA os registros de identificação de pessoas, possibilitando que informações de vários bancos sejam interligadas mesmo que contenham erros ou inconsistências. Plataforma pode ser usada para análises epidemiológicas e formulação de políticas públicas
Método inovador e rápido desenvolvido por brasileiros codifica em sequências de DNA os registros de identificação de pessoas, possibilitando que informações de vários bancos sejam interligadas mesmo que contenham erros ou inconsistências. Plataforma pode ser usada para análises epidemiológicas e formulação de políticas públicas (imagem: Gerd Altmann/Pixabay)
Luciana Constantino | Agência FAPESP – Pesquisadores brasileiros criaram uma ferramenta computacional inovadora e ágil capaz de vincular e analisar diferentes bases de dados de saúde com milhões de informações. Chamada Tucuxi-BLAST, a plataforma codifica os diferentes registros contidos em um banco – por exemplo, o nome do indivíduo, o nome de sua mãe e a cidade natal – usando letras que representam os nucleotídeos de uma sequência de DNA (A, T, C ou G). Ao "transformar" a pessoa em um DNA, permite que informações de vários bancos sejam interligadas mesmo que contenham erros ou inconsistências.
Esses resultados podem ser usados em pesquisas, análises epidemiológicas e na formulação de políticas públicas.
Com o método, é possível fazer um cruzamento da base de pessoas vacinadas pelo Sistema Único de Saúde (SUS) com dados de outros bancos para encontrar, por exemplo, pacientes vacinados que contraíram uma determinada doença. Mesmo que esses registros contenham erros de digitação, troca de letras – como Elza Souza ou Elsa Sousa – ou falta de algum dado (campo inexistente ou não preenchido), o Tucuxi-BLAST pode identificar que se trata dos mesmos indivíduos vindos de bases de dados diferentes.
Ou seja, as diferenças de registro de um mesmo indivíduo são entendidas pelo sistema como se fossem "mutações" no DNA. Isso porque ferramentas genômicas são capazes de mostrar os fragmentos mais similares a outro e, com isso, fazer a ligação das bases. Com a sequência de letras para cada indivíduo, é possível cruzar e unir dados de diferentes repositórios.
“O SUS pode ser uma fonte preciosa de informação para estudos médicos e epidemiológicos, já que armazena dados de saúde de milhões de indivíduos. Porém, cada doença ou tipo de dado fica armazenado em bases diferentes, que nem sempre conversam entre si. Com o método que desenvolvemos, eficaz e rápido, é possível fazer o link entre elas”, afirma à Agência FAPESP o imunologista Helder Nakaya, autor correspondente do artigo Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach, publicado nesta segunda-feira (11/07) na revista científica PeerJ.
Pesquisador do Hospital Israelita Albert Einstein, da Plataforma Científica Pasteur-USP (SPPU) e do Instituto Todos pela Saúde, Nakaya faz parte do Centro de Pesquisa em Doenças Inflamatórias (CRID), um Centro de Pesquisa, Inovação e Difusão (CEPID) da FAPESP. O trabalho também recebeu apoio da Fundação por meio de outros dois projetos (18/14933-2 e 19/27139-5).
Usando na prática
Antes mesmo de o artigo ser publicado, a ferramenta já começou a ser usada na prática. O Tucuxi-BLAST foi instrumento para outra pesquisa que combinou um conjunto de dados da Vigilância Nacional da Malária (Sivep malária) com informações clínicas do sistema da Fundação de Medicina Tropical Dr. Heitor Vieira Dourado, em Manaus, obtidos durante quatro anos.
O resultado desse trabalho mostrou que o fato de ser HIV positivo é um risco em casos de infecção por malária causada pelo Plasmodium vivax, o que representa um desafio adicional na formulação de políticas públicas voltadas a atender pacientes com a doença transmitida pelo mosquito Anopheles.
Com a ausência de um identificador único, o Tucuxi-BLAST utilizou os nomes do paciente e da mãe e a data de nascimento. As conclusões foram publicadas em maio na revista Scientific Reports.
Coordenado por pesquisadores da Universidade do Estado do Amazonas (UEA), o estudo contou com a participação de Nakaya e do cientista de dados José Deney Alves Araújo, da Faculdade de Ciências Farmacêuticas da Universidade de São Paulo (FCF-USP), primeiro autor do artigo da PeerJ. Foi Araújo quem deu nome ao sistema, batizado de Tucuxi em homenagem ao boto-preto – uma espécie de golfinho de água doce existente na bacia do Amazonas.
Já o BLAST vem do nome da ferramenta básica de busca de alinhamento local, muito usada em bioinformática para comparar grandes bancos de dados a sequências biológicas.
Como funciona
Para desenvolver o novo método, os cientistas traduziram os dados de indivíduos em sequências de DNA usando uma roda de códons – série de bases nitrogenadas de RNA mensageiro responsáveis pela codificação de um determinado aminoácido ou que indicam o ponto de início ou fim da cadeia de RNAm. Essas rodas mudam em diferentes execuções sem prejudicar a eficiência do processo.
O esquema de codificação permite a criptografia de dados em tempo real, garantindo privacidade durante a vinculação. "Trabalhando com DNA é possível criptografar os dados, dando uma segurança maior à privacidade das informações", explica Nakaya.
A comparação dos campos de identificação codificados por DNA é feita usando BLAST e algoritmos de aprendizado do computador, que automaticamente classificam os resultados finais.
Semelhante à genômica comparativa, em que genes de diferentes genomas são comparados para determinar sequências comuns e únicas, o Tucuxi-BLAST permite a integração simultânea de múltiplos bancos administrativos, sem a necessidade de dados complexos pré-processados.
Durante o estudo, o grupo testou e comparou informações de um banco simulado contendo registros de 300 milhões de indivíduos, além de quatro grandes bases de dados administrativos com informações reais de pacientes brasileiros.
A conclusão foi que o método conseguiu superar erros ortográficos e tipográficos em um prazo cinco vezes mais rápido – enquanto o processamento em ligações de registros (RL, sigla em inglês para record linkage) do maior conjunto de dados (200 mil registros) levou 127 horas (cinco dias e sete horas), o Tucuxi-BLAST fez em 23 horas (menos de um dia).
Os pesquisadores criaram um site onde é possível "traduzir" palavras, frases e nomes em DNA.
Nakaya lembra que alguns países, como Inglaterra, Canadá e Austrália, investiram em iniciativas bem-sucedidas de análises de dados, construindo centros para integração e desenvolvimento de novas estratégias de análise.
No Brasil, um exemplo é o Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs/Fiocruz Bahia), que dispõe de um banco com informações de 114 milhões de brasileiros, obtidas por meio da integração de bases administrativas e de saúde.
O artigo Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach pode ser lido em: https://peerj.com/articles/13507/.
A Agência FAPESP licencia notícias via Creative Commons (CC-BY-NC-ND) para que possam ser republicadas gratuitamente e de forma simples por outros veículos digitais ou impressos. A Agência FAPESP deve ser creditada como a fonte do conteúdo que está sendo republicado e o nome do repórter (quando houver) deve ser atribuído. O uso do botão HMTL abaixo permite o atendimento a essas normas, detalhadas na Política de Republicação Digital FAPESP.