ENCODE – A ENCICLOPÉDIA HUMANA

O ENCODE – um consórcio de 32 instituições, envolvendo mais de 440 pesquisadores – foi projetado para dar seguimento às atividades do Projeto Genoma. Apesar de todo o esforço para revelar o “projeto” por trás da Biologia Humana, rapidamente ficou claro que o manual de instruções necessário para ler o projeto era, na melhor das hipóteses, um rascunho. Pesquisadores do Projeto Genoma identificaram, dentre os 3 bilhões de bases que compões o Genoma Humano, muitas das regiões que codificam proteínas. Entretanto, essas regiões perfazem não mais do que 1% do genoma, que contém cerca de 20.000 genes – alguns poucos elementos familiares dentre a deserta e irreconhecível paisagem. Muitos biólogos suspeitavam que a explicação para a enorme complexidade dos humanos estava em algum lugar nesse “deserto” entre os genes. O ENCODE, fundado em 2003, é um esforço massivo para a coleta e análise de dados que possam povoar esse terreno. Seu objetivo é catalogar as sequências de DNA “funcionais” que se localizam nessas áreas, aprender quais células elas ativam e como determinar seus efeitos sobre como o genoma é compactado, regulado e lido.

O consórcio atribuiu algum tipo de função a praticamente 80% do genoma, incluindo 70.000 regiões promotoras – as áreas imediatamente anteriores aos genes, onde as proteínas se ligam para regular a expressão gênica – e aproximadamente 400.000 regiões realçadoras que regulam a expressão de genes à distância. O ENCODE já lançou luz sobre algumas fronteiras obscuras do genoma, gerando oportunidades para entender como as variações genéticas afetam as características hereditárias e a suscetibilidade individual a determinadas doenças. A exploração da miríade de elementos regulatórios revelada pelo projeto e a comparação das sequências humanas com as de outros mamíferos promete redefinir o conhecimento científico sobre a evolução da espécie humana.

Mesmo antes do término do projeto, seus resultados já haviam revolucionado a visão dos biólogos a respeito do genoma. Por exemplo, apesar de apenas uma pequena proporção do DNA ser utilizada para produzir RNAs mensageiros (que codificam a produção de proteínas), os cientistas descobriram que grande parte do genoma é transcrita em moléculas de RNA não-codificadoras, algumas das quais são hoje conhecidas como importantes elementos reguladores da expressão gênica. E, apesar de muitos geneticistas acreditarem que os elementos funcionais seriam aqueles mais conservados entre as espécies, foi demonstrado que muitas sequências regulatórias importantes evoluíram rapidamente.

Para chegar aos resultados agora publicados, os cientistas do consórcio isolaram e sequenciaram o RNA transcrito a partir do genoma e identificaram os sítios de ligação ao DNA de cerca de 120 fatores de transcrição. Foram mapeadas as regiões do genoma recobertas por radicais “metil”, que geralmente indicam área em que os genes são silenciados. Foram examinados os padrões de modificação química das proteínas histona, que ajudam a compactar o DNA nos cromossomos e podem sinalizar regiões em a expressão gênica está aumentada ou suprimida. E, apesar do genoma ser o mesmo em praticamente todas as células humanas, a maneira como cada tipo celular o utiliza é diferente.

A partir de resultados de 24 tipos de experimentos diferentes conduzidos com diferentes linhagens celulares (ao menos 147), foram mapeadas regiões regulatórias utilizando uma enzima chamada DNase I. Essa enzima tem pouca atividade sobre o DNA que está ligado às histonas, mas quebra regiões de DNA que estejam ligadas a outras proteínas reguladoras, como fatores de transcrição. O sequenciamento dos fragmentos de DNA quebrados pode sugerir onde essas proteínas se ligam, nos diferentes tipos celulares. No total, foram descobertos 2,9 milhões dessas regiões. Praticamente um terço foi descoberto em apenas um tipo celular e apenas 3.700 foram demonstradas em todas as linhagens, sugerindo que a maneira como o genoma é regulado difere significativamente entre os tipos celulares.

O desafio começa quando os dados de vários experimentos são analisados simultaneamente. Experimentos para avaliar a modificação química de histonas, por exemplo, revelaram padrões que correspondem às fronteiras das regiões suscetíveis à digestão por DNaseI. A partir daí, os cientistas podem adicionar dados mostrando exatamente quais fatores de transcrição se ligam a quais posições do genoma, e quando. As vastas regiões desertas do genoma foram agora povoadas com centenas de milhares de características que contribuem para a regulação gênica. Cada tipo celular usa uma combinação diferente dessas características para dar origem aos aspectos únicos de sua biologia. Essa riqueza ajuda e explicar como relativamente poucos genes codificadores de proteínas podem prover a complexidade biológica necessária para originar e manter um organismo tão complexo quanto o dos seres humanos.

Os dados do consórcio ENCODE já estão ajudando os pesquisadores a compreender melhor os aspectos genéticos de algumas doenças. Desde 2005, estudos de associação genômica ampla (GWAS) determinaram milhares de pontos no genoma em que a diferença de uma única base (SNPs), ou variante, para estar associada ao risco de desenvolver a doença. Quase 90% dessas variantes encontram-se fora dos genes codificadores de proteínas. Assim, os cientistas têm muitas dúvidas sobre como essas variantes podem causar ou influenciar o desenvolvimento das doenças. Entretanto, o mapa genômico criado pelo consórcio ENCODE revelou que muitas regiões ligadas a doenças incluem sequências realçadoras ou outras sequências funcionais.

Os pesquisadores do projeto querem agora avaliar células retiradas diretamente de uma pessoa. O problema é que muitos tipos celulares não crescem em cultura, de modo que os experimentos teriam que ser realizados com quantidades muito pequenas de DNA. Além disso, seria difícil conseguir amostras de determinados tecidos e órgãos, como o cérebro. Os tipos de experimentos conduzidos também devem aumentar. Uma área que está em pleno desenvolvimento envolve a avaliação de interações tridimensionais entre partes do genoma. Dependendo da forma tridimensional que o DNA assume, elementos realçadores podem regular a expressão de genes localizados a centenas de milhares de bases, de modo que proteínas ligadas às regiões realçadoras poderiam interagir com outras proteínas ligadas em regiões próximas ao gene.

A comunidade científica levou mais de meio século entre compreender que o DNA é a molécula responsável pelas características hereditárias individuais e determinar a sequência do genoma humano. Pode-se imaginar que o objetivo científico para o próximo século seja realmente compreender funcionalmente essa sequência.

Traduzido e adaptado de Maher, B. The Human Encyclopaedia. Nature, v. 489, 2012 por Irina N. Riediger.