Capítulo 8.3: Análise de associação genética
MAGMA
Título: Como passamos das descobertas genéticas do GWAS/WGS/WES para a visão mecanicista da doença?
Apresentador(es): Danielle Posthuma (Department of Complex Trait Genetics, Vrije Universiteit Amsterdam)
Bem, bem-vindo de volta, esta é a terceira parte da sessão sobre como passamos das descobertas genéticas ao conhecimento mecanicista da doença, e nesta última parte vou me concentrar um pouco na ferramenta de software MAGMA para conduzir análises baseadas em genes e vias. Então na prática você aprenderá como trabalhar com o MAGMA, que é uma ferramenta que foi criada por Christiaan de Leeuw há alguns anos e pode ser baixada neste site aqui [https://ctg.cncr.nl/software/magma].
É uma ferramenta para análise de conjunto de genes e requer que você trabalhe com a interface de linha de comando, que agora deve ser bastante familiar para você e como entrada você pode fornecer dados genotípicos e fenotípicos brutos ou também pode fornecer estatísticas resumidas de resultados de estudos de associação já publicados, mas você também precisaria de alguns dados de referência. Porque precisamos de informações sobre a estrutura LD entre os SNPs que fazem parte da sua análise e a outra entrada são as definições dos genes. Então é com isso que vemos quais SNPs pertencem a quais genes e voltarei a isso nos próximos slides e também nas definições de conjuntos de genes. Mas se você baixar o MAGMA, existem alguns arquivos que possuem alguns arquivos padrão que você pode usar, que fazem isso para você, mas você também está livre para usar seus próprios arquivos se quiser. Então, apenas como um aparte, se você quiser ter acesso a estatísticas resumidas públicas, criamos um banco de dados e neste slide acabei de adicionar um exemplo quando você estiver interessado em olhar para um GWAS específico, então ele lhe dá o gráfico de Manhattan, gráficos baseados em genes, o gráfico QQ. Também já fornece resultados de conjuntos de genes. E dá algumas informações sobre este GWAS com o link para o PubMed ID e onde baixar os dados. Então, você pode usar este banco de dados se quiser brincar com qualquer ferramenta de software que exija a inserção de estatísticas resumidas, então sim, você pode simplesmente baixar estatísticas resumidas deste banco de dados, mas também existem alguns outros bancos de dados que têm o mesmo propósito. Na análise do conjunto de genes MAGMA, há três etapas principais, então a primeira etapa é a anotação onde combinamos os SNPs com os genes e, portanto, o MAGMA precisa saber quais SNPs devo analisar como parte de qual gene. Então esse é o primeiro passo.
O passo dois é a análise do gene, e é aí que calculamos a associação do gene com o fenótipo. Então aqui a unidade de análise é o gene e o terceiro passo é a análise do conjunto de genes, onde a associação de conjuntos de genes é testada em relação ao seu fenótipo. E então, por ser uma estrutura de regressão linear muito geral que pode ser facilmente estendida, é muito fácil usar conjuntos contínuos. Então, em vez de ter um conjunto dicotômico onde os genes são membros do conjunto de genes ou não são membros do conjunto de genes, você também pode ter um conjunto de genes quantitativamente definido, onde cada gene tem um valor que indica quão provável é de fazer parte de um conjunto de genes, ou que indica o nível de expressão de um gene em um tipo de célula e então o tipo de célula é o conjunto de genes. E também permite fazer análises condicionais e conjuntas e análises de interação como foi explicado na segunda parte das palestras de hoje.
Anotação
Agora voltando às três etapas principais, anotação. Se você baixar o MAGMA, ele vem com um arquivo de anotação geral e os SNPs são mapeados para genes com base na localização física, mas você também pode alterar esse arquivo de anotação para que possa, se quiser que os eQTLs sejam incluídos nele, você pode mapear SNPs que estão fisicamente localizados fora de um gene, mas que possuem uma ligação eQTL conhecida com o gene, ou interação com a cromatina, que também é possível de usar. Você também pode adicionar uma janela ao redor do gene para poder dizer, bem, eu gostaria de ter talvez 1 megabase antes e depois do gene e esses SNPs também devem ser analisados como parte deste gene. Na verdade, um SNP pode ser ligado e mapeado em vários genes.
Análise Genética
Então, se você executar a análise, existem quatro modelos disponíveis no MAGMA. Se você tiver os dados genotípicos brutos, ele conduzirá uma análise de regressão linear de componentes principais e isso só poderá ser feito quando você tiver acesso aos dados brutos. Então, se você inserir estatísticas resumidas, o que a maioria de vocês provavelmente fará, então existem três modelos diferentes que você pode usar para avaliar a significância estatística de seus genes e de seus conjuntos de genes.
Portanto, o primeiro modelo é a média do SNP (Mean Model) e realiza o teste na associação média do SNP, de modo que avalia a evidência de associação de todos os SNPs que estão localizados no gene e então usa a associação média para avaliar se o gene está realmente associado. Ou você pode fazer o Top Model baseado em SNP, onde o foco da análise está na associação do SNP mais forte, e você também pode combinar esses dois modelos e obter isso, o Multi Model SNPwise, onde a evidência de ambos os modelos anteriores é combinado em um valor p para o seu gene. E sim, decidir qual modelo é melhor para você depende de qual é sua hipótese real. Então, que tipo de sensibilidade você deseja? Portanto, não existe, não achamos que exista o melhor, o melhor modelo. Realmente depende da situação ou da sua questão de pesquisa. É por isso que fornecemos vários modelos na ferramenta MAGMA. Então, o que está sendo feito na ferramenta MAGMA, quando você faz uma análise de conjunto de genes, é basicamente uma análise de genes. Portanto, em vez de os indivíduos serem a sua unidade de análise ou os seus pontos de dados, os genes são os pontos de dados na análise. Portanto, nesta tabela listamos 10 IDs de genes diferentes e cada um desses genes foi testado para associação na etapa baseada em genes no MAGMA. Portanto, todos eles têm algum tipo de medida da força da associação com o seu fenótipo com base nas estatísticas resumidas do GWAS. E também há uma indicação se eles fazem ou não parte do conjunto de genes que você gostaria de testar.
Portanto, neste caso, os genes são os pontos de dados e o conjunto de genes é a variável de agrupamento e a associação genética com o fenótipo, esse é o resultado que você gostaria de obter, então este é basicamente um teste T simples para testar se a associação média dos genes que estão dentro do seu conjunto de genes é diferente da associação média dos genes que estão fora do seu conjunto de genes. Sim, isso é basicamente um teste unilateral dos genes, porque você tem uma hipótese muito forte de qual associação deveria ser mais forte. Agora, existem dois tipos de testes. Portanto, você poderia fazer uma análise independente onde perguntar se a média ou a associação genética média de genes em um conjunto de genes é maior que zero. Sim, então essa é a sua hipótese nula e a sua hipótese alternativa, enquanto na análise competitiva você pergunta se a associação genética média dos genes no conjunto de genes é maior que a dos genes fora do conjunto de genes.
Sim, essa é a sua análise competitiva. E compare isso com um ensaio clínico randomizado ou qualquer configuração experimental. Então, em uma análise independente, perguntaríamos se a melhora média dos pacientes no grupo de tratamento é maior que zero, enquanto em uma análise competitiva você teria um grupo de controle, então você perguntaria se a melhora média dos pacientes no grupo de tratamento é realmente maior do que a dos pacientes no grupo de controle. Agora todos concordariam que gostaríamos de fazer uma análise competitiva. Precisaríamos de um grupo de controle, caso contrário não podemos realmente dizer que o tratamento está fazendo com que os pacientes melhorem. Então essa é também a razão pela qual pensamos que a análise competitiva é o caminho a seguir na análise de conjuntos de genes e que as análises independentes não são informativas para perguntar se o seu conjunto de genes que você testou está realmente associado causalmente à sua característica de interesse. É por isso que aconselhamos nunca fazer uma análise independente, mas sempre usar uma análise competitiva do conjunto de genes.
OK. Isso apenas está enfatizando o mesmo ponto e também na parte dois dessas palestras de hoje eu indiquei isso ou se isso não estiver claro então talvez você deva voltar para a Parte 2 da palestra, então espero que esta mensagem apareça e estou ansiosa pela prática do MAGMA que está planejada para hoje mais tarde. Obrigada pela audiência e até logo!
FUMA
Título: FUMA: Mapeamento funcional e anotação de associações genéticas
Apresentadora(s): Kyoko Watanabe (Regeneron)
Kyoko Watanabe
Olá a todos. Sou estudante de doutorado na Vrije Universiteit em Amsterdã. O meu trabalho centra-se principalmente na compreensão de associações genéticas num contexto biológico. Hoje, vou apresentar a vocês uma aplicação web que desenvolvi recentemente, que é Mapeamento funcional e anotação de associações genéticas [FUMA].
Então, vou começar com uma explicação bem rápida recapitulação do que foi GWAS [estudo de associação genômica em larga escala] novamente. Basicamente, começamos genotipando um grande número de indivíduos usando arrays de SNP [Polimorfismo de nucleotídeo único], que hoje em dia podemos marcar cerca de um milhão de SNPs e, ao realizar a imputação com painéis de referência, você acaba com um máximo de 20 milhões de SNPs. Então eu um caso muito simples, quando você tem grupos caso e controle em seus indivíduos genotipados, você realiza testes estatísticos para ver se a ocorrência de alelos menores nos grupos caso e controle são diferentes de zero. Então, no final, você obtém o valor p para cada SNP que possui. Mas, como você pode imaginar, o número de testes estatísticos realizados é igual ao número de SNPs que você possui. Claro, você tem que corrigir para múltiplos testes, e o padrão ouro para um valor p genomicamente significativo é 5×10-8. Então, sempre que você encontrar SNPs com valores de p menores que isso, essas regiões genômicas são chamadas de “acertos” ou “significativos”.
Assim, o primeiro estudo GWAS foi publicado em 2005 e, desde então, o custo da genotipagem diminuiu drasticamente, o que nos permitiu recolher um número muito maior de indivíduos. Hoje em dia, grandes consórcios para meta-análise costumam utilizar mais de 100 mil indivíduos. E ao aumentar o tamanho da amostra, também aumentamos o poder estatístico para detectar tamanhos de efeito relativamente fracos. Por exemplo, o estudo em altura, utilizando cerca de 200.000 indivíduos, acabou identificando mais de 100 loci em todo o genoma. Portanto, temos conduzido GWAS na última década e hoje em dia, no GWAS Catalog, temos mais de 3.000 estudos, incluindo mais de 38.000 associações únicas de características SNP para mais de 600 fenótipos. Então, basicamente, temos muitos loci de risco espalhados por todo o genoma.
Contudo, especialmente para características complexas que são altamente poligênicas, sabemos que a associação de SNPs únicos é muito fraca. Para detectar esses efeitos, precisamos de um número muito maior de amostras. E, felizmente, o UK Biobank acaba de ser lançado este mês, e o banco de dados QC2 [conjunto de dados do UK Biobank] contém informações sobre 500.000 indivíduos e mais de mil 1.000 fenótipos. Portanto, o UK Biobank tem potencial para identificar novos loci para muitas características complexas humanas, e esperamos que mais e mais GWAS sejam publicados nos próximos meses.
Então, a questão é: quais benefícios obtemos com os resultados do GWAS? Idealmente, gostaríamos de identificar as variantes causais a partir de associações genéticas que podem ser usadas para melhorar diagnósticos, prognósticos ou até mesmo identificar novos alvos de medicamentos ou biomarcadores. No entanto, uma associação não é causal. A associação não diz nada sobre causalidade. E também, com base puramente nos valores p do GWAS, você realmente não sabe muito sobre a biologia subjacente. A identificação de variantes causais a partir dos resultados do GWAS não é simples. Então, para superar esse problema, costumamos passar por diversas etapas.
O primeiro passo é corrigir o LD [desequilíbrio de ligação], que é uma ocorrência não aleatória de SNPs. Portanto, por causa do LD, os SNPs mais significativos encontrados em um locus genômico específico não precisam necessariamente ser os que realmente causam o fenótipo. Em vez disso, poderia haver outros SNPs que são verdadeiramente responsáveis pelo fenótipo, e estes SNPs podem ter uma correlação mais elevada com os SNPs mais significativos. Portanto, não queremos perder esses SNPs apenas com base no valor p. Portanto, o primeiro passo é incluir todos os SNPs que possuem uma correlação mais alta com os SNPs significativos. Depois de ter a lista de SNPs de seu interesse, a segunda etapa é verificar as consequências funcionais nos genes. Por exemplo, se você tiver SNPs em regiões exônicas ou em regiões não codificantes, existem diversas ferramentas de software que podem realizar esta tarefa. No entanto, sabe-se que mais de 90% das descobertas do GWAS se enquadram em regiões não codificantes. Portanto, apenas saber que você tem uma ocorrência em uma região não codificada não ajuda realmente a entender o que realmente está acontecendo em um contexto biológico. Então você ainda precisa anotar as funções biológicas.
Existem vários recursos de dados que você pode usar. Por exemplo, a pontuação CADD é uma métrica que avalia os efeitos deletérios dos SNPs, e o RegulomeDB é uma pontuação categórica que indica a probabilidade de o SNP afetar os elementos regulatórios. Além disso, existem vários bancos de dados eQTL, por exemplo GTEx possui detalhes em 44 tipos de tecidos diferentes. E, especialmente para regiões não codificantes, você também vai querer verificar o status epigenético. Os dados estão disponíveis em Roadmap e ENCODE. Não mencionei nenhum nome de banco de dados aqui, mas o genoma 3D, no campo do genoma 3D, cada vez mais dados estão se tornando disponíveis. Assim, incluir dados Hi-C também pode ser outra opção para mapear SNPs para os genes distais. Então, usando essas informações funcionais no nível do SNP, você pode acabar com uma lista de genes nos quais está interessado. Finalmente, você precisa considerar padrões de expressão em diferentes tipos de tecidos e também em células que compartilham funções biológicas, como vias.
Então, estamos executando essas várias etapas manualmente. Como você pode imaginar, isso requer a instalação de softwares diferentes e o download de vários bancos de dados e, às vezes, a reformatação dos dados a cada vez. Portanto, isso é muito demorado e elaborado. Então, esperávamos criar uma plataforma única que pudesse realizar todos eles.
Então, desenvolvemos uma aplicação web chamada FUMA que basicamente otimiza as quatro etapas que mostrei nos slides anteriores em uma única plataforma. Então, no FUMA, existem dois processos principais. O primeiro é o SNP2GENE (SNP-gene), a partir das estatísticas resumidas do GWAS. Fornecemos listas de SNPs candidatos com anotações e também listas de genes priorizados. E esses genes podem ser passados para o segundo processo, que é a análise GENE2FUNC (gene-função), onde fornece a anotação de variante adicional no nível do gene. E outra vantagem do FUMA é que também fornecemos visualização interativa na aplicação web, para que você não precise usar software externo apenas para visualização.
Então, vou explicar o que o FUMA realmente faz em cada processo. Assim, no SNP2GENE, a partir das estatísticas resumidas do GWAS, primeiro caracterizamos os loci genômicos corrigindo o LD. E aqui, fornecemos a lista de SNPs principais e os loci de risco genômico. Todos os SNPs que estão em LD dos SNPs líderes são então passados para a segunda etapa, que é a anotação dos SNPs. Aqui, realizamos o ANNOVAR e anotamos diversas pontuações de variantes e eQTL, e também o Hi-C. Usando essas informações, finalmente realizamos o mapeamento genético. Atualmente, temos três critérios diferentes para mapeamento genético. O primeiro é o mapeamento posicional usando anotações do mapeamento ANNOVAR e eQTL, e também, o mapeamento de interação da cromatina. Portanto, antes de realizar esse mapeamento genético, você também pode filtrar SNPs com base nas anotações obtidas na etapa dois. E você também pode combinar diferentes mapeamentos. Você pode especificar vários parâmetros diferentes ao enviar o trabalho. E fornecemos uma lista de genes mapeados por… com base nos parâmetros definidos pelo usuário.
Portanto, este é apenas um exemplo da aparência da página de resultados. Fornecemos um gráfico de Manhattan no topo.
E a segunda é… realizamos testes baseados em genes usando o software MAGMA. Portanto, este é o gráfico de Manhattan baseado nos valores p do gene. E os resultados resumidos por loci de risco genômico. E todos os resultados estão disponíveis em forma de tabela. E você também pode criar um gráfico regional com todas as anotações e resultados juntos. E todos os resultados e abordagens podem ser baixados.
Portanto, este é apenas um exemplo de como você pode utilizar o mapeamento eQTL. Portanto, este é um dos locais de risco no cromossomo 14, do GWAS da esquizofrenia. Do topo, você verá um gráfico de Manhattan ampliado e os genes, pontuação CADD, RegulomeDB, estados abertos da cromatina e eQTLs. Como você pode ver, o próprio locus de risco abrange vários genes. Então se você não sabe, se não tem mais informações, você acaba listando todos os genes, ou pode verificar manualmente a função dos genes e escolher aquele que tem a função mais interessante no fenótipo. No entanto, ao realizar o mapeamento de eQTL, priorizamos os genes únicos que possuem eQTLs no cérebro. Assim, realizando diferentes tipos de mapeamento de eQTL, você também pode priorizar genes.
E outro exemplo é o mapeamento de interação da cromatina. O FUMA atualmente usa dados Hi-C de Schmitt et al. que inclui 14 tipos de tecidos e linhas celulares diferentes. Como já disse, o campo está crescendo muito rápido. Também oferecemos a opção de aplicar a matriz de interação da cromatina personalizada, que não se limita ao Hi-C, mas pode incluir Capture Hi-C e C5. Portanto, o gráfico mostra os loci de risco no cromossomo 16 do IMC GWAS. A camada mais externa é o gráfico de Manhattan, e a segunda, o círculo azul, são as coordenadas do genoma. E os loci de risco estão destacados em azul. E dentro do círculo, os links laranja são links Hi-C e os links verdes são eQTLs. Então, como você pode ver claramente, o Hi-C pode mapear SNPs para genes distais em comparação com eQTLs. Portanto, isso pode ajudá-lo a identificar novos genes candidatos que você pode ter perdido.
Então, finalmente, uma vez que você tenha a lista de genes, você pode usar o processo GENE2FUNC, onde fornecemos um heatmap de expressão genética e especificidade de tecido, realizando testes de super-representação para genes expressos diferencialmente em diferentes tipos de tecidos, testes de enriquecimento para genes conjuntos, e também, links externos para OMIM [Online Mendelian Inheritance in Man] e DrugBank para investigar mais detalhadamente os genes individuais.
Então, resumindo, otimizamos a anotação pós-GWAS em uma única plataforma, como uma aplicação web. Portanto, este pode ser o primeiro lugar para uma visão geral ampla do que está acontecendo nos loci de risco do GWAS assim que você obtiver os novos resultados do GWAS. Mas também, se você tiver um fenótipo de interesse, já existem muitas estatísticas resumidas do GWAS disponíveis. Então você pode começar, você pode realizar o FUMA para os GWAS disponíveis e começar a integrar com a pesquisa. E para atualizações futuras, estamos pensando em estender o FUMA para poder aceitar todos os estudos de sequenciamento de exoma e também EWAS.
E por fim, gostaria de agradecer ao meu orientador, ao meu coorientador, e o FUMA está disponível online, então fique à vontade para visitar o site. E também tenho um pôster esta noite no local B-325, então se você quiser saber mais detalhes, fique à vontade para me visitar. Obrigada. [Nota: observe que esta é uma gravação de arquivo; o site da FUMA está disponível em [https://fuma.ctglab.nl/]
Facilitador: Alguém tem alguma pergunta?
Pergunta do público: Então, eu tenho uma pergunta. Já vi alguns casos em que, embora o locus de risco esteja associado ao mesmo fenótipo, há evidências claras de haplótipos distintos. Parece que o FUMA provavelmente seria capaz de mostrar casos como esse em que potencialmente você está obtendo o mesmo fenótipo de variantes distintas que afetam, digamos, o promotor do gene ou um intensificador próximo.
Kyoko Watanabe: Você quer dizer pleiotropia?
Membro do público: Tipo, mesmo fenótipo, mas duas variantes causais diferentes.
Kyoko Watanabe: Na mesma região?
Membro do público: Na mesma região.
Kyoko Watanabe: Hum. Sim. Portanto, é mais como se o FUMA servisse apenas para anotar quais são as informações funcionais disponíveis, apenas fornecendo as opções de quais SNPs você examinará mais adiante. Então não é… Não é remover a informação. Então, você pode obter vários SNPs que possuem funções de um locus, mas sim, não podemos distinguir qual é realmente causal. Mas não acho que você realmente vai perder essa informação.