Capítulo 5.4: Meta-análise
Desenho e interpretação do estudo de associação de todo o genoma
Título: Desenho e interpretação do estudo de associação de todo o genoma
Apresentador(es): Gina Peloso (Department of Biostatistics, Boston University; Broad Institute)
Ok, acho que vamos começar. Bom dia, hoje é o terceiro da série de palestras. Tivemos uma palestra focada em genética de características complexas, uma palestra focada em genética mendeliana. Hoje teremos uma palestra focada em estudos de associação genética de variantes comuns, e as três palestras subsequentes vão se concentrar em estudos de associação de variantes de codificação raras de diferentes formas. Portanto, esta será a única sessão dedicada aos estudos de associação genômica, uma ferramenta que tem sido amplamente utilizada nos últimos 10 anos e bastante fundamental para grande parte do trabalho que muitas pessoas estão a realizar. Gina fez seu doutorado na Universidade de Boston, fez pós-doutorado no Broad Institute e no Mass General, e hoje é professora assistente no Departamento de Bioestatística da Universidade de Boston e afiliada do Broad Institute e, hoje, falando sobre desenho e interpretação de estudos de associação genômica em larga escala. Muito obrigado, Gina.
Gina Peloso:
Obrigada. Assim, com estudos de associação em todo o genoma, estamos tentando testar a associação da variação fenotípica com a variação genotípica, e isso é particularmente útil quando se observam características complexas. Portanto, características que têm um componente genético e um componente ambiental, e essas características complexas não têm apenas um componente genético, mas têm muitos genes que contribuem para a variabilidade da característica e alguns desses efeitos genéticos podem ser muito sutis. Assim, com estudos de associações genômicas em larga escala, estamos testando o tipo de variação genética chamada polimorfismos de nucleotídeo único, ou SNPs. Aqui está uma imagem de 10 cromossomos, e você pode ver que, para esses pares de bases, a maioria dos indivíduos tem exatamente o mesmo alelo, mas no meio aqui há um alelo que varia entre os indivíduos onde poderia ser um C ou um alelo G, e este é um polimorfismo de nucleotídeo único. E você pode ver que é uma variante comum, é vista em quatro dos 10 cromossomos, então é vista em muitos indivíduos e esse é o tipo de variação que testaremos com estudos de associação genômica em larga escala.
Os GWAS estão realmente chegando à hipótese da variante comum da doença comum. Aqui, no canto superior esquerdo, você vê que as variantes que afetam a doença mendeliana são consideradas muito raras. Portanto, ao longo do eixo x está a frequência do alelo e, ao longo do eixo y, está a penetrância ou o tamanho do efeito de uma variante. Para as doenças mendelianas aqui, elas são causadas por variantes muito raras de alto efeito. No lado oposto do gráfico aqui está a variação comum com efeitos muito sutis e tamanhos de efeito baixos, e é isso que estamos chegando com os estudos de associação genômica em larga escala, esse tipo de variação aqui embaixo.
Assim, estudos de associação genômica em larga escala foram realizados nos últimos 10 anos ou mais, e tudo realmente começou com o projeto HapMap. E o objetivo do Projeto HapMap era descrever a variação no genoma humano para populações comuns, aquelas de ancestralidade iorubá da Nigéria; indivíduos que vivem em Pequim, China; indivíduos de Tóquio; bem como indivíduos das coortes CEPH que eram descendentes da Europa do Norte e Ocidental. E então, eles questionaram um pequeno número desses indivíduos em busca de variações que variassem entre esses indivíduos desses quatro grupos populacionais, e pegaram essa variação do Projeto HapMap e a colocaram em matrizes de genotipagem comercial que podem então ser genotipadas em muitos, muitos indivíduos. E assim, o objetivo do GWAS é examinar esse conjunto de SNPs de todo o genoma em busca de uma associação com um resultado específico. Agora, pode-se dizer que os GWAS têm tido muito sucesso na identificação de regiões do genoma associadas a uma série de doenças, e este diagrama foi baixado do GWAS catalog e atualizado na semana passada, e mostra todos os estudos de associação genética que foram identificados pelo GWAS em um nível de significância de todo o genoma, e é impressionante que o catálogo do GWAS contenha 2.554 estudos realizados e tenha identificado 25.037 associações únicas de características SNP. Portanto, tem sido muito bem-sucedido em termos de identificação de locais no genoma associados a doenças.
Portanto, estas são as etapas básicas para realizar um estudo de associação genômica em larga escala. Você tem que pensar no desenho do seu estudo e no planejamento ideal do seu estudo, e vamos falar sobre a coleta de amostras e também sobre a genotipagem. E então uma das principais etapas que foram realmente ajustadas no GWAS e que tornaram o GWAS tão bem-sucedido é o controle de qualidade robusto feito nos dados do GWAS. E finalmente, depois de realizar o controle de qualidade, você pode prosseguir e fazer a parte interessante e observar a associação entre a característica de interesse e esses marcadores genéticos em todo o genoma.
Então, primeiro, você tem que definir o seu resultado, o que você está interessado em estudar, e decidir se deseja que esse resultado de interesse seja estudado como uma amostra de caso-controle de doença, onde você está coletando casos e controles; por exemplo, estudos sobre diabetes tipo 2, estudos sobre esquizofrenia e estudos sobre obesidade coletaram extremos ou indivíduos com doença e aqueles sem doença e realizaram GWAS comparando esses dois grupos. Você também pode fazer GWAS em características quantitativas. Eu particularmente trabalho com os níveis de colesterol, e você pode comparar a distribuição de um fenótipo com as distribuições de frequência alélica, mas o mais importante, antes de embarcar em um GWAS, você quer ter certeza de que sua característica tem um componente hereditário e confirmar se realmente existe um componente genético, efeito que está contribuindo para a característica, para que você tenha a capacidade de encontrar marcadores genéticos associados a essa característica.
Então, você pode pensar: que tamanho de amostra preciso para detectar efeitos de uma certa magnitude? E este é um número bastante antigo de 2005, portanto, apenas no início do GWAS, e o que diz está ao longo do eixo x é a frequência do alelo de suscetibilidade à doença e agora ao longo do eixo y está o tamanho da amostra necessário. E isso foi para 80% de poder para detectar um efeito em cerca de um nível 1x10-6 α. E o que você pode ver é que se quiser detectar efeitos cada vez menores, você precisará de tamanhos de amostra cada vez maiores. Aqui temos uma razão de probabilidade de 1,2 e, na verdade, no GWAS, estamos detectando razões de probabilidade muito menores do que isso. Portanto, com uma razão de chances de 1,2 e o marcador mais informativo, ou seja, uma frequência alélica de cerca de 0,5, são necessários cerca de 4.000 indivíduos. No GWAS, estamos detectando tamanhos de efeito na ordem de 1,02. Tudo bem, então você está até aqui e precisa de dezenas de milhares de indivíduos para poder atacar efeitos tão sutis.
Portanto, o tamanho da amostra necessário determinará a rota que você usará para realizar estudos de associação genômica em larga escala. Portanto, existem dois tipos de caminhos que você pode seguir para fazer isso. Você pode fazer uma análise de estudo único onde você coletou o fenótipo de interesse e fez uma matriz de genotipagem, e analisá-lo internamente. Eles são realmente ótimos quando você tem grandes efeitos, procura grandes efeitos e tem fenótipos únicos que não são tradicionalmente coletados em muitos indivíduos. No entanto, o poder é limitado nesses estudos porque há um número limitado de assuntos que você pode coletar em um único estudo. Portanto, um método comum e o que tem sido feito tradicionalmente nos últimos dez anos para características comuns são estudos múltiplos ou meta-análises de estudos que contribuem para os mesmos resultados. Isso é ótimo quando você coleta fenótipos comumente. Isto lhe dará um tamanho de amostra maior e, portanto, mais poder para detectar efeitos mais sutis dos genótipos.
Portanto, existem mais de 40 matrizes de genotipagem que foram desenvolvidas nos últimos dez anos. Isso não mostra todos eles, não deu certo, mas existem chips Illumina e Affymetrix, e eles variam muito em seu conteúdo. Então, isso entrará em jogo mais tarde, quando falarmos sobre quando você precisa combinar dados de vários estudos, porque quando você tem vários estudos, eles podem não ter o mesmo chip de genotipagem feito neles.
Depois de coletar o fenótipo e obter os genótipos desses indivíduos, é necessário fazer o controle de qualidade.
Porque a capacidade de detectar uma associação genética verdadeira é tão boa quanto a qualidade dos dados subjacentes. E como um grande número de marcadores são testados para associação em um GWAS, mesmo uma baixa taxa de erro pode ser prejudicial para um estudo de associação de GWAS. Então, tomemos este exemplo: temos 1 milhão de marcadores testados para associação, o que é bastante típico em um estudo de associação genômica em larga escala, e vamos supor que aproximadamente 0,1% desses marcadores sejam mal genotipados e que a identificação imprecisa resulte em associação espúria. Ok, então se a identificação imprecisa levar a associações espúrias, isso pode significar que até mil marcadores podem ser levados desnecessariamente para replicação devido a associações de falsos positivos devido à má genotipagem. Assim, as etapas de controle de qualidade são essenciais na análise de dados genéticos e são tomadas para remover indivíduos e marcadores com altas taxas de erro. Supõe-se que milhares de indivíduos foram genotipados para maximizar o poder de detectar uma associação, portanto, remover um punhado de indivíduos terá realmente pouco efeito no poder geral deste estudo. Além disso, dado que um grande número de marcadores é genotipado, a remoção de uma pequena percentagem dos SNPs não deve diminuir significativamente o poder global do estudo. Dito isto, cada marcador removido de um estudo é potencialmente um locus associado a uma doença que você não está testando. Portanto, a remoção de um marcador pode ter um impacto maior do que a remoção de um indivíduo. Claro, vamos falar sobre imputação de genótipos, onde poderemos recuperar esses marcadores.
Aqui estão algumas métricas padrão de QC que são feitas em estudos de associação genômica em larga escala. Você tem QC de amostra e QC de SNP. No QC da amostra, procuramos altas taxas de falta; desvios da heterozigosidade, que podem indicar alguma contaminação; verificações de gênero para garantir que temos os indivíduos certos; duplicatas; relacionamento enigmático; parentesco inesperado (e isso depende do desenho do nosso estudo, quer tenhamos informações familiares ou não; se tivermos famílias dentro do conjunto de dados, podemos olhar para os erros mendelianos e ver se há um problema que possa indicar que temos o indivíduo errado); e então geralmente excluímos os valores discrepantes da população. Para SNP QC, observamos a falta; desvios do equilíbrio de Hardy-Weinberg, e isso porque pode ser um problema com a genotipagem que está causando esses desvios de Hardy-Weinberg (se você tiver um estudo de caso-controle, poderá observar a falta diferencial entre casos e controles); e então os SNPs com um grande número de erros mendelianos podem indicar que há um problema com a genotipagem desse SNP. Agora, o QC geralmente é feito primeiro nos indivíduos e depois nos marcadores, e essa abordagem é usada porque há mais marcadores contribuindo para as estatísticas em nível de amostra do que amostras contribuindo para as estatísticas em nível de marcador. Portanto, ao observar as estatísticas em nível de amostra, alguns marcadores ruins serão abafados por todos os marcadores bons e não afetarão tanto as estatísticas em nível de amostra, já que geralmente há menos amostras do que marcadores, então eles têm um peso maior nas estatísticas ao nível da amostra.
Pergunta do público: Então a questão era: quando olhamos para o parentesco, temos informações sobre o parentesco, como os sujeitos se relacionam? Sim, você quer olhar para ambos. Se você tivesse um estudo familiar, observaria os relacionamentos esperados versus os relacionamentos observados com base em sua identidade genômica por matriz de estado. Assim, você pode calcular a proporção esperada de compartilhamento de alelos e depois comparar essa proporção esperada com o que você acha que é o caso. Agora, para estudos familiares, compararíamos isso com uma estrutura familiar, mas se pensarmos que temos um conjunto de indivíduos não relacionados, esperaríamos que essas estimativas IBS (identidade por estado) e a proporção de partilha entre indivíduos fossem relativamente baixas.
Ok, então um dos fatores de confusão dos estudos de associação genômica é a estrutura populacional. A estrutura populacional ocorre quando há subgrupos em seus dados que diferem em relação às distribuições de características, bem como às frequências dos marcadores, e isso pode causar resultados de associação falsos. A estrutura populacional é um dos poucos fatores de confusão nos estudos de associação genética, e isso não quer dizer que você não deva fazer ajustes para covariáveis em seus testes de associação. Você ainda deseja ajustar as covariáveis porque elas aumentam a precisão do seu resultado. Mas a estrutura populacional causa realmente um efeito de confusão que precisa de ser ajustado.
Felizmente, existem técnicas para ajustar esse efeito. Você pode usar um design bem combinado, certificando-se de selecionar indivíduos das mesmas regiões, para que haja menos preocupação. Mas mesmo em amostras de ancestralidade europeia, observa-se uma estrutura populacional. Aqui está um gráfico de uma amostra de todos os europeus e calcula os principais componentes do parentesco genético. Os componentes principais são pontuações agregadas ponderadas de variantes genéticas independentes. Você pode calculá-los e obter esse gráfico ao plotar o componente principal um versus o componente principal dois. Aqui, rotulei os indivíduos como italianos ou não italianos, e você pode ver que, com base nesses dois componentes principais, que é uma pontuação ponderada de SNPs, é possível distinguir entre ser italiano ou não italiano. Assim, embora esta amostra seja composta por somente europeus, existem diferenças subtis que podem ser detectadas e que podem causar associações espúrias. Você pode usar esses componentes principais como covariáveis em um modelo estatístico.
Pergunta do público: A questão é se a estatística de inflação genômica λ for maior que 1,05, por que isso indica estratificação populacional? Ter uma estatística λ superior a 1,05 não indica necessariamente que existe estrutura populacional, mas pode indicar que existe estrutura populacional. Pode ser porque existem muitos marcadores que mostram associações espúrias e, quando falamos sobre gráficos QQ, isso poderia desviar a associação se houver muitos marcadores que são afetados pela estrutura populacional.
A última maneira de controlar a estrutura populacional, e uma das maneiras que é feita com mais rotina nos GWAS atuais, é usar modelos mistos com matrizes de relacionamento de parentesco. Uma matriz de compartilhamento de IBS entre indivíduos para poder chegar a diferenças sutis entre os indivíduos. Portanto, usar um modelo misto é uma terceira forma de controlar a estrutura populacional.
Aqui estão alguns recursos para melhores práticas em QC de estudos de associação genômica em larga escala que fornecem muito mais detalhes sobre esses recursos sobre quais limites de QC devem ser usados.
Então, mencionei que podemos melhorar o poder aumentando o tamanho da amostra, combinando estudos de várias coortes diferentes e combinando-os para aumentar nosso poder. O problema com isso é que diferentes estudos usaram diferentes chips comerciais com diferentes conjuntos de SNPs para sua genotipagem, e podemos pegar o conjunto de SNPs comuns e analisar o conjunto de SNPs comuns que estão em cada uma das matrizes de genotipagem. Mas esse conjunto de SNPs comuns entre plataformas é realmente restritivo.
Isto nos leva à imputação. O que a imputação faz é preencher os genótipos ou SNPs com base em LD e haplótipos de uma amostra de referência para obter uma gama mais completa de SNPs em seu estudo. Tomemos, por exemplo, esta amostra de referência que foi genotipada em muitos SNPs e, em seguida, temos nossa amostra de um array comercial que possui uma proporção desses SNPs. O que podemos fazer é usar software de imputação para preencher esses SNPs ausentes com base no haplótipo de referência e aproveitar o LD entre os SNPs.
Os painéis de imputação que usamos nos últimos 10 anos começaram com o HapMap, que foi a espinha dorsal original da imputação para poder preencher SNPs ausentes. O objetivo é definir variação superior a 5% nesses quatro grupos amostrais coletados. Então, por volta de 2008, surgiu o 1000 Genomes. 1000 Genomes são na verdade 2.500 indivíduos, então é um conjunto muito maior de indivíduos do que o HapMap. O HapMap tinha, para os europeus, 30 trios, e isso dava 120 cromossomos independentes para formar a espinha dorsal, então você realmente só conseguia chegar a variações muito comuns. Quando chegamos a 1000 Genomes, você poderia ir um pouco mais abaixo nos limites de frequência alélica e chegar a talvez 1% ou mais de variação bem imputada, porque você tinha mais cópias vistas na referência.
E hoje, se você fizesse imputação, você iria para o Haplotype Reference Consortium (HRC). O Haplotype Reference Consortium aproveitou todos os estudos de sequenciamento que foram realizados nos últimos anos e agregou esses dados para criar um novo painel de referência de haplótipos para usar como espinha dorsal de sua imputação. O Haplotype Reference Consortium tem aproximadamente 60.000 haplótipos disponíveis, e você pode diminuir para uma frequência alélica menor ou uma contagem de alelos menor de aproximadamente 5. À medida que avança nesta página, você aumenta a amostra ou o número de haplótipos usados para a espinha dorsal conforme bem como a frequência do alelo à qual você pode imputar a variação.
Portanto, aqui há vários softwares de imputação que podem ser usados para ir de um desses painéis para imputar esses SNPs em suas amostras que possuem um chip já genotipado. Não vou comentar sobre eles.
Depois de fazer a imputação, você obtém medidas de qualidade pós-imputação. Então, você não quer manter todas as suas variantes. Alguns dos SNPs imputados não serão bem imputados. Portanto, se você tiver um índice de qualidade de imputação próximo a 1, isso significa que obteve uma boa qualidade de imputação e pode prosseguir para a análise desses SNPs. Contudo, às vezes não funciona; poderia estar em regiões pobres em LD e, portanto, a qualidade da imputação pode ser menor e excluímos SNPs que possuem baixa qualidade de imputação.
Depois de fazer a imputação e excluir variantes com baixa qualidade de imputação, você poderá combinar facilmente as informações entre os estudos. Aqui, mostra dois estudos diferentes, um feito em um chip Affymetrix e outro em um chip Illumina. Você pode ver que se tentarmos observar a sobreposição de SNPs entre os dois chips, há uma sobreposição muito pequena entre os dois. Mas depois que a imputação foi aplicada para preencher os SNPs ausentes com base nos haplótipos, você pode ver que há uma sobreposição desses SNPs entre as duas e muitas outras variantes que podem ser analisadas no estudo combinado.
Então, depois de fazermos o controle de qualidade e a imputação, podemos passar para a parte emocionante, onde você quer estar, e fazer as análises. Basicamente, com estudos de associação genômica em larga escala, estamos fazendo regressão linear simples, onde comparamos o valor da característica entre dois grupos, e estamos fazendo isso em um grande número de SNPs. Então, basicamente, temos um modelo simples aqui, onde temos Xi igual a 1 se o indivíduo i tiver o alelo A no SNP i e na característica, e você está regredindo o SNP em uma característica para esse indivíduo. Basicamente, você está testando a diferença no valor médio da característica para indivíduos que carregam o alelo A versus aqueles que não carregam o alelo A. Acabei de descrever a regressão linear simples, mas para características quantitativas, estamos comparando cada marcador, as tendências na característica, então as tendências e os genótipos, e podemos usar a regressão linear e ajustar as covariáveis nessa regressão linear. Para estudos de caso-controle ou qualquer resultado dicotômico, você está comparando a frequência do marcador nos casos com a frequência do marcador nos controles, e há alguns testes diferentes que você pode fazer, dependendo das suas contagens e, em última análise, da sua questão de pesquisa. E você quer ter certeza de controlar possíveis covariáveis. Muitas vezes controlamos idade e sexo. O controle de covariáveis (uma covariável, não um confundidor) visa aumentar a precisão do seu resultado, ao passo que queremos controlar a estrutura populacional usando a análise de componentes principais porque é um confundidor de associação.
Então, basicamente, nossa hipótese nula é que não há associação entre o SNP i e o resultado. Então, estamos testando que β é igual a zero versus a alternativa de que nossa estimativa de β da regressão não é igual a 0. Obtemos tamanhos de efeito, então estamos observando quanto efeito o genótipo tem no resultado, erros padrão e valores de p. Então, você está obtendo um tamanho de efeito, o erro padrão e um valor p para cada uma das centenas de milhares a 2,5 milhões de SNPs em seu GWAS. Então, você está testando cada um desses SNPs individualmente em relação ao resultado.
Agora, podemos ver um resultado significativo por vários motivos. Poderemos ver um resultado significativo porque há um efeito real desse SNP no resultado, mas também podemos ver um resultado significativo devido ao acaso, algum viés e confusão não ajustada. Portanto, usamos testes estatísticos para determinar se a diferença observada entre os grupos é provavelmente devida ao acaso.
E contamos com o valor p, que é a probabilidade do resultado observado ou algo mais extremo visto que a hipótese nula é verdadeira. E se esta probabilidade do evento for suficientemente pequena, dizemos que a diferença simplesmente não se deve ao acaso e temos um efeito real, e podemos considerar o resultado estatisticamente significativo. Um ponto a ser observado é que nunca aceitamos a hipótese nula; simplesmente não conseguimos rejeitá-la porque podemos não ter provas ou poder suficientes para aceitá-la. Nunca aceitamos a hipótese nula.
Então, você pode se perguntar: o que é pequeno o suficiente? Tudo bem, estamos testando muitas variantes em todo o genoma para associação a uma característica. Portanto, a maneira mais simples é ajustar seu nível α geral de acordo com o número de testes que você está realizando. E assim, fazemos isso tradicionalmente com uma correção de Bonferroni, onde você divide seu nível α geral pelo número de comparações, e assim você obtém um novo nível α, e compara seus valores p que foram gerados com este novo nível α. No GWAS, tivemos um limiar de significância de aproximadamente 5x10-8, e isso representa aproximadamente 1 milhão de testes independentes que foram considerados dentro da variação comum na população europeia. Então isso é muito importante. Estamos olhando para este número 5x10-8, que é realmente uma variação comum nos europeus. Se você tiver uma amostra de outra ancestralidade, poderá ter mais variantes independentes e, portanto, seu nível de significância deverá ser menor.
Portanto, há duas maneiras, voltando à combinação de dados de vários estudos, há duas maneiras de combinar dados de vários estudos. Você pode fazer uma análise combinada onde você pega os dados individuais de nível bruto de cada uma das coortes contribuintes e cria um enorme conjunto de dados com todos os dados juntos e faz a análise dessa forma. Mas isto muitas vezes não é viável devido à confidencialidade dos pacientes e à possibilidade de partilhar dados entre instituições. Portanto, uma abordagem comum em estudos de associação genômica em larga escala é fazer meta-análise, onde você gera as estatísticas de associação dentro de cada estudo e depois combina essas estatísticas de teste entre estudos usando meta-análise.
O tipo mais popular de meta-análise é a meta-análise ponderada por variância inversa, também chamada de meta-análise de efeitos fixos. Foi implementado em muitos softwares para fazer esses testes em todas as variantes do genoma, e é uma média ponderada dos tamanhos dos efeitos de cada estudo, levando em consideração a precisão do efeito para que estudos maiores recebam mais peso, e estudos menores recebem menos pesos, e esses pesos são inversamente proporcionais ao erro padrão, que representa o tamanho da amostra em seu estudo.
Existem apenas algumas equações aqui. Você tem os tamanhos dos efeitos e os erros padrão em cada um dos estudos de caso. Você pode então obter um peso para o estudo de caso e obter uma estimativa de efeito agrupado em cada um dos estudos e um erro padrão agrupado em todos os estudos. Então você pode meta-analisar; você pode obter um valor Z meta-analisado dividindo o tamanho do efeito agrupado pelo erro padrão agrupado para obter uma pontuação Z e, em seguida, convertê-lo em um valor p para sua meta-análise, que é distribuído como uma distribuição normal nula, o Z.
Aqui estão algumas práticas recomendadas para usar meta-análise baseada em imputação que fornece muito mais detalhes sobre como operacionalizar isso.
Então, quer você tenha feito um único estudo ou tenha feito essa meta-análise, você tem muitas estatísticas de associação que precisa analisar e entender, e então dois gráficos diferentes são tradicionalmente criados para poder resumir os muitos testes que são feitos dentro de um estudo de associação genômica em larga escala.
O primeiro é o gráfico QQ ou gráfico quantil-quantil, que fornece uma visualização da distribuição geral dos valores p. O que você tem no eixo x é a estatística qui-quadrado esperada e, no eixo y, você tem a estatística qui-quadrado observada. Sob a hipótese nula, você esperaria que isso seguisse a linha de 45 graus. E, na verdade, este é o valor p esperado -log10 e o valor p observado -log10. Você esperaria que estes caíssem ao longo da linha sob a hipótese nula. Quando isso acontece, você pode pensar que não há confusão ou problemas não explicados com as estatísticas da associação. Este é o valor λ do controle genômico, que é a estatística qui-quadrado mediana dividida pela estatística qui-quadrado esperada, e isso realmente atinge a maior parte da distribuição. A maioria dos pontos que você tem neste gráfico está bem aqui porque seus valores p são normalmente distribuídos ou distribuídos uniformemente entre 0 e 1. Certo, você deve ter uma distribuição uniforme. E então, se isso estiver plotando os valores p -log10, isso significa que a maioria desses pontos está logo abaixo nesta parte inferior dos gráficos QQ, e o valor lambda está chegando à mediana dessa distribuição. Esperamos que esse valor de λ seja próximo de 1 e depende muito do tamanho da amostra. À medida que você obtém mais amostras, é mais provável que você tenha um valor λ maior.
Pergunta do público: Então a questão era: por que neste gráfico QQ os pontos ficam abaixo da diagonal? Aqui, é apenas um ruído aleatório. Então, você pode ver, desenhei um intervalo de confiança em torno dessa linha de 45 graus, e todos eles estão praticamente dentro desse intervalo de confiança. Então, provavelmente é apenas um ruído aleatório. Pode ser também que não tenhamos energia suficiente para o estudo de associação. Então, muitos dos primeiros testes de associação de variantes raras viram, você sabe, pontos abaixo da linha de 45 graus, ou viram a distribuição observada abaixo da linha de 45 graus, e isso é só porque eles não têm potência suficiente para detectar associação bem.
Pergunta do público: São apenas dados simulados, então estou dizendo que é ruído aleatório. A questão era por que aqui havia mais pontos abaixo da diagonal? E este era um gráfico simulado, então apenas aleatório, certo?
Pergunta do público: Então está certo. A maior parte da distribuição está aqui embaixo porque a maior parte da distribuição uniforme de nossos valores p.
Pergunta do público: Portanto, a questão é: o escore z é sempre distribuído normalmente em um GWAS? E se tivermos feito nosso estudo adequadamente, deveríamos estar normalmente distribuídos. Você pode não ter o poder de detectar efeitos muito significativos, e o Z de β sobre o erro padrão será normalmente distribuído para um normal padrão.
Portanto, você pode ter inflação em sua estatística de teste e ver isso em seus gráficos QQ. Então aqui simulei alguma inflação e você pode ver que os gráficos QQ estão se desviando da linha bem cedo. E assim, isto pode acontecer porque há uma estrutura populacional que não é contabilizada, alguma falta de parentesco que não é contabilizada, algum viés técnico ou genótipos de baixa qualidade. Mas quando você vê alguns pontos que estão desviando da linha, isso indica que há um problema com o seu GWAS. Em particular, quando se desvia da linha desde o início.
Ok, vamos dar um exemplo real desses gráficos QQ. Aqui está um estudo sobre o colesterol LDL e aqui você vê todos os SNPs. Aqui está minha linha aqui embaixo. A linha de 45 graus está bem aqui embaixo; você nem consegue ver. E isso porque temos resultados realmente significativos. Estamos obtendo valores p entre 10 e 600, altamente significativos. Mas sabemos que conhecemos variações que sabemos estar associadas ao colesterol LDL. E assim, se ampliarmos a parte inferior da distribuição, podemos ver que nesta extremidade inferior da distribuição os valores observados seguem a linha de 45 graus e que o que temos aqui em cima são associações verdadeiras. O verde é significativo em todo o genoma. Eu removi então quando removemos coisas que já encontramos, descobrimos que ele está se comportando normalmente. Mas isso inclui variantes que demonstraram ter importância em todo o genoma.
Aqui está a segunda maneira de resumir a distribuição bruta dos valores p. Aqui está o colesterol LDL. É chamado de gráfico de Manhattan porque deveria se parecer com o horizonte de Manhattan. E o que você vê são picos onde temos loci associados, e temos os picos e múltiplos. Cada um dos pontos deste gráfico é um valor p individual, uma associação individual. Então, esse pico aqui no cromossomo 5 oferece um monte de variantes que parecem estar associadas ao colesterol LDL. E isso é por causa do LD. A variante superior aqui está em LD com a próxima variante, e há decaimento de LD conforme você desce nesta linha. E assim, seria de esperar ver isto num estudo de associação genômica em larga escala, especialmente quando se imputam dados. Você não quer ver apenas um único ponto se configurando aqui e mostrando significado. Se eu tiver apenas um único ponto aqui nos picos, pode haver um problema com essa associação porque diz que este SNP está associado, mas nada em LD com esse SNP está associado. Então, algo para ser cauteloso.
Você pode realmente mergulhar em regiões específicas com parcelas de associações regionais. Então isso é feito com LocusZoom, uma ferramenta de software. Você pode pesquisar no Google, mas ele pegará os resultados da associação de todo o genoma e examinará um locus específico no qual você está interessado. Aqui estou traçando o locus SORT1, que tem sido fortemente associado ao colesterol LDL. E o que posso ver aqui é: usando informações de LD disponíveis publicamente, o LocusZoom está obtendo informações de LD, e você pode ver que minhas principais variantes aqui estão altamente correlacionadas – que os vermelhos, laranjas e verdes estão altamente correlacionados com os outros SNPs na região, indicando que este é provavelmente um SNP que está realmente associado na região e esses outros SNPs que mostram associações estão apenas em LD com essa variante principal.
Por outro lado, este é um gráfico de associação regional da região CETP, e aqui você pode ver que existem algumas variantes que são altamente significativas, mas não parecem estar correlacionadas com a variante principal, indicando que pode haver múltiplas sinais nesta região. E você gostaria de fazer um mapeamento preciso ou análises condicionais para obter os múltiplos sinais nesta região.
Um ponto chave é que associação não é causalidade. Ok, tirando esses GWAS, as variantes ou os SNPs que estamos analisando podem ter um efeito funcional nas características. Eles podem causar uma alteração de aminoácidos, podem alterar a expressão de um gene ou estar envolvidos na regulação do gene. Mas também poderiam estar em LD com uma variante funcional. Então, com o GWAS, você realmente atinge diferentes regiões do genoma, loci que estão associados à doença, e não variantes específicas que são causais da doença.
Existem muitas ferramentas para realizar GWAS, desenvolvidas por indivíduos do Broad e afiliados do Broad, particularmente PLINK e EIGENSOFT, bem como METAL, que foi desenvolvido para meta-análise pelo grupo Abecasis. E também o LocusZoom, que eram os gráficos que eu estava mostrando para os gráficos da associação regional.
Então, depois de fazer seu GWAS, há muito mais que pode ser feito. Portanto, você não deve pensar no GWAS apenas obtendo um novo conjunto de loci significativos associados à sua característica. Você quer começar a pensar em análises secundárias que você pode usar e obter mais informações usando estudos de associação genômica em larga escala. E então você poderia fazer predição de risco. Você pode usar uma pontuação de variantes genéticas que demonstraram estar associadas ao seu resultado para prever a doença. Então, podemos usar a genética e o GWAS para predizer doenças? Análises de vias – os loci associados estão ligados a uma via biológica específica? Podemos aprender uma nova ideologia sobre a doença com base nas associações que encontramos nos GWAS? Também podemos fazer a randomização mendeliana, onde aproveitamos os marcadores genéticos para chegar à causalidade dos biomarcadores.
Outras análises secundárias incluem a estimativa da variância explicada por conjuntos de SNPs, e isso é feito através do software GCTA. Agora que muitos GWAS foram realizados em uma ampla gama de fenótipos, você pode observar a pleiotropia. Um SNP está relacionado a múltiplas características? Você poderia mapear com precisão as regiões de associação de todo o genoma para obter os SNPs independentes dentro de um locus. E então o escore LD tem sido uma técnica também desenvolvida por indivíduos do Broad para poder distinguir entre confusão e poligenicidade em estudos de associação genômica em larga escala. E esta tem sido uma boa ferramenta quando há tamanhos crescentes de amostras nos GWAS que estão sendo realizados agora para doenças comuns.
Em resumo, os GWAS tiveram sucesso na localização de regiões do genoma com associações a características complexas. Muitos dos loci não são codificantes, sem função genética e precisam ser investigados através de estudos funcionais e acompanhamento. E acho que há mais variação genética a ser encontrada à medida que aumentamos o tamanho da amostra. Estamos recebendo sinais de associação mais significativos em todo o genoma; eles simplesmente têm um tamanho de efeito menor. E podemos realmente alavancar indivíduos não europeus. A maioria dos GWAS foi realizada em indivíduos europeus, e indivíduos não europeus nos fornecerão informações adicionais. Então isso é tudo que tenho por hoje. Muito obrigada.