Capítulo 7: Análises de Ancestralidades cruzadas

Capítulo 7.1: Análises de Ancestralidades cruzadas

Título: PTSD de ancestralidades cruzadas e descobertas poligênicas, e o SIG de população cruzada do PGC

Apresentadora(s): Laramie Duncan (Department of Psychiatry and Behavioral Sciences, Stanford University)

Caroline Nievergelt:

Bem-vindo à reunião do PGC Worldwide Lab. Vejo que as pessoas ainda estão conectando, então vamos dar-lhes um minuto. Ok, parece que está estável agora. Portanto, o tópico de hoje é a análise entre ancestralidades. Temos três palestrantes hoje: Laramie Duncan, Elizabeth Atkinson e Alicia Martin. Todas as três palestras estão centradas na análise do GWAS entre ancestralidades, que é um tópico realmente oportuno.

Hoje vamos fazer algo um pouco diferente do habitual. Na verdade, vamos esperar até que todas as três palestras terminem para responder às perguntas. Em seguida, permitiremos que você ative seu som. Portanto, se você tiver uma pergunta para algum dos apresentadores, basta ativar o som e fazer uma pergunta diretamente. E se isso não funcionar, ainda podemos tirar dúvidas através da função de chat.

Ok, então vamos começar com Laramie Duncan, que atualmente é professora assistente de psiquiatria na Universidade de Stanford. Laramie recebeu um doutorado conjunto em neurociência e psicologia clínica pela Universidade do Colorado e, em seguida, fez um pós-doutorado em genética estatística nos laboratórios de Jordan Smoller e Mark Daly no MGH [Massachusetts General Hospital] e na Harvard Med School. Hoje, ela falará sobre a análise GWAS em PTSD em diversas populações, um grupo de interesse especial no PGC. Então pode começar, Laramie.

Laramie Duncan:

Certo, ótimo. Muito obrigado, Caroline. Eu realmente aprecio esta oportunidade de apresentar. Então, obrigado a você e Pat. Como você mencionou, hoje vou falar sobre três tópicos relacionados à análise de ancestralidade cruzada. Primeiro, as análises do PGC PTSD. Em segundo lugar, análises de escore poligênico de risco. E terceiro, o grupo de interesse especial interpopulacional dentro do PGC. Assim, começando com o PGC PTSD, a onda original da análise do PGC PTSD foi liderada pela Dra. Karestan Koenen e meu mentor de pós-doutorado, como Caroline mencionou, foi o Dr. Mark Daly. Eles forneceram liderança e orientação incríveis para isso, então gostaria de mencioná-los antecipadamente.

E a razão pela qual estamos falando sobre PGC PTSD é que, na verdade, em comparação com a maioria dos GWAS de grande escala, nossas amostras eram relativamente diversas. Então, como vocês podem ver aqui, na verdade tivemos uma minoria de participantes com ancestralidade europeia, e tivemos uma amostra bastante grande de afro-americanos, bem como alguns indivíduos latinos/hispânicos. Isto é novamente para a primeira onda de análises de PTSD dentro do PGC.

Na época em que fiz essa figura, olhei para os outros grandes GWAS psiquiátricos. E como o resto da genética médica, podemos ver que a maioria das amostras são de ancestralidade europeia. As amostras que não são de ancestralidade europeia na genética médica tendem a ser de populações do Leste Asiático. Assim, apesar do fato de o PGC PTSD ter uma maior representação de mais populações, é importante notar que ainda não reflete a ancestralidade mundial.

Mas, no entanto, ao conduzir estas análises, o fato de termos estas amostras mais diversas exigiram modificações na nossa análise. E assim, quando abordamos este problema, fizemos o que qualquer um faz: pensamos no que poderia ser apropriado, conversamos com especialistas e tentamos diversas abordagens de análise diferentes. E houve muitas modificações que foram necessárias.

Apenas mostrando um aqui. Decidimos finalmente realizar uma meta-análise trans-ancestral. Portanto, para fazer isso, precisávamos atribuir ancestralidade para cada um dos participantes do nosso estudo, de modo que, dentro de cada coorte, pudéssemos conduzir individualmente GWAS específicos de ancestralidade antes da meta-análise dentro de cada ancestralidade e, em seguida, meta-análise trans-ancestral. Então, na verdade, embora este trabalho tenha continuado em termos de melhorias analíticas adicionais no pipeline, quero apenas apontar a todos aqui o trabalho de Caroline sobre isso, e de Adam Maihofer e seu grupo. Eles continuaram a melhorar o pipeline com algumas adições e mudanças realmente interessantes no controle de qualidade, nas etapas de imputação e na análise. Esta segunda rodada da análise PGC PTSD está agora disponível no bioRxiv. O link está aqui. Portanto, para dúvidas sobre as melhorias mais recentes, sugiro que as pessoas leiam este artigo ou falem com Caroline.

Voltando ao PGC PTSD, a primeira onda de análises de PTSD, gostaria de destacar algo que foi interessante e informativo dessas análises. Assim, por puro acaso, aconteceu que tínhamos cerca de 10000 indivíduos de ancestralidade afro-americana e de ancestralidade europeia, com cerca de 25% de casos cada. Apesar destes tamanhos de amostra comparáveis, verificou-se que não tivemos resultados significativos nas amostras afro-americanas, ao passo que, como esperado, tivemos estimativas significativas de herdabilidade de SNP nos indivíduos de ancestralidade europeia, bem como predições poligênicas. Por exemplo, usando resultados externos do GWAS de esquizofrenia para prever PTSD nas amostras de ancestralidade europeia. E com base em cálculos de potência, pensamos que teríamos potência suficiente nestas amostras de ancestralidade europeia. Mas devido às expectativas de menor transferibilidade nas amostras afro-americanas, não sabíamos se teríamos poder suficiente. E nessas amostras, descobriu-se que não.

As razões para isto são pelo menos um pouco bem compreendidas. Em primeiro lugar, tivemos uma cobertura pior de variantes de ancestralidade africana nas nossas amostras. Isto ocorre porque os indivíduos com ancestralidade africana têm maior diversidade genética do que outras populações e, portanto, para qualquer número de variantes, não é possível cobrir tanto o genoma. Mas também, como muitas pessoas sabem, há uma tendência para variantes de ancestralidade europeia em chips de genotipagem. Portanto, ambos os problemas provavelmente contribuíram. Além disso, a falta de recursos externos de dados de populações não europeias é realmente um problema, especialmente para estas amostras de ancestralidade africana. Mas isso também é verdade para outras populações. E então, finalmente, há também inadequações metodológicas atualmente. Por exemplo, as diferenças no desequilíbrio de ligação e nas frequências alélicas ainda não são tratadas tão bem como poderiam ser em muitas análises diferentes.

Portanto, a boa notícia é que na segunda onda de análises de PTSD – este artigo de Caroline que mencionei antes – tivemos amostras maiores para todas as populações. E com esses tamanhos de amostra maiores, poderíamos realmente estimar a herdabilidade e ter predições poligênicas nas amostras afro-americanas. Então, parece que isso foi uma questão de poder. E, certamente como esperado, ajuda ter amostras maiores.

Vou abordar agora alguns pontos rápidos sobre escores poligênicos de risco. Não sei se em parte é apenas estar no Vale do Silício e estar perto da 23andMe, mas todo mundo está falando sobre escores poligênicos de risco aqui. Não dentro do meu prédio de psiquiatria, mas apenas as pessoas estão muito interessadas nisso. Há alguns anos, quando, por exemplo, o 23andMe estava divulgando resultados sem quaisquer resultados poligênicos, sem qualquer menção de que esses escores poderiam, ou certamente teriam, desempenho diferenciado entre grupos ancestrais. Então, pensamos que este era um tópico muito importante para passar algum tempo explorando.

Assim, para dar uma ideia geral, já em 2009, o artigo do ISC, Purcell et al., demonstrou que os escores poligênicos de risco derivados de populações de ancestralidade europeia têm um desempenho fraco em amostras afro-americanas. E este pior desempenho em amostras de ancestralidade não europeia foi demonstrado muitas vezes desde então em muitas publicações diferentes de escore poligênico de risco. Portanto, a nova questão que queríamos analisar era: queríamos quantificar o decréscimo de desempenho entre as populações ancestrais europeias e outras ancestralidades.

Vimos algumas maneiras de fazer isso. Vou apenas mostrar uma informação aqui. Analisamos 10 anos de estudos de escore poligênico. Primeiro, apenas para ver quem foi incluído nesses estudos. Como esperado, estes estudos também têm ancestralidade principalmente europeia. Mas então, chegando ao desempenho dos escores poligênicos em diferentes grupos de ancestrais, fizemos comparações. Por exemplo, um dos resultados é que descobrimos que os escores poligênicos tiveram um desempenho cerca de três vezes melhor em indivíduos de ancestralidade europeia do que em amostras afro-americanas. Não sei se acho que Alicia pode ou não mencionar dados adicionais que ela tem aqui que apresentam, creio eu, análises ainda melhores abordando essa questão.

Assim, em resumo, no que diz respeito aos escores poligênicos, o desempenho é pior para as populações de ancestralidade não europeia. Isto não é surpreendente; isso já era conhecido há algum tempo. Mas estão em curso esforços para quantificar até que ponto os desempenhos são piores nas diferentes populações. Penso que é importante saber o que esperar tanto da investigação científica, onde queremos ter cálculos de potência precisos, como na medida em que alguém utiliza estes resultados na prática clínica, ou apenas nas suas próprias vidas, obtendo relatórios 23andMe, é importante para saber quão bem eles podem funcionar. Esforços também estão em andamento para melhorar a predição entre as populações.

Mas, chegando a uma questão mais ampla, penso que a questão que muitos de nós temos em mente é: o que fazemos em relação à substancial sub-representação da maioria das populações nos estudos genéticos? Então, isso me leva ao meu último tópico. E à primeira vista, ou a título de informação de base, existem muitas soluções potenciais para este problema, e sei que muitos investigadores do PGC trabalham nesta área há bastante tempo. E então estamos apenas mencionando uma abordagem adicional. Mas, agora, se eu tivesse mais tempo, mencionaria outros esforços que estão em andamento. Algo que fizemos, com Hailiang Huang, que agora é professor júnior no grupo de Mark Daly no Broad, foi iniciar um grupo de interesse especial interpopulacional dentro do PGC, com o objetivo de melhorar a aplicabilidade dos resultados genéticos, conduzindo análises e apoiando o envolvimento de investigadores de diferentes partes do mundo.

Em uma de nossas primeiras reuniões, Roseann Peterson teve uma ótima ideia de escrever um artigo de melhores práticas descrevendo as maneiras pelas quais as análises genéticas deveriam ser modificadas para amostras de ancestrais diversos, em particular amostras miscigenadas e mistura de amostras diferentes. Alguns dos tópicos abordados neste documento incluem recomendações específicas sobre como modificar as etapas do controle de qualidade, quais parâmetros devem ser modificados e como e por quê. Além disso, existem recomendações para imputação e como analisar amostras que são GWAS ou um contexto de modelo misto. E isso é absolutamente um grande esforço de equipe, e quero apenas agradecer a este grupo. Acho que a razão pela qual esse documento de melhores práticas ainda não existe é que não existe realmente nenhuma pessoa no mundo que pudesse ter escrito um documento de melhores práticas. É graças especialmente aos analistas deste grupo, que têm experiência em áreas específicas, que fomos capazes de cobrir esses diferentes componentes de análise e realmente escrever sobre as várias abordagens, e quais são os prós e os contras de adotar uma abordagem em detrimento de outra. Então é isso que está neste documento de práticas recomendadas.

Hailiang conversou com um editor da Cell e eles ficaram muito interessados ​​neste artigo. Eles sugeriram que o apresentássemos como uma cartilha, então esse é o formato atual do artigo. Iremos enviá-lo na segunda-feira, então esse é nosso primeiro produto de trabalho. O grupo de interesse especial está aberto a qualquer pessoa; está tecnicamente dentro do grupo de estatísticas. Se você estiver interessado, atualmente temos reuniões na primeira quarta-feira do mês às 13h. Você pode entrar em contato conosco. Obrigado a todos esses grupos por seus incríveis esforços colaborativos. Então, obrigado.

[Nota: Este artigo está agora disponível como Estudos de associação de todo o genoma em populações ancestralmente diversas: oportunidades, métodos, armadilhas e recomendações: https://doi.org/10.1016/j.cell.2019.08.051]


Capítulo 7.2: PRS específico de ancestralidade

Título: O uso clínico dos atuais escores poligênicos de risco pode exacerbar as disparidades de saúde

Apresentadora(s): Alicia Martin, PhD (The Broad Institute of MIT and Harvard)

Caroline Nievergelt:

Nossa terceira palestrante é Alicia Martin. Alicia é instrutora na MGH e pesquisadora afiliada do Broad em Harvard. Ela recebeu seu doutorado em genética pela Universidade de Stanford, e seu foco atual de pesquisa é o desenvolvimento de novos métodos estatísticos para melhorar a generalização da predição de risco genético a partir de seus estudos genéticos eurocêntricos. Portanto, a sua palestra de hoje intitula-se “O uso clínico dos atuais escores poligênicos de risco pode exacerbar as disparidades de saúde”. Vá em frente, Alícia.

Alicia Martin:

Obrigado, Caroline. Hum, desculpe, tentando mover para o outro lado. Bem, espero que isso desapareça. Estou animada para falar com vocês hoje e obrigada por me receberem aqui. Vocês conseguem ver essa parte da tela de zoom, na tela?

Caroline Nievergelt:

Podemos ver seus slides.

Alicia Martin:

Você pode ver meus slides, ok? Perfeito.

Então, acho que um ponto importante para começar é pensar sobre a história da população humana. Portanto, todas as nossas diferenças genéticas entre as populações são moldadas pela forma como nos originamos e como migramos e nos misturamos à medida que saímos de África. Então, é claro, os humanos se originaram na África. Isto foi demonstrado através de evidências genéticas, bem como evidências arqueológicas e linguísticas. Tantas fontes mostram isso, e então os humanos migraram para fora da África e, ao fazê-lo, levaram consigo um subconjunto de diversidade genética à medida que povoavam a Europa, a Ásia, a Austrália e as Américas.

Outro ponto que acho que vale a pena falar – desculpe, aqui está o fato de que os GWAS estão se tornando cada vez mais poderosos, e isso é muito, muito emocionante porque estamos fazendo muito mais descobertas biomédicas atualmente. Alguns medicamentos estão até sendo desenvolvidos a partir disso, e isso tem crescido a uma taxa tão exponencial que tem sido realmente impressionante e um tanto desafiador até mesmo acompanhar todo esse progresso. Então foi muito, muito incrível assistir.

Infelizmente, porém, como Laramie mencionou anteriormente, e Elizabeth também o fez, a genética tem este problema de diversidade. Então agora, mostrando o mesmo crescimento e progresso na genética pelas populações que estão representadas nestes estudos genéticos, a nível individual, podemos ver, claro, que a grande maioria dos participantes em estudos genéticos, cerca de 80% atualmente, são de ancestralidade europeia. E isto está muito fora de sintonia com a população global, onde cerca de 16% da população mundial tem ancestralidade europeia. E talvez ainda mais preocupante, se olharmos para a fração de indivíduos que participaram nestes estudos GWAS como uma proporção global, o progresso na diversificação da genômica estagnou um pouco ou talvez caiu um pouco desde cerca de 2014. E então este é realmente um grande problema se estivermos tentando generalizar os estudos para todos.

E uma das nuances que quero mencionar aqui é que não é que os estudos tenham diminuído; os estudos geralmente permanecem os mesmos ou têm aumentado em diferentes populações. Mas uma coisa que temos observado é que os estudos têm crescido muito, muito, muito mais rapidamente nas populações de ancestralidade europeia do que noutros lugares. E, portanto, uma questão na qual realmente me concentro é na compreensão de como os vieses do estudo da ancestralidade na genética impactam a generalização do conhecimento que podemos aprender com esses estudos. E então eu divido isso de algumas maneiras em diferentes aspectos do nosso trabalho. Mas, em geral, quero destacar alguns pontos-chave que considero que vale a pena manter em mente ao longo de todas estas questões.

Então, uma delas é que a biologia fundamental é realmente compartilhada entre diferentes populações. Portanto, uma pessoa de uma população provavelmente terá um ataque cardíaco, provavelmente pelas mesmas razões subjacentes, por exemplo, de um indivíduo com outro ancestralidade. E isso também é verdade na genética; na genética, isso também é verdade. Portanto, quando analisamos muitos domínios biomédicos diferentes e tentamos compreender quais são os efeitos das variantes causais em diferentes populações, estes tendem a ser na sua maioria partilhados. Portanto, não há nada de especial na genética que seja diferente de outras biologias em geral. As variantes genéticas causais parecem ser as mesmas e compartilhadas entre as populações.

Mas existem algumas complicações na interpretação da genética entre populações por diversas razões. Então, é claro, também vale a pena ter em mente que há mais variação genética dentro de populações do que entre populações. Portanto, as populações não são substancialmente diferenciadas geneticamente a ponto de encontrarmos populações genéticas completamente distintas. Na verdade, a maior parte da variação genética é partilhada; isso é comum entre as populações e há mais variação genética interna do que entre elas.

Outro ponto que acho que vale a pena ter em mente é que a estrutura LD (desequilíbrio de ligação), essa estrutura de correlação do genoma, é um fator determinante que criou muitos desafios porque realmente difere entre as populações em função da história humana, remontando ao primeiro mapa que eu lhe mostrei.

Portanto, para tentar abordar esta questão de quão generalizáveis ​​são os nossos estudos genéticos, comecei por calcular escores poligênicos de risco. Laramie falou sobre isso anteriormente, sobre esse grande entusiasmo no espaço de escore poligênico de risco, e como tem sido realmente impressionante ver o crescimento nessa área nos últimos anos. Só para estarmos todos na mesma página, acho que a maioria de vocês está familiarizada com um escore poligênico. Mas, em geral, isso é apenas prever o fenótipo de um indivíduo a partir do genótipo. Então, estamos basicamente pegando genótipos de algum indivíduo-alvo, algumas estimativas de tamanho de efeito do GWAS que existem, multiplicando-os, somando-os ao longo do genoma, e essa é basicamente a nossa predição fenotípica. Esse é um método muito simplista; existem outros métodos. Mas algumas considerações que atravessam todos esses diferentes métodos para calcular escores poligênicos são quais SNPs devemos incluir, quais pesos devemos usar, e uma coisa que sempre precisamos abordar em termos da utilidade de nossos escores poligênicos é quão preciso é o escore. E isso realmente vai variar muito com o tamanho da amostra, a herdabilidade, a arquitetura genética da característica e uma série de fatores diferentes. Definitivamente, vale a pena ter em mente todas essas complexidades e interpretar os escores poligênicos na literatura.

Portanto, um estudo que fizemos anteriormente mostrou que o histórico populacional realmente impacta a predição de risco genético em diversas populações. E, portanto, alguns pontos aqui são que a precisão da predição genética diminui com o aumento da divergência genética entre as populações descoberta e alvo. Então, nesta figura à direita, estou mostrando uma distribuição de escore poligênico calculada no projeto do 1000 Genomes. Assim, podem ver que predizemos que as populações europeias, por exemplo, seriam mais altas do que as populações americanas e do sul da Ásia, e previmos que as populações da Ásia Oriental e da África seriam as mais baixas a nível global. Mas essas diferenças realmente não se alinham com os estudos antropométricos e são bastante enganosas. Estas mudanças distributivas são muito, muito massivas e, portanto, isto não reflete necessariamente a realidade.

Também montamos algumas simulações de coalescência juntamente com algumas simulações genéticas estatísticas e mostramos que esses escores poligênicos podem diferir arbitrariamente entre as populações, e estas não são necessariamente significativas. E também mostramos que a evolução humana neutra por si só pode ser suficiente para explicar estas diferenças. Não excluímos necessariamente a seleção, mas afirmamos que a evolução neutra e a deriva, em particular, podem estar a impulsionar algumas destas diferenças. Há alguns artigos realmente interessantes que quero destacar de Michelle Sohail, Jeremy Berg e colegas que foram publicados ontem na Elife sobre este tópico.

Então, queríamos analisar isso em grande escala e, para fazer isso, analisamos os dados do UK Biobank. O UK Biobank é, obviamente, composto principalmente por indivíduos descendentes de europeus, e por isso usamos esses indivíduos para conduzir GWAS para diversas características diferentes, 17 características que eram todas quantitativas, então coisas como altura e IMC, e depois uma série de exames de características do sangue. E então usamos a diversidade do UK Biobank neste subconjunto não europeu para tentar entender o quão generalizável é a precisão da predição.

Em geral, o que vimos é que se normalizarmos a precisão das predições em todas estas 17 características para a precisão com que previmos nos europeus, verificamos uma queda bastante substancial na precisão das predições nestas diferentes populações. Assim, por exemplo, na parte mais à direita deste gráfico, vimos uma melhoria de quatro vezes e meia na precisão das predições nos europeus em relação ao nosso desempenho nas populações de ancestralidade africana. Também estamos fazendo predições duas vezes melhores nas populações europeias do que nas populações do Leste Asiático, e você pode ver como estamos nos saindo nessas outras populações. Portanto, essas disparidades são realmente muito grandes aqui.

Então, por que isso está acontecendo? Muitas pessoas já escreveram sobre isso antes, e isso foi bem abordado na literatura, mas, em geral, há uma base bastante previsível de risco poligênico para disparidades, e isso obviamente está relacionado a quem estamos estudando. Então, por quê? Bem, como você sabe, os GWAS são mais capacitados para descobrir variantes comuns na população. Portanto, se estudarmos repetidamente as populações europeias, em geral, estaremos a detectar variantes que são mais comuns nas populações europeias, que são então capazes de explicar mais a variação fenotípica nas populações europeias do que as variantes que são menos comuns em outras populações. Além disso, as diferenças de LD entre as populações significam que provavelmente estamos obtendo tag SNPs melhores no GWAS nas populações europeias do que em outras populações. E há outros tópicos realmente muito mais complexos que influencia esta generalização – diferenças no ambiente, seleção e outras diferenças mais complicadas.

Mas quero enfatizar que há muitas promessas consistentes na diversificação de esforços até agora. Assim, por exemplo, o grupo de trabalho sobre esquizofrenia do PGC, liderado por Hailiang Huang e com o primeiro autor Max Lam, tem trabalhado para realmente aumentar o tamanho da amostra de indivíduos do Leste Asiático em estudos sobre esquizofrenia. Portanto, neste momento, os estudos europeus de controle e casos na esquizofrenia ainda são cerca de três vezes maiores do que os estudos do Leste da Ásia, mas o progresso nos países do Leste da Ásia tem sido muito, muito rápido e massivo ultimamente. E assim, quando analisamos quão bem fomos capazes de predizer o risco de esquizofrenia no Leste Asiático nessas coortes de caso-controle. Em geral, o que vimos foi que fomos muito mais capazes de prever o risco de esquizofrenia no Leste da Ásia utilizando os dados do Leste da Ásia correspondentes à ancestralidade, apesar do fato de os dados de formação europeus serem cerca de três vezes maiores. Isso indica que há realmente muita promessa e valor em fazer estudos específicos sobre ancestralidades aqui.

Por último, quero abordar este esforço que fizemos para tentar comparar algumas análises à escala de biobancos. Então, geralmente, o que realmente nos interessava era fazer GWAS de tamanho igual no UK Biobank e no Biobanco do Japão, onde temos muitas características sobrepostas que foram profundamente estudadas. Então, estamos interessados ​​em fazer predições nas populações europeias e na população japonesa para tentar compreender como é a precisão das predições, para ver se esta era simétrica e comparável entre as populações. Também testamos a precisão das predições nas populações afrodescendentes do UK Biobank.

Então, em geral, o que vimos foi que a predição de doenças com base na ancestralidade era mais precisa. Então, à esquerda, estou mostrando a doença ao longo do eixo x, e no eixo y, estou mostrando a precisão da predição, e os resultados correspondentes à ancestralidade são indicados por cores correspondentes. Portanto, no eixo y está o alvo da previsão, e as estatísticas resumidas que usamos para gerar os preditores são mostradas em azul para os indivíduos do Biobanco do Japão e em vermelho para os indivíduos do UK Biobank. E assim, em geral, tivemos um desempenho melhor em ambos os cenários com a predição de doenças correspondentes à ancestralidade. Uma coisa interessante que aprendemos foi que a predição geral da doença era mais precisa no Japão, e isso foi uma consequência de como essas coortes foram construídas. Portanto, a coorte do biobanco do Japão é uma coorte mais baseada em hospitais com diagnóstico de doenças, enquanto o UK Biobank é uma coorte populacional mais saudável e rica do que a média.

Uma descoberta semelhante emerge dos traços quantitativos. Portanto, para essas medidas gerais de saúde – características antropométricas e de painel sanguíneo – em geral, a predição de características quantitativas correspondentes à ancestralidade também é mais precisa. Dando uma olhada nesses eixos y, você pode ver novamente diferenças notáveis ​​na precisão da predição em cada uma dessas populações, e as características quantitativas são preditas com mais precisão em geral nas amostras europeias do Reino Unido, e isso novamente por causa dessa apuração de indivíduos mais saudáveis no UK Biobank.

Ok, quero parar por aqui, encerrar e pensar nos próximos passos. Então, em geral, acho que os escores poligênicos são realmente empolgantes e interessantes e podem ter algum poder para melhorar os modelos clínicos, mas no momento estou um pouco preocupada ou muito preocupada com o fato de que eles provavelmente aumentarão as disparidades de saúde devido a estes vastas coortes eurocêntricas do GWAS. Portanto, vejo isto como um apelo a alguns impulsos que realmente precisamos para fazer esforços concertados. Uma é que precisamos de estudos GWAS muito mais diversificados, e outra é que precisamos de novos métodos estatísticos para abordar estas questões importantes. E sobre este tópico, já que pode ser um pouco delicado, eu só quero pedir a todos que estão trabalhando nesses tópicos interculturais, vocês sabem, generalizados, que comuniquem suas pesquisas de forma responsável e ampla e antecipem as implicações de suas pesquisas, pensando sobre as possíveis consequências negativas que acontecerão.

Queria também salientar que estão a ser feitos grandes esforços, por exemplo, na África para expandir os GWAS, especialmente no espaço psiquiátrico, para, por exemplo, transtornos do desenvolvimento e para a esquizofrenia, e penso que isto é realmente emocionante e ensinou-nos muito sobre como fazer investigação intercultural e de uma forma eticamente responsável que acompanha alguns esforços de capacitação.

Então, quero reconhecer que este é um esforço enorme que envolve muitas pessoas realmente incríveis, incluindo meu conselheiro e mentor, Marc Daly. E com isso estou feliz em parar e receber perguntas de todos.


Capítulo 7.3: Ancestralidade local

Título: Tractor: Uma estrutura que permite a análise genômica bem calibrada de características psiquiátricas em populações miscigenadas

Apresentadora(s): Elizabeth Atkinson

Elizabeth Atkinson - Pós-doutorado no MGH no Broad com Mark Daly e Peniel. Elizabeth fez seu doutorado na Universidade de Washington em St. Louis e atualmente está desenvolvendo recursos que permitem análises genéticas aprimoradas em populações miscigenadas. Ela é membro do grupo PGC PTSD e desenvolveu uma estrutura de análise de ancestralidade local, hoje Elizabeth vai falar sobre formas de realizar análises genômicas bem calibradas de características psiquiátricas em populações miscigenadas.

Elizabeth Atkinson:

Tudo bem, muito obrigada novamente por me convidar para falar sobre este projeto. Estou muito animada para ouvir o feedback. Então, sim, como Caroline disse hoje vou falar sobre um projeto em que estou trabalhando, na esperança de melhorar a capacidade de fazer análises genômicas sofisticadas em populações miscigenadas.

Então, para começar, vamos lá. Toda uma reiteração de um ponto que vocês sabem, esperamos que agora esteja se tornando de conhecimento comum na comunidade GWAS, e sobre o qual Laramie acabou de falar profundamente. A grande maioria dos nossos estudos de associação é realizada em coortes europeias. E se olharmos mais de perto para este tipo de fatia do gráfico que não é europeia, notaremos que apenas uma pequena porcentagem são populações miscigenadas. Só para ter certeza de que estamos todos na mesma página, começando quando digo “miscigenado”, estou falando de um indivíduo cuja ancestralidade não é homogênea, mas sim composta por várias populações ancestrais.

Tão importante é que existem muitas outras amostras por aí que foram genotipadas ou sequenciadas junto com os fenótipos, mas elas não estão realmente chegando a esta figura. Eles estão sendo excluídos da análise por serem muito miscigenados. E há também vários esforços significativos em grande escala para recolher fenótipos psiquiátricos juntamente com dados genômicas em diversas populações, alguns deles liderados aqui mesmo no Stanley Center. Portanto, há realmente uma necessidade de desenvolvimento de novos métodos que permitam a fácil inclusão de pessoas miscigenadas em estudos de associação. Realmente não podemos mais nos dar ao luxo de deixar grandes quantidades de nossos dados na mesa, e você sabe, muito menos outros aspectos problemáticos de deixar grupos étnicos inteiros pouco estudados.

Assim, os indivíduos miscigenados são geralmente removidos devido aos desafios de contabilizar a sua ancestralidade complexa. Portanto, há preocupações sobre a infiltração da estrutura populacional nas análises e resultados tendenciosos, o que pode levar a associações falso-positivas. Estudos que incluem indivíduos miscigenados geralmente tendem a corrigir apenas PCs. Então, PCs, na verdade, acho que posso fazer um apontador laser aqui. Deixe-me fazer isso. Tudo bem, então os PCs geralmente corrigem apenas para um tipo de ancestralidade média. Então, se alguém é, digamos, 75% africano, 25% europeu, ou vice-versa, e na verdade, você sabe, não consegue considerar grande parte da estrutura populacional em escala mais refinada que ainda pode estar presente em os dados, e isso é importante porque, você sabe, esse tipo de padrão de escala precisa ser diferente, por exemplo, coortes de caso-controle e ainda deixar a porta aberta para falsos positivos.

Então, aqui, vou apresentar uma nova estrutura analítica para, esperançosamente, corrigir esse problema e permitir a fácil incorporação de pessoas miscigenadas em estudos de associação. Fazemos isso especificamente tendo em conta a ancestralidade local, que tem em conta esta escala mais precisa da estrutura populacional. Então, para entender um pouco mais sobre o tipo real de método, estamos chamando esse método de “tractor” por enquanto. A característica central do quadro proposto baseia-se na inferência da estrutura populacional, como disse, baseada na ancestralidade local. Portanto, o primeiro passo é esse pipeline automatizado para chamar tratos de ancestrais locais em sua amostra. Caso você saiba que nunca viu nenhuma figura pintada de cariograma antes, aqui está um exemplo de um indivíduo latino. Os autossomos estão ao longo do eixo x, posicionados ao longo dos cromossomos no Y e então as duas fitas de cada cromossomo são pintadas de acordo com a origem ancestral daquele trato.

Portanto, usamos essas informações depois de coletá-las para melhorar o faseamento de longo alcance e a recuperação do trato de haplótipos, que abordarei com muito mais detalhes nos próximos slides. E então o objetivo final é basicamente ser capaz de extrair os ancestrais dos componentes de interesse. Por exemplo, se tiver uma grande coorte europeia e esta população miscigenada, poderá usar o tractor para retirar os pedaços europeus da sua coorte miscigenada para incluir ao lado dos seus indivíduos europeus. E, você sabe, o mesmo vale para os componentes africanos e nativos americanos neste exemplo. Então, dessa forma, você pode aproveitar as informações das pessoas miscigenadas; você não precisa mais excluí-los da análise.

Como a primeira etapa deste pipeline envolve chamar a ancestralidade local, eu queria validar se o desempenho estava bom e se correspondia às populações-alvo que tínhamos em mente. Portanto, o caso de uso sobre o qual falarei no restante desta palestra é o contexto demográfico afro-americano, e modelamos isso a partir de coortes afro-americanas de PGC PTSD. Portanto, para testar a inferência de ancestralidade local usando um dos métodos existentes muito valiosos para chamar a ancestralidade local, RFmix, simulei um conjunto de dados verdadeiros que se assemelha a essas populações realistas de PGC PTSD usando dados reais de haplótipos. Isso manterá os padrões LD e, você sabe, outras características genômicas presentes em dados reais que às vezes são difíceis de simular. E usando esse conjunto de dados verdadeiros com fase conhecida e ancestralidade local, executei a primeira etapa do tractor, chamando, você sabe, ancestralidade local, e quantifiquei com que frequência acertamos. E, endurecendo, cerca de 98% das vezes, não importa como você o corta, estávamos obtendo linhas de inclinação corretas, o que lembra, então isso parece funcionar muito bem.

Em seguida, eu queria ver como o pipeline funcionaria em um conjunto de dados mais real. Então normalmente não temos uma fase perfeita; temos dados estatisticamente faseados. Então peguei nosso conjunto de dados verdadeiros e executei-o por meio de um pipeline de faseamento padrão, SHAPEIT2, usando 1000 Genomes como painel de referência. E notei algo que inicialmente não esperávamos ver, que é que muitas das faixas originalmente longas foram realmente interrompidas por esses erros de mudança de fase. Portanto, mesmo que a inferência de ancestralidade local esteja funcionando muito bem, você sabe, se estiver funcionando bem se tivermos zero, uma ou duas faixas africanas em uma determinada posição, esses haplótipos de longo alcance estão sendo interrompidos devido a erros de troca. Então acabamos construindo uma etapa adicional no tractor para encontrar e desenroscar, como chamamos, essa mangueira de jardim, para recuperar esses haplótipos de longo alcance.

Então aqui está nosso cariograma novamente. Agora, depois que essa etapa de desagregação foi implementada, percebemos que ainda havia alguns trechos onde, devido à ancestralidade local, pintamos os cromossomos nos dados estatisticamente faseados. Portanto, há algumas áreas salientes que ainda não puderam ser recuperadas. Portanto, decidimos implementar mais uma iteração do RFmix nesse tipo de conjunto de dados resolvido para ver se isso poderia ajudar a recuperar esses haplótipos completos. E, de fato, isto melhorou dramaticamente a situação.

Então, só para convencê-lo de que isso não apenas fez nossos cariogramas parecerem mais bonitos, mas também fez com que os dados parecessem mais realistas. Modelei as distribuições de trilhas usando um tempo de espera de poisson centrado em nove, que foi o número de gerações atrás em que ocorreu o pulso de miscigenação. Diante disso, é assim que esperaríamos que os trechos europeus em nosso conjunto de dados, neste caso, você sabe, os rastros europeus desses indivíduos afro-americanos se parecessem, você sabe, se tudo estivesse correto. E podemos usar isso para atribuir um valor p à probabilidade de obter as distribuições nos vários tratamentos dos dados. Assim, no nosso conjunto de dados verdadeiros, focando novamente nestas faixas vermelhas, que são os segmentos europeus, vemos aqui uma distribuição bastante próxima das expectativas, quase em torno de nove. Após a fase estatística, entretanto, as trilhas ficam extremamente curtas; na verdade, eles são P vezes 10 elevado a menos 28, provavelmente observando uma distribuição dessas muitas trilhas minúsculas, muito, muito improvável. Depois de desmontado, ele melhorou cerca de duas vezes e, com uma iteração do pipeline, colocamos as coisas quase de volta onde deveriam estar. E apenas para diminuir o zoom e colocar tudo isso em perspectiva de outra maneira, você pode ver, você sabe, como nós realmente melhoramos dramaticamente as coisas desde esta situação original em fases roxas até esta linha amarela, que é o mais próximo do conjunto de dados verdadeiro em preto aqui como conseguimos até agora. Portanto, estamos de fato fazendo com que a situação pareça estatisticamente significativamente mais realista ao recuperar esses haplótipos de longo alcance, o que também pode ser importante se você estiver preocupado com coisas como LD, por exemplo, em seu conjunto de dados.

Também testamos isso em vários outros cenários demográficos e o desempenho é igualmente bom. Então, com diferentes frações de miscigenação, colocando modelos demográficos diferentes, tempos de pulso em diferentes pontos do passado e também entre diferentes ancestralidades com vários tipos de tempos de divergência.

Então, nos últimos minutos aqui, gostaria de dar um passo atrás e olhar para uma das principais aplicações desta estrutura, que é realmente para mostrar que ela melhora o desempenho no contexto GWAS. Portanto, não só deveríamos corrigir melhor a estrutura populacional usando esta informação sobre a ancestralidade local, mas também podemos realmente identificar um novo locus através de um aumento no poder da ancestralidade local. O modelo estatístico embutido no tractor basicamente testa cada SNP para uma associação com o fenótipo usando o modelo de regressão logística que mostrei aqui, onde X é o número de cópias do alelo de risco do, você sabe, o primeiro de seu ancestrais, X2 é o número de cópias de seu segundo ancestral, e então você pode inserir quaisquer outras covariáveis, incluindo PCs globais, você sabe, como para o restante de seus parâmetros. Você também percebe que isso está atualmente escrito como um contexto de mistura bidirecional, mas pode ser ampliado para um número arbitrário de ancestrais, e você pode testar ainda mais se o alelo de risco é específico da ancestralidade, avaliando a diferença entre beta1 e beta2 usando o teste AZ.

Então, queríamos ver se havia algum tipo de ganho de poder usando esse modelo, e quero agradecer aqui a Adam, que heroicamente executou muitas dessas simulações comigo. Então, para fazer isso, simulamos novamente um cenário demográfico afro-americano realista. Desenhamos uma variante bialélica da doença com a probabilidade de cada cópia do genótipo extraída da frequência alélica menor. Em seguida, simulamos um fenótipo de doença assumindo uma prevalência de 10% da doença, e o risco de um indivíduo desenvolver o fenótipo foi modificado basicamente pela sua porcentagem de miscigenação e pela presença do alelo menor no contexto genético africano. Então, isso basicamente pressupõe que não há efeito num contexto genético europeu, mas sim um efeito num contexto genético africano, o que seria, você sabe, equivalente a modificar os tamanhos dos efeitos devido a um tag SNP estar presente em contextos africanos e não em europeus por uma mutação causal em período partilhado.

Então, executamos muitas simulações variando todos esses tipos de parâmetros para caracterizar o cenário de como o tractor melhoraria sua potência. Este é o contexto mais simples, mostrando apenas a frequência alélica mantida constante em uma frequência alélica menor de 20%. Em todos esses gráficos, a linha pontilhada ou tracejada é o tractor, e a linha sólida é uma espécie de método GWAS tradicional que incorpora PCs. E você notará que o mesmo tamanho de amostra é mostrado em azul e preto, vemos um ganho de poder significativo usando ancestralidade local, e isso pode ficar muito grande, e, você sabe, esse ganho pode ficar muito grande em diferentes contextos genômicos. Assim, por exemplo, quando se introduz uma pequena diferença de frequência alélica entre as ancestralidades, agora mostrada nesta linha vermelha, este tipo de lacuna entre os métodos torna-se muito dramático. E eu quero focar nisso por um momento só para mostrar o quanto, você sabe, o quão significativa é essa melhoria de potência. Portanto, se você escolher seu poder favorito, digamos 80%, você será capaz de detectar variantes com uma razão de chances de cerca de 0.1 menor usando nosso método de incorporação de ancestralidade local em comparação com seu GWAS tradicional. Ou se você escolher sua razão de chances favorita, digamos 1.2, você basicamente teria muito pouco poder para encontrar essa variante em um contexto normal, mas seríamos capazes de detectá-la com um poder muito alto usando nosso método.

Portanto, também fizemos vários testes caracterizando outros aspectos do cenário genômico. Como estou com pouco tempo, mencionarei brevemente o mais significativo, que é a diferença de tamanho do efeito entre as ancestralidades. Então agora introduzimos um efeito em ambas as origens, não apenas no contexto genético africano, e o principal ponto a levar para casa é que, você sabe, se você tiver os efeitos, então no lado direito aqui, agora temos o efeito trocado apenas no contexto europeu e não no contexto africano, e você notará que teríamos efetivamente poder zero para detectá-lo usando um modelo tradicional, mas podemos detectá-lo com potência razoável com o Tractor. Isto ocorre porque a ancestralidade europeia representa apenas cerca de 20% da amostra, então o sinal teria realmente sido inundado se não tivéssemos desconvoluido os tratos de ancestralidade locais. E o mais importante, em um contexto em que não esperaríamos nenhuma melhoria da ancestralidade local, o efeito é o mesmo, tudo é igual em ambas as ancestralidades, não vemos muita perda de potência, uma perda mínima de potência com o uso do Tractor. Portanto, não parece haver um grande impacto em incluir isso em suas análises. Então, você sabe, se você não tem certeza do efeito da ancestralidade, parece que não é um grande problema incorporar isso. E o mais importante, estamos falando, você sabe, do efeito percebido desse tag SNP, não da verdadeira mutação causadora. Então, você sabe, mesmo que a mutação causadora compartilhada seja a mesma entre as ancestraliedes, o que você realmente detectaria em seu GWAS poderia diferir dependendo da frequência do alelo menor ou dos padrões de LD ou das interações ambientais ou de muitos outros fatores que poderiam ser diferentes entre essas ancestralidades.

Tudo bem, para resumir, hoje falei sobre esse pipeline prontamente implementado que deve permitir que você inclua indivíduos miscigenados em seus estudos GWAS de uma maneira bem calibrada. Atualmente estou otimizando-o com membros da equipe Hale do Broad Institute, por isso deve ser muito rápido e funcionar em todos os sistemas depois de finalizado. Mas já está escrito em Python, e posso, você sabe, distribuí-lo para quem estiver interessado.

Também incorporamos esses recursos extras para melhorar o faseamento de longo alcance, e mostrei hoje que não apenas aumentamos o tamanho da sua amostra ao permitir a inclusão de indivíduos miscigenados, mas também podemos aumentar ainda mais o seu poder aproveitando essas informações de populações miscigenadas para encontrar novas variantes. Também esperamos levar isso em algumas direções. Estou começando a testar um conjunto de dados empíricos que tem um resultado muito bem estabelecido, você sabe, específico de ancestralidade, ou seja, lipídios no sangue em indivíduos afro-americanos, para ter certeza de que isso realmente funciona não apenas em simulação, mas em dados empíricos reais também.

Esperamos que, uma vez que indivíduos recentemente miscigenados interromperam os bloqueios de LD, possamos aproveitar isso para identificar variantes causais em escala mais precisa, então estamos mergulhando nisso agora também e desenvolvendo um teste de heterogeneidade para tentar sugerir e eliminar automaticamente sites candidatos com base nas populações miscigenadas. E também estou trabalhando com Alicia Martin, que falará imediatamente a seguir, e alguns outros colaboradores aqui do Broad e do MGH para tentar construir uma estrutura de escore poligênico de risco que realmente produzisse estimativas confiáveis ​​para populações miscigenadas, o que continua sendo outro tipo de notável lacuna nos métodos atuais.

E vou terminar dizendo que este procedimento não só é útil no contexto do GWAS, mas também pode realmente ser aplicado a qualquer situação em que seja necessário controlar a estrutura populacional numa escala muito precisa. Então, por exemplo, até mesmo coisas como, você sabe, estudos evolutivos que fazem varreduras de seleção em todo o genoma.

Com isso, agradecerei aos meus colaboradores e conselheiros e acho que responderei às perguntas no final. Mas obrigado pela sua atenção.