Capítulo 8.1: Herdabilidade de SNP

Herdabilidade e Herdabilidade de SNP

Título: Herdabilidade e Herdabilidade de SNP

Apresentador(es): Alkes Price (Department of Epidemiology, Harvard School of Public Health)

Mais uma vez, bom dia a todos e bem-vindos à nossa primeira sessão de MPG apresentada virtualmente. Temos a sorte de ter hoje a palestra do Dr. Alkes Price, da Escola de Saúde Pública de Harvard. Ele é professor de genética estatística no Departamento de Epidemiologia e hoje falaremos sobre herdabilidade e herdabilidade de SNP e a relação com a arquitetura genética da doença.

Algumas notas sobre perguntas: O Dr. Price gentilmente se ofereceu para responder às perguntas no final e também, o que é mais importante, durante a palestra em si, para garantir que elas sejam expressas neste formato virtual. Planeje digitá-los na caixa de perguntas e respostas, que, pelo menos na minha tela, fica na parte inferior. Lá, você pode digitar sua pergunta e também votar positivamente em perguntas postadas por outras pessoas que sejam de seu interesse particular, e farei o meu melhor para ficar de olho nisso e intervir conforme necessário durante a palestra. Além disso, se você tiver dúvidas que prefere guardar até o final da palestra, ficarei de olho nisso e poderemos tentar resolvê-las então. Então, novamente, seja bem-vindo! Muito obrigado por participar e acho que podemos começar a conversa.

Alkes Price

Tudo bem, bom dia a todos. Sou Alkes Price, da Escola de Saúde Pública de Harvard, e bem-vindos a esta primeira sessão virtual de cartilha sobre MPG. Vou falar sobre herdabilidade e herdabilidade de SNP, que é basicamente uma introdução às arquiteturas genéticas das doenças. E, como Diane mencionou, incentivo todos a fazerem perguntas durante a palestra no formato que Diane comunicou. Então vamos começar.

Penso que todos nesta audiência estarão cientes de que os estudos de associação genômica em larga escala já tiveram muito sucesso na produção de importantes conhecimentos biológicos. Este é apenas um exemplo do estudo histórico da esquizofrenia em que o GWAS foi publicado no ano de 2014 na Nature, com muitas contribuições do pessoal do Broad. Este estudo marcante teve um grande número de descobertas interessantes e importantes. E, no entanto, ao mesmo tempo, penso que todos os presentes estarão cientes de que, embora os estudos de associação genômica em larga escala tenham descoberto muitas coisas, certamente não encontraram tudo. E no caso da esquizofrenia, sabemos que as conclusões do artigo de 2014 explicaram cerca de 3% da herdabilidade, enquanto a herdabilidade da esquizofrenia foi estimada em cerca de 64% a partir de estudos com gêmeos.

Portanto, existe uma grande lacuna entre o que descobrimos e o que acreditamos que existe, e esta lacuna é classicamente conhecida como “herdabilidade perdida”. E esta história sobre a herdabilidade perdida remonta a cerca de 2008. Este é um comentário de Maher 2008, Nature, e no ano de 2008, as pessoas não sabiam realmente qual era a causa da herdabilidade perdida. Agora, acho que está muito melhor entendido, e esta palestra que apresenta o conceito de herdabilidade de SNP também fornecerá uma revisão do que sabemos sobre a resposta a esse mistério da herdabilidade perdida.

Então, com isso em mente, aqui está um esboço da minha palestra: começarei com uma introdução e uma definição de herdabilidade. Depois, falarei sobre estudos de associação genômica em larga escala e herdabilidade perdida. E então, nos aprofundaremos nessa ideia de herdabilidade explicada pelos SNPs, também conhecida como herdabilidade de SNP. E se tivermos tempo extra, há alguns tópicos extras relativos à herdabilidade que podemos ter tempo para abordar. Então, vamos começar com uma introdução à herdabilidade.

Assim, a herdabilidade é geralmente definida como a proporção da variância fenotípica que se deve a efeitos genéticos. E na maioria das vezes, quando as pessoas falam sobre herdabilidade, estão falando sobre herdabilidade no sentido estrito, que é a proporção da variância fenotípica devido a efeitos genéticos aditivos. Você também poderia falar sobre herdabilidade de sentido amplo, que poderia incluir efeitos epistáticos ou dominantes recessivos, mas esses geralmente são mais difíceis de estimar. Então, geralmente, quando as pessoas falam sobre herdabilidade, geralmente estão falando sobre herdabilidade no sentido estrito, denotada como h minúsculo ao quadrado.

As pessoas vêm tentando estimar a herdabilidade no sentido estrito há muito tempo, pelo menos desde o ano de 1886. Uma maneira de fazer isso é pegar alguns parentes e ver se eles são fenotipicamente semelhantes, porque se uma característica é geneticamente hereditária, então você esperaria que os parentes fossem fenotipicamente semelhantes. E existe um método chamado regressão de Haseman-Elston, que não vou descrever em detalhes, mas aqui, você está basicamente regredindo a semelhança fenotípica na semelhança genética ou na relação genética esperada entre um determinado par de parentes. Então, você sabe, um par pai-filho ou um par irmão-irmão tem uma expectativa de cerca de 50% de genética compartilhada, e você poderia perguntar quão fenotipicamente semelhantes são esses pares? Qual é a sua correlação fenotípica?

E assim, neste gráfico, isso é uma espécie de amálgama de diferentes resultados que foram compilados no artigo de Visscher et al. 2010, em que cada ponto representa um estudo. Você pode ver, este é um estudo que geralmente pessoas que são intimamente relacionadas umas com as outras tendem a ter valores de altura muito correlacionados. Geralmente é a altura padronizada ajustada ao sexo que as pessoas estão estudando. Considerando que, por outro lado, pessoas que são pouco geneticamente semelhantes entre si tendem a ter uma altura que é um pouco, você sabe, tipicamente correlacionada, e isso é lógico para o que você esperaria de uma característica que é em grande parte mas não completamente hereditário.

A inclinação desta linha neste artigo é estimada em 0,747, o que pode significar que a altura é algo como 75% hereditária em termos de herdabilidade no sentido estrito. Mas há uma descoberta surpreendente aqui: há uma interceptação. Você sabe, como você poderia pensar, à medida que seu relacionamento genético familiar chega a zero, a correlação fenotípica deveria chegar a zero, certo? Se você estiver compartilhando genética próxima de zero, deverá ter correlação fenotípica próxima de zero. Então, você realmente esperaria que essa linha vermelha passasse pelo ponto (0, 0) e, ainda assim, surpreendentemente, essa linha vermelha parece não passar pelo ponto (0, 0). Há uma grande interceptação e há muita especulação, diferentes hipóteses sobre o que poderia ser isso. Provavelmente a explicação mais simples são os ambientes compartilhados; que mesmo as pessoas que são apenas primas vêm de um tipo de origem socioeconómica semelhante ou algo parecido que as torna mais dispostas a serem mais altas ou mais dispostas a serem mais baixas como consequência dos efeitos ambientais. E essa é uma explicação possível para o motivo pelo qual esta linha não passa por (0, 0).

E há também explicações mais complicadas, envolvendo ancestralidade genética e acasalamentos variados, e assim por diante. Mas só temos de ter em mente, quando pensamos sobre a herdabilidade no sentido estrito, que ela é complicada e que há muito espaço para diferentes tipos de efeitos complexos e confusos à medida que tentamos estimar esta quantidade que defini.

Provavelmente, a maneira mais popular atualmente de tentar estimar a herdabilidade no sentido restrito é usar o estudo clássico de gêmeos monozigóticos (idênticos) e dizigóticos (fraternos). A ideia aqui é que a esperança (não a garantia, mas a esperança) é que gêmeos monozigóticos versus gêmeos dizigóticos tenham basicamente a mesma quantidade de ambiente compartilhado, e realmente a única coisa que difere entre gêmeos monozigóticos e gêmeos dizigóticos é que gêmeos monozigóticos compartilham 100% de sua genética, enquanto gêmeos dizigóticos compartilham apenas 50% de sua genética.

Portanto, a diferença na quantidade de correlação fenotípica que você vê entre gêmeos monozigóticos, por um lado, e gêmeos dizigóticos, por outro lado, deve lhe dar uma noção de quão hereditária é a característica. E essa abordagem baseada em gêmeos é realmente amplamente considerada o padrão ouro nas formas de estimar a herdabilidade no sentido restrito. E deveria funcionar, a menos que haja uma diferença na quantidade de ambiente compartilhado entre gêmeos monozigóticos, por um lado, e gêmeos dizigóticos, por outro lado, por exemplo, devido a efeitos no útero ou devido a algum tipo de problema social, você sabe, efeitos ou influências familiares, diferenças nas formas como os gêmeos monozigóticos e os gêmeos dizigóticos são tratados. E temos que levar a sério esta possibilidade de que ainda possa haver alguma confusão devido a diferenças na quantidade de ambiente partilhado entre gêmeos monozigóticos e gêmeos dizigóticos, em que os gêmeos monozigóticos têm mais ambientes partilhados, e isso pode realmente inflar as estimativas de herdabilidade baseadas em gêmeos, e fornecerei algumas evidências mais adiante na palestra de que este é, de fato, provável que seja o caso, que as estimativas baseadas em gêmeos podem, de fato, estar inflacionadas.

Tudo bem, e tendo em mente que essas estimativas podem estar inflacionadas, muitos trabalhos foram publicados. Você sabe que provavelmente a referência ampla e recente que vale a pena examinar é Polderman et al. 2015, na Nature Genetics. Mas, por exemplo, para a altura, o valor mais citado em estudos com gêmeos é 0,8. E então, você sabe, estudos recentes sobre o câncer produziram estimativas de cerca de 0,3 a 0,5. De modo geral, a maioria das doenças e características complexas nas quais as pessoas tendem a se interessar (a altura é um pouco atípica, isso é extremamente hereditário), mas a maioria das doenças e características complexas nas quais as pessoas tendem a se interessar parecem ter características estimativas de herdabilidade de estudos com gêmeos que podem ser da ordem de 0,5 ou um pouco menos de 0,5, normalmente em algum lugar nessa faixa.

Muito bem, esta é uma breve introdução à herdabilidade no sentido estrito, e agora vou aprofundar um pouco mais no problema da herdabilidade perdida nos estudos de associação genômica em larga escala que já defini no início desta palestra.

Assim, mais uma vez, a herdabilidade perdida foi originalmente definida como esta lacuna entre o que descobrimos a partir dos loci significativos em todo o genoma para GWAS, versus a herdabilidade estimada em sentido restrito a partir de estudos com gêmeos. E novamente, usando a esquizofrenia como exemplo, 3% é a herdabilidade explicada pelos 108 loci GWAS do PGC 2014, Nature, versus, por outro lado, 64% da herdabilidade no sentido restrito que foi estimada a partir de estudos com gêmeos. Essa é uma lacuna muito grande. E nos primeiros dias do GWAS, as pessoas estavam realmente muito interessadas em tentar compreender qual é a causa desta lacuna. Por que o GWAS não encontra tudo? Por que está tão incrivelmente longe de encontrar tudo?

E há muitas explicações por aí, mas essas são as quatro que acho que valem mais a pena discutir neste formato de cartilha MPG. Então, examinarei essas quatro explicações, uma de cada vez.

Portanto, a primeira explicação são variantes causais comuns de tamanho de efeito extremamente baixo. E assim, poderíamos imaginar alguns valores possíveis diferentes da arquitetura genética de uma doença ou característica. Uma arquitetura genética possível é que temos dez variantes de risco comuns, cada uma explicando cerca de 1/10 da herdabilidade, e isso é o que as pessoas pensavam, você sabe, há muito tempo, há muito tempo, talvez no início dos anos 2000. É assim que as pessoas pensavam que seriam as arquiteturas das doenças. Haveria 10 loci, você executaria um GWAS, você encontraria os 10 loci, fim da história, e era isso que as pessoas esperavam.

Mas pode ser mais complicado do que isso. Você sabe, pode haver 10, pode haver 100, ou 1.000, ou mesmo 10.000 variantes de risco comuns, cada uma explicando uma proporção minúscula, minúscula, minúscula, de herdabilidade. E neste caso extremo na parte inferior deste slide, onde temos 10.000 variantes de risco comuns, cada uma explicada na ordem de um décimo de milésimo da herdabilidade no sentido estrito, talvez mais em alguns casos e menos em alguns outros, você pode imaginar que mesmo com uma amostra muito grande, o GWAS terá muito pouco poder para encontrá-los. E você pode encontrar apenas uma fração muito, muito pequena das verdadeiras variantes de risco causal comum, e é por isso que você só vai explicar uma proporção muito, muito pequena da herdabilidade no sentido estrito, com aquelas que você está realmente sortudo o suficiente ou forte o suficiente para realmente encontrar. E é nisto que muitas pessoas acreditam, que a esquizofrenia é um exemplo de uma característica particularmente poligênica com muitas variantes causais, e por isso pode ser isto que estamos a analisar. Podemos estar olhando para algo como 10.000 variantes de risco comuns, cada uma delas precisando explicar uma proporção minúscula, minúscula, de herdabilidade. E mesmo em amostras muito grandes, você não terá capacidade suficiente para detectar a maioria delas. Você só detectará aqueles com os maiores efeitos, ou detectará alguns porque teve sorte ou algo assim, mas a maioria dessas variantes de risco comuns, você simplesmente não irá detectá-las como sendo significativo em todo o genoma no GWAS.

Podemos até ir a um extremo maior, o chamado modelo infinitesimal. Ninguém acredita que isto seja realista, mas pode ser útil pensar nisso como uma construção teórica. E assim, o modelo infinitesimal é um modelo em que todos os SNPs comuns no genoma são variantes de risco causal com tamanhos de efeito causal, algo como, você sabe, normalmente distribuído com média 0 e variância h ao quadrado dividido por M, onde M é o número de SNPs. E então, aí você está espalhando a herdabilidade de sentido restrito por literalmente todos os SNPs comuns no genoma. Portanto, esta é uma explicação muito plausível sobre o que está acontecendo com a herdabilidade perdida. Temos muitos SNPs causais, muitos SNPs causais comuns de efeitos minúsculos. Que os GWAS, mesmo em amostras grandes, não estão encontrando a maioria deles. E sabemos que existem muitas características que são extremamente poligênicas. Já disse que a esquizofrenia é uma característica particularmente poligênica. Este é um gráfico de Manhattan do GWAS de pressão arterial de Evangelou et al. 2018, Nature Genetics, e esta é outra ilustração de uma característica extremamente poligênica que claramente possui um número extraordinariamente grande de loci causais.

Portanto, uma segunda explicação que interessa às pessoas há algum tempo é a explicação de variantes causais raras e de baixa frequência. E sabemos que os GWAS não têm capacidade suficiente para identificar variantes causais raras e de baixa frequência porque o poder varia de acordo com a frequência do alelo. Se você tiver uma variante realmente rara, ela não ocorrerá com muita frequência na amostra e, portanto, você não terá condições de detectá-la. Matematicamente, sabemos que em um tamanho de efeito fixo específico por alelo, o poder escala algo como o tamanho da amostra vezes P vezes 1 menos P, onde P é a frequência do alelo menor. E então, se você tiver uma variante realmente rara, então você definitivamente não terá condições de detectá-la como sendo significativa em todo o genoma em um GWAS, onde você está conduzindo testes de marcador único. Quero dizer, não vou entrar no tópico de testes de nível genético com múltiplos marcadores, que é um tópico para uma sessão diferente do MPG. E assim, os GWAS não são bem capacitados para identificar essas variantes causais raras e de baixa frequência como sendo significativas em todo o genoma, e talvez seja aí que esteja grande parte da herdabilidade perdida, e essa é uma explicação na qual as pessoas estão interessadas.

Mas trabalhos recentes de Zeng et al. 2018, Nature Genetics, bem como outros trabalhos do nosso grupo (Schoech et al.), estão sugerindo que não há muita herdabilidade proveniente de SNPs raros e de baixa frequência. Então, de acordo com Schoech et al., é menos de 10% da herdabilidade de SNP (sei que ainda não defini a herdabilidade de SNP, falaremos disso mais tarde), mas menos de 10% da herdabilidade de SNP vem de SNPs com frequência alélica menor inferior a 1%. Agora, há uma história um pouco complicada aqui envolvendo seleção negativa. Sob suposições simplificadas, onde você não tem nenhuma seleção e pode ter que assumir também tamanhos populacionais efetivos iguais e constantes ao longo do tempo. Mas sob algumas suposições (não vou entrar em detalhes), você pode esperar que SNPs com MAF inferior a 1% devam explicar cerca de 1% da herdabilidade de SNP. Então, há algum excesso aqui onde eles realmente explicam, de acordo com este artigo, cerca de 9% da herdabilidade de SNP, que é muito mais que 1%. E esse excesso, onde 9% é superior a 1%, é consequência da ação da seleção negativa, que meio que causa SNPs realmente importantes que têm efeitos importantes para, geralmente, esses efeitos importantes costumam ser ruins para o organismo, e porque eles são ruins para o organismo, esses SNPs não podem atingir altas frequências e permanecer como SNPs raros. Então, você pode esperar que SNPs raros tenderão a ter efeitos maiores e, de fato, é exatamente isso que você vê, e é por isso que SNPs com frequência alélica menor, inferior a 1%, explicam algo em torno de 9% da herdabilidade de SNP, o que é muito mais de 1% da herdabilidade de SNP. Mas mesmo assim, no final das contas, de acordo com estes artigos, estes SNPs raros e de baixa frequência não explicam realmente muita herdabilidade, e provavelmente não são a principal explicação para a herdabilidade perdida.

Agora, para ser claro, não quero, especificamente, não quero dizer que variantes causais raras e de baixa frequência não são importantes e que não deveríamos estudá-las, em vez disso, o que está acontecendo aqui é que, se você estiver interessado na herdabilidade ou na explicação de muita herdabilidade, então variantes causais raras e de baixa frequência não contribuem muito. E, por extensão, se você estiver interessado em predição poligênica, que pega carona na herdabilidade, então variantes causais raras e de baixa frequência não são muito importantes. Mas, por outro lado, se o que nos interessa é descobrir uma biologia de doença interessante que possa levar a um alvo de medicamento, variantes causais raras e de baixa frequência podem ser realmente importantes. Você pode identificar uma variante de codificação rara que explica uma quantidade minúscula de herdabilidade, mas ela tem um tipo de mecanismo realmente biologicamente interessante por trás dela que pode levar a um alvo de droga. Totalmente bem se isso explicar uma quantidade minúscula de herdabilidade, se isso levar a um alvo de droga acionável. Portanto, vamos ter em mente que, embora não sejam tão relevantes para a herdabilidade, podem ser muito importantes para a biologia de doenças e para o desenvolvimento de alvos de medicamentos.

Ah, a próxima explicação que gente… vejo que tem uma sessão de perguntas e respostas. Diane, você quer ler as perguntas e respostas?

Diane: Obrigada. Sim, hum, farei isso agora. Portanto, a pergunta de Now Son é: “Como é estimada a herdabilidade de variantes raras para um estudo GWAS com fraco poder?”

Alkes: Ok, então a questão é: “Como é estimada a herdabilidade de variantes raras para um estudo GWAS com fraco poder?” E o tópico da herdabilidade de SNP, que irei aprofundar na terceira parte desta palestra, investiga a estimativa da herdabilidade agregada contribuída por todas as variantes no genoma. Talvez, quero dizer, principalmente, sobre o que vou falar é estimar a herdabilidade explicada coletivamente por todas as variantes comuns no genoma. Mas algo relacionado a isso que você poderia fazer é estimar a herdabilidade explicada por todas as variantes raras no genoma. E assim, esses estudos que citei neste slide, Schoech et al., Zeng et al., e outros, estão fazendo algo mais ou menos assim. Eles estão fazendo algo, estão estendendo os métodos para estimar a herdabilidade de SNP ou a herdabilidade explicada por todos os SNPs no genoma, sobre o qual falarei na terceira parte desta palestra. Eles estenderão isso para estimar a herdabilidade explicada por todos os SNPs em uma determinada classe de frequência alélica menor, como a herdabilidade explicada por todas as variantes raras. E pretendo retornar a essa questão na terceira parte da palestra, quando falar sobre a herdabilidade de SNP e, esperançosamente, o que acabei de dizer ficará mais claro depois que eu me aprofundar no que está acontecendo com a herdabilidade de SNP.

Tudo bem, passando para a explicação número três da minha lista, que é a variação do número de cópias, e é, em princípio, possível que as variantes do número de cópias sejam biologicamente importantes e contribuam muito para a herdabilidade, mas não sejam bem marcadas por SNPs comuns. E há outra questão.

Diane: Não vejo a pergunta na caixa de perguntas e respostas.

Alkes: Ok, nesse caso, vou continuar.

Diane: Obrigada.

Alkes: É possível que as variantes do número de cópias sejam importantes para doenças, mas seus efeitos podem não ser tão bem marcados pelos SNPs. Portanto, se você estiver olhando apenas para os SNPs, não os verá. E temos que levar essa possibilidade a sério. No ano de 2010, este artigo que citei sugeria que variantes comuns de números de cópias que poderiam ser digitadas em plataformas existentes (e isso é uma qualificação importante) não contribuíam muito, mas isso pode ser mais sobre a tecnologia do que sobre o biologia. E o trabalho mais recente de Sudmant et al. 2015 sugere que as variantes estruturais são enriquecidas em haplótipos identificados pelo GWAS. Portanto, alguns dos SNPs comuns que identificamos como significativos em todo o genoma no GWAS podem estar marcando variantes causais do número de cópias. Portanto, não acho que tenhamos uma resposta conclusiva para esta questão agora sobre se variantes de número de cópias não digitadas e não marcadas ou apenas parcialmente marcadas são responsáveis por grande parte da herdabilidade perdida.

Eu gostaria de arriscar e levantar a hipótese se esta história poderia ser semelhante a esta história com variantes raras. E algumas dessas variantes do número de cópias, é claro, provavelmente serão raras porque você não pode, você sabe, você não pode eliminar uma grande parte do genoma e fazer com que isso não tenha um efeito enorme, o que então, devido à seleção negativa, mantenha a variante rara. Minha hipótese é que pode ser verdade que, assim como as variantes raras, as variantes do número de cópias podem não explicar muita herdabilidade e podem não ser importantes para quantificar a herdabilidade ou, por extensão, para a predição de risco poligênico. Mas, por outro lado, podem ser realmente importantes para a compreensão da biologia das doenças e podem levar-nos a exemplos onde compreendemos o mecanismo biológico e podemos desenvolver alvos de medicamentos. Portanto, levanto a hipótese de que eles podem não ser tão importantes para a herdabilidade, mas, ao mesmo tempo, muito importantes para a biologia de doenças e alvos de medicamentos.

E, finalmente, a quarta explicação sobre a qual gostaria de falar é a possibilidade de que a herdabilidade no sentido estrito tenha sido superestimada em primeiro lugar. E já aludi anteriormente nesta palestra à possibilidade de que as estimativas no sentido estrito da herdabilidade no sentido estrito possam ser inflacionadas devido ao ambiente partilhado. E há algumas outras explicações complicadas segundo as quais se você tiver interação G por G (que não deveria ser incluída nas estimativas de herdabilidade de sentido restrito, que é definida como incluindo apenas efeitos aditivos e não efeitos de interação G por G), então de acordo para Zuk et al. 2012, isso poderia inflacionar suas estimativas baseadas em gêmeos. Portanto, há pessoas por aí que acreditam que as estimativas baseadas em gêmeos podem estar inflacionadas, apesar de serem as melhores, bem, pelo menos até recentemente, são a melhor coisa que temos.

Gostaria de destacar este artigo de Young et al. 2018, Nature Genetics, que introduziu um novo método chamado regressão de desequilíbrio de parentesco, que se baseia em ter à sua disposição um conjunto de dados realmente grande com muitos indivíduos aparentados, que esses autores tiveram por que analisaram o conjunto de dados deCODE Genetics de Islândia. E alegaram que possuem um procedimento de estimativa robusto a esses tipos de efeitos do ambiente compartilhado. E eles afirmam que a herdabilidade da altura no sentido estrito é de apenas cerca de 0,55. E temos que levar essas afirmações a sério. Eles são, em geral, bastante consistentes com alguns estudos anteriores de Zaitlen et al. do nosso grupo. E acho que as pessoas neste momento tendem a acreditar que 0,8 para a altura, para as estimativas baseadas em gêmeos da herdabilidade da altura no sentido estrito, que 0,8 provavelmente foi uma superestimativa, e a verdade pode realmente ser algum número mais próximo de cerca de 0,6. Acho que é nisso que as pessoas, a maioria das pessoas, acreditam.

E assim, resumindo tudo, acho que, em termos de herdabilidade, as duas explicações para a herdabilidade perdida que são mais prevalentes são: Número um, você tem variantes comuns de tamanho de efeito extremamente baixo que não podem ser detectadas pelo GWAS como sendo significativo em todo o genoma. E número dois, as estimativas de herdabilidade de sentido restrito baseadas em gêmeos são um tanto altas. Obviamente, isso não vai dar a você uma herdabilidade de sentido restrito ligeiramente superestimada, não vai explicar uma diferença entre 0,03 e 0,64 para a esquizofrenia, que é uma diferença enorme, e que é provavelmente mais dominada pelo número um.

Então, onde isso nos deixa? Bem, há uma espécie de questão fundamental que foi feita originalmente em um artigo histórico de Yang et al. 2010, Nature Genetics, do grupo de Peter Visscher. Talvez possamos tentar estimar a herdabilidade explicada por todos os SNPs no genoma, ou talvez por todos os SNPs comuns no genoma, não apenas os SNPs que são significativos em todo o genoma, mas na verdade, todos os SNPs coletivamente. Mesmo que não saibamos quais são os causais, ainda podemos tentar estimar a herdabilidade explicada conjuntamente por todos esses SNPs juntos. E então, esse é o conceito de herdabilidade de SNP, que é realmente o foco principal desta cartilha. E vou começar agora a me aprofundar nisso. E assim, a distinção entre, por um lado, a herdabilidade no sentido restrito e, por outro lado, a herdabilidade de SNP, a herdabilidade explicada especificamente pelos SNPs, na verdade repousa na distinção entre duas ideias importantes:

IBD ou identidade por descendência e IBS ou identidade por estado. Portanto, identidade por descendência ou IBD significa que duas pessoas estão relacionadas; eles têm genética semelhante. IBS ou identidade por estado significa que duas pessoas que não são relacionadas ainda podem, por acaso, ter genética um pouco semelhante, e você pode ser capaz de fazer algo com isso para aprender sobre arquiteturas de características complexas.

Então deixe-me aprofundar um pouco mais em detalhes. Vamos começar com IBD. Suponhamos que você considere duas pessoas relacionadas. Então, os dois indivíduos que representei neste slide são irmãos, e poderíamos perguntar-nos: qual é a proporção do genoma que estes dois irmãos partilham, idêntico por descendência, o que significa herdado de um ancestral comum recente? A resposta, bem, a resposta não é exatamente 0,5. A resposta é aproximadamente 0,5 porque pode variar um pouquinho de um SNP para outro, mas a expectativa é 0,5. E você pode imaginar que se você tiver um grande conjunto de indivíduos relacionados dos quais você está analisando dados genéticos, você pode construir uma matriz de IBD, quantificando a IBD para cada par de indivíduos. E para um par de indivíduos irmãos, a entrada seria 0,5 porque 0,5 é o IBD desses dois irmãos. E esta matriz K ou esta matriz IBD, você poderia usá-la para estimar a herdabilidade no sentido restrito.

E não se preocupe se você não quiser resolver todas essas equações, mas é assim que seria em termos de matemática. Que você tem um vetor Y de fenótipos e está decompondo a variância fenotípica na parte que vem dos efeitos genéticos, chamada U, e na parte que vem dos efeitos ambientais, chamada épsilon. E a variância de U, os efeitos genéticos, é proporcional à matriz IBD. Por outro lado os efeitos ambientais, se fizermos uma forte suposição de que não há ambiente partilhado, então a variação ambiental é proporcional à matriz de identidade. Isso quer dizer que não temos termos cruzados entre indivíduos distintos. E então você parametriza a variância fenotípica geral de V dessa forma, estima esses parâmetros e estima a herdabilidade no sentido restrito.

Existem métodos, você sabe, métodos de máxima verossimilhança ou métodos de máxima verossimilhança restrita para estimar esse parâmetro ou, na verdade, você está estimando os dois parâmetros, Sigma quadrado G e Sigma quadrado E do slide anterior. Vou simplesmente pular a maioria dos detalhes matemáticos. Você pode ler sobre isso nesses vários artigos. E você sabe, não se preocupe se não estiver acompanhando toda a matemática.

Assim, por outro lado, poderíamos ter dois indivíduos não relacionados, como os dois indivíduos representados neste slide. E mesmo que estes dois indivíduos não tenham nenhuma relação, é possível que sejam apenas um pouco mais semelhantes geneticamente do que a média ou apenas um pouco menos geneticamente semelhantes do que a média, apenas por acaso estatístico. E podemos quantificar isso usando a equação na metade direita deste slide. Onde podemos calcular algo, isso às vezes é chamado de matriz de relacionamento genético ou às vezes pode ser chamado de matriz IBS. Mas basicamente é como se você calculasse a correlação entre os SNPs entre os genótipos desses indivíduos, adequadamente normalizados. Normalmente, se você tem dois indivíduos não relacionados, você pode praticamente garantir que esse número será muito, muito próximo de zero. Mas nestas unidades padronizadas, nas quais a média será zero em média, pode ser um pouco maior que zero, como 0,004, ou pode ser um pouco menor que zero, como -0,004. E você pode esperar que, se tiver uma característica hereditária, então dois indivíduos que por acaso são um pouquinho mais geneticamente semelhantes que a média deveriam ter fenótipos ligeiramente concordantes, enquanto, por outro lado, indivíduos que são ligeiramente menos geneticamente semelhantes que a média deveriam ter fenótipos um pouco menos concordantes. E isso é algo que você pode usar para estimar a herdabilidade explicada por SNPs ou a herdabilidade explicada por SNPs genotipados da maneira como foi originalmente empregada. E a verdadeira questão aqui é: qual é o conjunto de SNPs? Bem, a resposta está relacionada aos SNPs que você usou para calcular essa matriz de relacionamento genético.

Se você usar apenas SNPs no cromossomo 1 para calcular a matriz de relacionamento genético, obterá uma resposta que tem algo a ver com os SNPs no cromossomo 1. Se você usar todos os SNPs comuns para calcular a matriz de relacionamento genético, então você obtenha uma resposta que tenha algo a ver com todos os SNPs comuns, e assim por diante, e assim por diante. E assim, mais uma vez, podemos modelar a covariância fenotípica, V, como uma espécie de combinação linear desta matriz de relacionamento genético ou matriz IBS, que é a parte genética proveniente dos SNPs, e depois todo o resto, que é a parte ambiental, ou, estritamente falando, é tudo menos a parte genética proveniente dos SNPs.

E então podemos estimar essa quantidade chamada herdabilidade de SNP. Novamente, voltando um pouco à matemática aqui, sinto que se falamos em estimar uma quantidade, queremos realmente definir essa quantidade em toda a população. E esta é uma definição formal de toda essa quantidade na população. Podemos pular os símbolos matemáticos aqui e, em palavras, esta é apenas a quantidade máxima de variância fenotípica que você poderia explicar usando qualquer combinação linear de SNPs. E essa é a definição de herdabilidade de SNP. Essa é uma definição em toda a população. Essa definição não depende de uma amostra específica, embora dependa de qual conjunto de SNPs você está analisando. Se você observar apenas os SNPs no cromossomo 1, a resposta será menor do que se você observar todos os SNPs do genoma. Ou você pode estar olhando apenas algumas centenas de milhares de SNPs genotipados ou um grande número de SNPs imputados ou SNPs comuns ou SNPs comuns e raros ou o que quer que seja, e a resposta será diferente em cada caso. Mas esta é uma quantidade que você pode definir em toda a população. E então, depois de defini-lo em toda a população, você poderá obter uma estimativa dessa quantidade, uma estimativa com ruído, dessa quantidade em uma amostra finita.

E foi isso que foi feito neste artigo histórico de Yang et al. 2010, Nature Genetics. E esta é a mesma matemática que mostrei em um slide anterior para o IBD. Esta é exatamente a mesma matemática com a matriz IBD K substituída pela matriz IBS ou GRM chamada A maiúsculo. E agora estamos pensando intuitivamente sobre isso em termos de indivíduos não relacionados e herdabilidade de SNP, mas matematicamente, toda a matemática é a mesma, e todos os cálculos de máxima verossimilhança ou máxima verossimilhança restrita são iguais.

Então, vou optar por não focar na matemática nesta palestra e vou focar mais na intuição. Agora, temos estas duas quantidades: H ao quadrado, que é a herdabilidade total no sentido estrito, e que corresponde à questão: quão fenotipicamente semelhantes são dois parentes?

Há uma pergunta?

Diane: Sim, obrigado. Acho que a pergunta é, ou a pergunta de Anna Lewis é a seguinte: quando você diz “toda a população”, você quer dizer toda a população humana?

Alkes: Ok, então este é um bom ponto. Isso é algo que eu realmente ignorei, e você sabe, se eu quisesse me aprofundar na genética populacional, isso poderia ser uma cartilha separada para MPG. Mas geralmente, quando as pessoas falam de uma população, estão a falar de uma população de uma determinada ancestralidade continental, um exemplo: a população seria composta por europeus-americanos. Outro exemplo: a população seria composta por indivíduos de ancestralidade britânica do UK Biobank, e assim por diante. Agora, se eu quiser ser um geneticista populacional estrito, posso definir uma população como um conjunto de indivíduos que se acasalam pandecticamente aleatoriamente. Agora, ninguém acredita que os europeus-americanos sejam um conjunto de indivíduos que se acasalam etnicamente aleatoriamente. Ninguém acredita que indivíduos de ancestralidade britânica do Reino Unido, ou você sabe, asiáticos orientais do Japão, ou você sabe, nigerianos, ou qualquer população de que você esteja falando, ninguém acredita que isso seja, estritamente falando, um conjunto pandecticamente miscigenado de indivíduos. Poderíamos simplesmente optar por fingir que esse é o caso, como uma espécie de aproximação. E quero dizer, mencionei anteriormente, no início desta palestra, que existem oportunidades para todo tipo de confusão. Um tipo de confusão tem a ver com confusão devido à estratificação populacional. As diferenças na ancestralidade do genoma entre diferentes indivíduos? Isso, novamente, poderia ser um tópico para outra cartilha do MPG. Devemos estar cientes da possibilidade de que, se estivermos estudando uma população, como a dos europeus-americanos ou qualquer população na qual existam diferenças na ancestralidade do genoma entre os diferentes indivíduos dessa população, tenhamos que ter um pouco de cuidado, porque há é a possibilidade de confusão devido à estratificação populacional. Mas a resposta curta é que estamos a pensar numa população específica de uma ancestralidade continental específica.

Tudo bem, voltando a este slide, a herdabilidade no sentido estrito corresponde à questão, você sabe, quão fenotipicamente semelhantes são dois parentes? E está meio implícito que dois parentes podem ser fenotipicamente semelhantes devido, tipo, à genética que carregam. Talvez eles estejam carregando a mesma variante rara, talvez estejam vendendo a mesma variante de número de cópia, talvez estejam carregando a mesma variante comum; vai incluir tudo isso. Por outro lado, temos uma quantidade menor, herdabilidade de SNP. Originalmente, isso era chamado de herdabilidade explicada por SNPs genotipados porque as pessoas gostavam de estimar isso apenas usando SNPs genotipados antes que a imputação se tornasse universalmente popular. É por isso que você verá essa terminologia em alguns desses slides, mas você pode aplicá-la a qualquer conjunto de SNPs.

E isso corresponde à ideia: se eu tiver dois indivíduos não relacionados e usar um conjunto específico de SNPs (e o conjunto de SNPs é importante para quantificar o quão geneticamente semelhantes eles são, apenas por acaso), então quão fenotipicamente semelhantes eles serão? E, novamente, isso é função de um conjunto muito específico de SNPs. E porque captura apenas a herdabilidade explicada causalmente por um conjunto muito específico de SNPs, em geral, espera-se que seja inferior à herdabilidade total no sentido restrito, que captura efeitos aditivos de todas as variantes genéticas possíveis.

Tudo bem, e finalmente, há uma terceira quantidade que já apareceu nesta palestra, e vou chamar isso de H ao quadrado GWAS. H ao quadrado GWAS é a herdabilidade explicada por SNPs significativos em todo o genoma. E quero dizer, se você não está preocupado com o LD (desequilíbrio de ligação), então é basicamente apenas a soma das variantes contribuídas por cada um de seus SNPs significativos em todo o genoma, por sua vez. Mas é um pouco mais complicado se você tiver LD, e posso defini-lo estritamente como a proporção máxima de variância fenotípica que você pode explicar com qualquer combinação linear de SNPs significativos em todo o genoma. Então, focando apenas nos SNPs que são significativos em todo o genoma, e esse é o número que estava em um estudo específico de 0,03 para esquizofrenia. E tenho que ter um pouco de cuidado ao dizer que defini isso; não é realmente um parâmetro verdadeiro em nível populacional porque é uma função de quais SNPs aparecem como significativos em todo o genoma em um determinado GWAS em um determinado tamanho de amostra. Portanto, é realmente uma função de um GWAS específico que identifica um conjunto específico de SNPs de importância genômica ampla. É realmente uma função do conjunto de SNPs de importância genômica em um estudo específico.

E agora temos uma espécie de desigualdade com três quantidades diferentes. Temos H ao quadrado GWAS, que é o menor número, que são apenas os SNPs significativos em todo o genoma, com H ao quadrado G, que é a herdabilidade de SNP, são todos os SNPs no genoma. Talvez todos os SNPs genotipados, talvez todos os SNPs comuns, qualquer sabor de SNPs que você queira escolher para estudar em um determinado momento, mas é, em certo nível, a herdabilidade explicada por todos os SNPs no genoma, incluindo todos os SNPs que não são significativos em todo o genoma, mas podem conter algum sinal. E finalmente, a maior quantidade, herdabilidade total em sentido estrito, que é a herdabilidade aditiva explicada por todas as variantes genéticas, que inclui não apenas todos os tipos possíveis de SNP, mas também outros tipos de variantes, variantes de número de cópias, e assim por diante. Portanto, esta foi uma discussão técnica um pouco árida.

Agora, podemos querer examinar alguns dados reais para ter uma ideia de como isso funciona na prática. Vou começar pela altura, que é provavelmente a característica mais estudada pelos geneticistas. Em termos de herdabilidade no sentido estrito, bem, a partir dos estudos com gêmeos, temos 0,8 (como mencionei anteriormente, isso é provavelmente uma superestimativa, e provavelmente estamos mais perto de 0,6, mas por enquanto, vou apenas dizer 0,8 dos estudos baseados em gêmeos). Então temos herdabilidade de SNP. Esta é a quantidade que Yang et al. (2010 Nature Genetics) em seu artigo histórico estimado em 0,45. Depois, apenas a herdabilidade explicada pelos SNPs GWAS, bem, lá no ano de 2010, era cerca de 0,10, embora tenha subido um pouco com alguns estudos (Wood et al., 2014 Nature Genetics e Yengo et al., esqueci qual ano, 2018 ou 2019, Human Molecular Genetics. Está um pouco mais alto agora, mas você pode ver que esse conceito de herdabilidade de SNP pode explicar a maior parte, não tudo, mas na verdade pode explicar a maior parte da herdabilidade perdida. E isso remonta à explicação número um das minhas quatro explicações que citei anteriormente, onde há muitos SNPs com efeitos realmente pequenos que o GWAS não detecta como sendo significativos em todo o genoma, e se você definir e estimar essa quantidade H ao quadrado g, que quantifica a herdabilidade explicada por todos os SNPs ou todos os SNPs de uma categoria específica, como SNPs genotipados, não apenas aqueles que são significativos em todo o genoma, então você obtém um número muito, muito, muito maior, como 0,45, do que apenas os significativos em todo o genoma, como 0,10.

Gosto de usar a terminologia “herdabilidade oculta”, assim como outros, para explicar essa lacuna entre H ao quadrado GWAS e H ao quadrado g. Então, herdabilidade, sabemos que está lá, sabemos que está nesses SNPs, simplesmente não sabemos quais SNPs são porque não temos tamanho de amostra suficiente para fazer um GWAS com potência infinita para descobrir quais são todos os SNPs causais no genoma. Mas sabemos que a herdabilidade existe; está apenas se escondendo. E então, por outro lado, há a herdabilidade que ainda está faltando, que é essa diferença entre 0,45 e 0,8, embora, como eu disse há pouco, talvez seja realmente uma diferença agora entre 0,45 e 0,6 se acreditarmos em 0,6 para a altura agora, e essa é a herdabilidade que ainda está faltando e para a qual não temos uma explicação no momento.

Então, esta é apenas uma generalização publicada por Yang et al. 2011 a algumas outras características quantitativas, e não vou abordar isso em detalhes, apenas para dizer que, é claro, essas características são menos hereditárias que a altura, mas qualitativamente a história é bastante semelhante ao que está acontecendo com a altura.

Diane: Temos uma pergunta nas perguntas e respostas que acho que talvez seja oportuna neste momento, que vem de Matthew Worman, que diz: “Ei, Alkes, se alguém usasse um valor p de 10 elevado a menos 5 em vez de 10 para menos 8 para GWAS, que fração de SNPs que excedem esse limite menos rigoroso são falsos positivos?”

Alkes: Ok, então acho interessante dizer: “Ei, o que acontece se eu escolher algum outro limite, digamos 10 elevado a menos 5? E eu poderia definir um conjunto de SNPs que são SNPs que chegam em P menos de 10 elevado a menos 5 no meu GWAS”. E acho que gostaria de dizer três coisas diferentes sobre isso.

Bem, a primeira coisa que quero dizer é que, assim como é o caso do conjunto de SNPs significativos em todo o genoma em cinco vezes dez elevado a menos oito, a natureza e as características dos SNPs que apareceriam em dez a menos o menos cinco é em grande parte uma função do tamanho da sua amostra. Quero dizer, é uma função de muitas coisas, como a arquitetura genética da característica e assim por diante, mas é realmente uma função do tamanho da sua amostra. Então isso depende muito de um estudo específico, você sabe, os SNPs que chegam a P menor que dez elevado a menos cinco têm um conjunto específico de características. Essa é a primeira coisa que eu queria dizer.

A segunda coisa que eu queria dizer é que, embora possa depender desse estudo específico, da arquitetura genética específica, e assim por diante, do tamanho da amostra, intuitivamente, é apropriado pensarmos intuitivamente que a maioria dos SNPs que chegam a P menor que dez elevado a menos cinco serão falsos positivos. Em outras palavras, elas não são variantes verdadeiramente causais ou não estão verdadeiramente marcando variantes causais. Em geral, é isso que sugiro que provavelmente será o caso.

E a terceira coisa que quero dizer é que mesmo que a maioria deles sejam falsos positivos, uma fração muito importante deles serão verdadeiros positivos. Esses verdadeiros aspectos positivos contribuirão com mais herdabilidade. Então, se eu definir algo chamado H ao quadrado GWAS menor que dez elevado a menos cinco, que é a herdabilidade explicada por um conjunto específico de SNPs que chega a P menor que dez elevado a menos cinco em um GWAS específico, então isso estará em algum lugar entre H ao quadrado GWAS, que é apenas a soma dos significativos em todo o genoma, e H ao quadrado G, e provavelmente seria substancialmente maior do que cada G ao quadrado era, porque mesmo assim, eu diria que, em geral, esperamos que a maioria daqueles que chegam a menos de dez elevado a menos cinco seriam falsos positivos, uma fração muito, muito importante deles seria verdadeiros positivos, e isso o deixaria muito mais próximo de H ao quadrado G, a verdadeira herdabilidade de SNP. Embora eu ainda vá dizer que, em geral, você esperaria que ainda houvesse muito mais sinal que nem mesmo é capturado por P menor que dez elevado a menos cinco, e você ainda teria uma lacuna entre H ao quadrado GWAS 10 a menos 5 e H ao quadrado G. Portanto, H ao quadrado GWAS 10 elevado a menos 5 pode estar em algum lugar no meio entre H ao quadrado GWAS e H ao quadrado G, com os detalhes que dependem de quão poligênica é a arquitetura e qual a amostra o tamanho é e assim por diante.

Tudo bem, muito bom. Então, de modo geral, H ao quadrado G é menor que H ao quadrado (é a herdabilidade no sentido estrito), que pode ser devido a variantes raras e de baixa frequência, bem como outros tipos de variantes, como variantes de número de cópias, que não são capturadas pela herdabilidade de SNP de um conjunto muito específico de SNPs, geralmente SNPs comuns genotipados ou SNPs genotipados e imputados que são em sua maioria comuns ou algo parecido, dos quais você está estimando a herdabilidade de SNP.

E então, por outro lado, temos um fenômeno completamente diferente: H ao quadrado GWAS menor que H ao quadrado G. Então isso é H ao quadrado GWAS menor que a herdabilidade de SNP, onde precisamos de tamanhos de amostra GWAS maiores, ou como Matt aludiu, talvez nós precisa apenas de um limite de significância menos rigoroso para todo o genoma, ou algo assim. Quero dizer, H ao quadrado G está no limite de, você sabe, qualquer SNP com P menor ou igual a 10 elevado a 0 em seu GWAS, certo? E assim, no limite de grandes tamanhos de amostra, podemos esperar que, à medida que nosso GWAS se torne extremamente grande, identificaremos todos os SNPs associados, e H ao quadrado GWAS se aproximará de H ao quadrado G. Mas há uma pequena ressalva aqui que mesmo se você tiver um tamanho de amostra enorme, como 758.000 amostras para pressão arterial, se for uma característica realmente poligênica como pressão arterial, 758.000 amostras não são suficientes, e não está nem remotamente perto de ser suficiente, e H ao quadrado GWAS em 0,06 ainda pode ser muito menor do que a herdabilidade de SNP de 0,21.

Tudo bem, tenho dito repetidamente que a herdabilidade de SNP é uma função do conjunto de SNPs, e isso é definitivamente verdade, mas também devemos ter em mente que é uma função da população específica que estamos observando. E, novamente, como mencionei anteriormente, uma população que algumas pessoas às vezes estudam são os indivíduos de ancestralidade britânica do UK Biobank, mencionados neste slide. E outra população que as pessoas às vezes estudam são os europeus-americanos, e essa é a população que foi analisada na referência dois deste slide.

E acontece que se você estimar a herdabilidade de SNP em amostras do UK Biobank de ancestralidade britânica, você obterá consistentemente números mais altos do que se estimar a herdabilidade em outras coortes, como as coortes europeu-americanas. Existem diferentes explicações possíveis para isso, mas provavelmente a explicação mais provável é que a herdabilidade de SNP é realmente maior em uma população do UK Biobank de ancestralidade britânica do que em uma população europeu-americana. Isso pode ser devido apenas à menor variação ambiental em um conjunto de indivíduos de herdabilidade britânica residentes no Reino Unido, ou, mais precisamente, à menor variação ambiental em um conjunto de indivíduos de coortes britânica residentes no Reino Unido que o UK Biobank captura, o que na verdade não é um subconjunto perfeitamente aleatório de indivíduos britânicos, são os indivíduos britânicos que optam por responder às pesquisas e podem ter SES superior à média e assim por diante. E parece haver menos ruído ambiental e, portanto, maior herdabilidade de SNP nessa população do que, por exemplo, numa população euro-americana em geral. Então, vamos ter em mente que a herdabilidade de SNP depende da população estudada, bem como do conjunto de SNPs. E, claro, devo dizer que a herdabilidade total no sentido estrito também depende da população específica que você está estudando.

Uma questão que surge com frequência é: quais suposições precisamos para que as estimativas da herdabilidade de SNP sejam válidas? E uma coisa que o mundo agora entende muito bem é que as arquiteturas dependentes de LD (Linkage Disequilibrium) podem levar a distorções nas estimativas. E porque vejo que meu tempo está acabando, vou optar por apenas encobrir os detalhes disso. Quero dizer com muito cuidado o que quero dizer com arquiteturas dependentes de LD. Arquiteturas dependentes de LD – não estamos falando de marcação aqui. Claro, sabemos que um SNP que não é um SNP causal pode marcar um SNP diferente que é um SNP causal. Mas as arquiteturas dependentes de LD significam que os efeitos causais variam com a quantidade de LD que um SNP possui. Isso pode ser apenas devido à frequência alélica menor - isso é meio trivial - que SNPs mais raros explicam menos herdabilidade por SNP porque são raros e também têm menos LD, isso é meio trivial. Mas mesmo se você condicionar o MAF (frequência alélica menor), mesmo em um MAF fixo específico, sabemos que SNPs de LD baixo na verdade têm tamanhos de efeito causais maiores do que SNPs de LD alto. As razões para isto são bastante complicadas, acreditamos que tenham algo a ver com a seleção negativa, mas acontece que isso viola alguns dos pressupostos de alguns destes métodos de estimativa e pode levar a distorções nas estimativas. É algo com o qual devemos estar atentos e é algo que o mundo agora entende bem e sabe que devemos estar atentos. Vou apenas deixar por isso mesmo e encobrir alguns desses outros slides.

E então uma segunda pergunta que surge, que é o segundo ponto agora neste slide aqui, é a seguinte: está tudo bem se os tamanhos dos efeitos tiverem uma distribuição não infinitesimal? E então eu realmente não enfatizei esse ponto, mas os procedimentos de estimativa que descrevi, que foram usados para calcular a matriz de relacionamento genético de indivíduos não aparentados e depois usar a máxima verossimilhança restrita para ajustar componentes de variância para estimar a herdabilidade, existem alguns suposições subjacentes a uma arquitetura infinitesimal, onde infinitesimal, como defini anteriormente, refere-se a uma arquitetura genética na qual todos os SNPs são causais com uma distribuição normal ou distribuída por Gauss de efeitos causais. Os métodos assumem isso. Mas sabemos agora que, embora essa suposição seja claramente incorreta, isso não leva a qualquer viés. Acontece apenas que você pode estar deixando alguma precisão na mesa, por meio de qual métodos sofisticados que levam em conta o fato de que a distribuição dos efeitos causais é um pouco mais esparsa do que isso podem, na verdade, produzir estimativas mais precisas. Mas isso é uma questão de precisão, de obter um erro padrão mais baixo e uma estimativa mais precisa. Não é uma questão de viés, e isso não leva a viés, e isso é bem compreendido.

Tudo bem, quero mencionar pelo menos brevemente o ponto importante de que, embora eu tenha falado sobre matemática em termos de características quantitativas como altura, as pessoas estão muito interessadas em características de caso-controle porque a maioria das características de doença que estamos realmente interessados em termos de ação médica e alvos de medicamentos e tratamento ou o que quer que seja que almejamos, você sabe, até mesmo a predição poligênica, geralmente almejamos isso no contexto de características de doenças clinicamente importantes, como a esquizofrenia ou diabetes tipo 2 ou qualquer doença que você goste de estudar. E precisamos de um pouco mais de matemática para que isso funcione corretamente, e o tipo de matemática mais comumente usado é chamado de modelo de limite de responsabilidade. E, novamente, tentarei evitar abordar os símbolos matemáticos aqui, mas quero fornecer a intuição porque isso é muito importante. O modelo de limite de responsabilidade modela que existe algum número contínuo subjacente não observado chamado responsabilidade, e se a responsabilidade estiver acima de algum número, você tem a doença. Felizmente, temos um exemplo que é a diabetes tipo 2, que fornece alguma intuição aqui. Onde talvez você esteja fazendo um GWAS de diabetes tipo 2, e tudo que você sabe é que alguém lhe disse se tem ou não diabetes tipo 2 ou se um médico lhe disse ou não que tem diabetes tipo 2. Mas há uma quantidade contínua subjacente que chamamos de responsabilidade, que é o seu nível de glicose no sangue em jejum, que é um dos critérios de diagnóstico para diabetes tipo 2, e poderíamos pensar nisso como, você sabe, não conseguimos ver a responsabilidade, mas se a sua glicemia em jejum estiver acima de algum nível, então você tem diabetes tipo 2. E então o que queremos fazer é fazer algumas contas que operem nessa responsabilidade de valor contínuo não observado, e é disso que trata a modelagem de limite de passivo.

E não vou entrar em detalhes, mas todo o trabalho que foi feito neste espaço sobre a herdabilidade de SNP se baseou no modelo de limite de responsabilidade. E dependendo da utilização do modelo de limite de responsabilidade, geralmente produziu uma história qualitativamente semelhante à história que comuniquei anteriormente sobre a altura. E não vou entrar em detalhes sobre esses resultados.

Quero mencionar brevemente que tenho falado principalmente sobre métodos que usam genótipos em nível individual. Tem havido muito interesse desde o ano de 2012 em métodos que, em vez disso, exigem apenas estatísticas de associação resumidas como entrada, e agora existem métodos que inserem estatísticas de associação resumidas para aprender sobre vários fatores de herdabilidade e herdabilidade de SNP.

Quero apenas fornecer uma intuição de que isso está relacionado ao fato, uma importante observação feita por Yang et al. em 2011, que a estatística média do qui-quadrado em um GWAS está intimamente relacionada à herdabilidade de SNP. Você não deve se surpreender se sua estatística qui-quadrado média em um GWAS estiver acima de 1; isso não implica que você tenha confundidores, mas sim, que está diretamente relacionado à quantidade de sinal poligênico naquele GWAS. Um conjunto cada vez mais sofisticado de métodos pode usar essa observação para estimar a herdabilidade a partir de estatísticas resumidas, e vou encobrir todos os detalhes disso.

Portanto, conclusões: podemos usar dados familiares, como estudos com gêmeos, para estimar a herdabilidade no sentido estrito de uma característica. Pois mesmo agora, no ano de 2020, a maioria dos GWAS tem a propriedade de que os loci significativos em todo o genoma que descobrem não explicam toda a herdabilidade, temos herdabilidade perdida, e existe este conceito de herdabilidade de SNP que pode realmente fechar essa lacuna.

Então, esses são alguns dos tópicos bônus, realmente dentro do espaço da herdabilidade, que eu acho super interessantes e que tenho alguns slides bônus, e, como esperado, não vou ter tempo para me aprofundar em detalhes, mas você pode conferir esses slides bônus se quiser. Como vocês sabem, os slides foram enviados para todo o grupo, e eu gostaria de agradecer a todos os membros do meu grupo que descobriram tudo isso e me explicaram. Além disso, gostaria de colocar um breve anúncio do meu curso, “Genética Médica Populacional Avançada”, que seria oferecido na primavera de 2021. Com isso, responderei a quaisquer perguntas adicionais que as pessoas possam ter.

Diane: Muito obrigada. OK, como não há perguntas na caixa de perguntas e respostas no momento, poste para todo o grupo. Por favor, poste alguma se tiver mais perguntas.

Alkes: Houve uma pergunta que acabou de ser feita.

Diane: Ah, ótimo, é de Matthew Worman que está comentando: “Obrigado, Alkes. Eu realmente aprecio a clareza de sua apresentação”, então vou apoiar isso e obrigada. E eu tenho uma pergunta, que é, estou curioso sobre a identidade por definição estatal, o conceito de indivíduos não relacionados. Isso exige que a variante compartilhada pelos dois indivíduos seja de origem independente ou…?”

Alkes: Ok, então obrigado por levantar esse ponto, e indivíduos não relacionados, que este é outro termo, assim como o termo “população”, onde é um pouco complicado defini-lo, e se você defini-lo estritamente, então provavelmente não é nada como o que você tem na vida real. Então, se eu quiser que seja realmente rigoroso, eu poderia dizer que indivíduos não relacionados são como, vamos pensar, eu tenho uma simulação, e na minha simulação, eu tenho algumas frequências alélicas menores, e eu, você sabe, ou frequências de haplótipos, gerando o genoma do indivíduo número um, e então de forma completamente independente e gerando o genoma do indivíduo número dois, e todo o processo é completamente independente. Mas na vida real, claro, não é assim. Você sabe, você pega duas pessoas que pensam que não têm parentesco entre si, não, você provavelmente poderia voltar, você sabe, cinco ou dez gerações e encontrar algum ancestral comum; geralmente é assim que funciona. Portanto, a resposta detalhada a essa pergunta é: se você tem um relacionamento enigmático, você tem esse conjunto de indivíduos de um GWAS; eles não deveriam ter relação entre si, você não acha que haja parentes ali, mas provavelmente há algum parentesco enigmático. Quer dizer, acredito que Yang et al. (2010), Nature Genetics surgiu com um limite que acho que poderia ter sido 0,05, ou talvez mais tarde tenham mudado para 0,025 ou algo parecido. E, desde que você aplique esse limite, verificando rigorosamente se não há dois indivíduos no conjunto de dados que estejam relacionados em um nível superior a 0,05 ou superior a 0,025, então a hipótese é que o método seja robusto. E então, mesmo que as pessoas não sejam estritamente alheias, você deve ficar bem.

Agora, por outro lado, e se você tiver um conjunto de dados que consiste em indivíduos relacionados e não relacionados, e não quiser jogar fora metade deles porque então estaria acabando com seu poder? Então, o que você faz? Bem, acontece que você pode ajustar dois componentes de variância para estimar conjuntamente a herdabilidade de sentido restrito e a herdabilidade de SNP. Não vou entrar em detalhes; há uma referência (Zheitlin et al., 2013, PLoS genetics) do nosso grupo, então acho que, em resumo, a resposta mais curta para sua pergunta é, contanto que você tenha certeza de que existe, você sabe, que qualquer coisa relacionada enigmaticamente as pessoas são apenas um pouco relacionadas, então você está bem, e tudo o que eu disse ainda se mantém.

Diane: Muito obrigada. Foram postadas mais três perguntas, mas infelizmente estamos sem tempo porque a conversa sobre MPG começará em breve. Então, acho que vamos manter essas perguntas em reserva e compartilhá-las com você, Alkes, se você, se desejar,

Alkes: Todos são bem-vindos para me enviar um e-mail off-line para aprice@hsp.harvard.edu .

Diane: Ótimo, muito obrigada pela sua palestra e obrigado ao público por participar hoje. Então, obrigada, Alkes.