Capítulo 3.1: SNP array

SNP chips (Introdução à teoria genômica)

Título: SNP chips (Introdução à teoria genômica)

Apresentador: Gábor Mészáros, Boot Camp de Genômica

Introdução

Olá pessoal. Bem-vindo de volta à série de aulas de introdução à genômica. Continuamos agora com a segunda parte e falaremos sobre SNP chips. Antes de fazermos isso, vamos relembrar algumas palestras anteriores. Então falamos sobre o DNA e sua estrutura que se baseia em certos blocos de construção, e o conjunto de regras de como esses blocos de construção se conectam. Estabelecemos também que, se não pudermos analisar tudo de uma vez, os marcadores moleculares são bons substitutos, porque na verdade conhecemos o seu genótipo e a sua posição exata no genoma. E também, eles estão conectados a regiões genômicas de interesse, por exemplo genes, que influenciam as características nas quais estamos realmente interessados. Existem múltiplas possibilidades para marcadores genômicos, mas os mais difundidos e mais utilizados são os chamados “Marcadores SNP”.

SNP Chips

Então, para lembrar um pouco também sobre isso. Os marcadores SNP são marcadores de polimorfismo de nucleotídeo único que são posições de pares de bases únicas que são diferentes entre os genomas de dois indivíduos. Então, aqui temos o Indivíduo 1 e o Indivíduo 2, e comparamos a sua sequência, e descobriremos que a maior parte da sequência é totalmente idêntica o tempo todo, exceto algumas variantes. E um desses tipos de variantes são os marcadores SNP que são mutações de pares de bases únicas. E o bom destes marcadores SNP é que existem muitos deles em todo o genoma, por isso podemos cobrir todo o genoma com estes marcadores SNP e utilizá-los em nosso benefício. Agora, existem realmente muitos desses marcadores SNP, na casa dos milhões, e nem todos eles aparecem consistentemente nas populações. Então, o que realmente queremos fazer é identificar apenas aqueles marcadores SNP que aparecem consistentemente, para que possamos sempre genotipar eles e analisar esses dados consistentes de muitos indivíduos. Se tivermos realmente um conjunto padronizado e consistente de SNPs, poderemos genotipar estes de maneira direta e também de maneira econômica. Essa forma econômica é genotipar esses conjuntos padronizados de SNPs com os chamados SNP chips. Esses SNP chips têm vários nomes, ou você pode encontrar várias expressões para eles, então beadchip, beadarray, SNPchip, microarray - todos eles significam basicamente a mesma coisa.

Então é assim que o chip SNP se parece. Como mencionei, eles têm vários nomes, mas uma coisa é comum: os SNPs selecionados neles são bialélicos por design. Por exemplo, existe o alelo A e o alelo B, então temos três genótipos possíveis: homozigoto AA, homozigoto BB e heterozigoto AB. Se olharmos para esses SNP chips de uma perspectiva muito próxima, descobriremos que nesses SNP chips existem centenas de milhares de pequenos poços, conforme mostrado no lado direito da tela. Então temos esses pequenos poços e nesses poços há essas beads e, portanto, o nome beadchip ou beadarray. O que realmente acontece é que cada um desses poços e beads é revestido com múltiplas cópias de sondas oligonucleotídicas visando um locus muito específico no genoma. Portanto, cada um desses poços, e cada uma dessas beads, é projetado para capturar um SNP muito específico para a espécie específica para a qual o SNP chip foi desenvolvido.

Agora, como isso funciona? Então, obviamente, precisamos do DNA que queremos genotipar e esses fragmentos de DNA passam pelo beadchip. Cada sonda se liga a uma sequência complementar no DNA e para uma base antes do locus de interesse. Depois disso, vêm extensões de base única que incorporam um dos quatro nucleotídeos marcados. Agora, esses nucleotídeos são muito especiais porque quando são excitados por um laser, quando o laser brilha sobre eles ou aponta para eles, eles emitem um sinal específico, e a intensidade do sinal na verdade transmite informações sobre o genótipo naquele locus específico ou naquela bead específica. Então, isso é mostrado na imagem do lado esquerdo aqui. Então aqui vemos os poços, e também as beads, aqui está a sequência, e no final de cada sequência está o nucleotídeo marcado. E serão três SNPs aqui com o código RS e para cada uma dessas beads existe um determinado genótipo que emite um determinado sinal. Então se tem um homozigoto ele emite um sinal muito forte e não o outro. Da mesma forma, para um locus diferente existe um genótipo homozigoto diferente, então ele, novamente, emite um sinal diferente, mas novamente, apenas de um lado, e se houver algum genótipo heterozigoto, há uma intensidade de sinal de alguma forma entre os extremos.

Agora é assim que os chips SNP parecem mais próximos da realidade. Então basicamente temos essas pistas aqui, e você vê que há uma pequena fração da pista ampliada e você vê aqui esses pequenos pontos que são cada um deles aqui é um poço e a bead que está emitindo algum tipo de sinal. É claro que esses sinais não nos dizem nada apenas olhando para eles, e precisam ser analisados ​​de uma forma muito específica, para que saibamos qual é o significado exato do sinal em cada um desses pontos. Esta análise é feita por um agrupamento de genotipagem específico, portanto existe um algoritmo que agrupa automaticamente as amostras em dois grupos homozigotos e um heterozigoto. Portanto, há círculos ao redor de cada cluster onde os genótipos deveriam cair, e também há tipos mais amplos de áreas sombreadas onde ainda aceitamos as chamadas de genótipos, e então os SNPs que estão fora mesmo dessas áreas sombreadas são aqueles que não recebem um genótipo. Isso é o que eu tinha em mente. Portanto, este é um gráfico para um único SNP. Cada ponto aqui é um genótipo individual para aquele SNP específico, e aqui estão os círculos. Então este seria um homozigoto, outro homozigoto, e entre eles estão os genótipos heterozigotos. O que quer que caia nesses círculos está bem, então isso é chamado de genótipo, e você também vê essas áreas sombreadas mais amplas, elas ainda estão OK, então o indivíduo que cai nesta área ainda é chamado, por exemplo aqui, de heterozigoto. Existem alguns indivíduos que estão fora dessas áreas, por exemplo este, e este, neste caso, o algoritmo não tem certeza sobre a chamada real do genótipo, e é assim que obtemos esses chamados SNPs “ausentes” ou ” faltando” chamadas em nossos dados. Então, algo deu errado e, em vez de fornecer um resultado muito impreciso, o algoritmo de genotipagem determina que, em vez disso, não chamaria esse SNP e o colocaria como ausente.

Em um SNPchip temos SNPs pré-selecionados, então temos SNPs que estão funcionando muito bem e, neste caso, podemos determinar claramente os genótipos homozigotos, heterozigotos e outros genótipos homozigotos. Mostro este exemplo do chamado SNP ruim também apenas para comparação. Portanto, também há casos como este. Novamente o que temos aqui são círculos, os homozigotos, outros homozigotos e heterozigotos, mas você vê aqui que isso é um tanto problemático. Aqui, algumas chamadas de genótipos são realmente próximas umas das outras ou até mesmo sobrepostas, então se um indivíduo cai em algum lugar aqui, por exemplo, não é realmente seguro determinar se ele é heterozigoto ou homozigoto. Então também existem SNPs assim, eles geralmente são problemáticos, mas não aparecem nos SNP chips, porque, na verdade, nos SNP chips que vamos falar e vamos analisar, são basicamente esses conjuntos de chips pré-selecionados bons SNPs funcionais.

Após a conclusão desse processo de genotipagem, basicamente tudo é transferido para um arquivo de texto chamado relatório final. Agora, já fiz alguns vídeos sobre esses relatórios finais, e vocês podem encontrá-los no canal. Mas o resumo é que tudo da rotina de genotipagem fica salvo nesse relatório final, que é basicamente um grande arquivo de texto, e parte desse relatório final também são os genótipos, e esses genótipos então podem ser transferidos para outros formatos de arquivo, por exemplo arquivos padrão do PLINK, e então esses arquivos e esses dados podem ser analisados ​​​​com PLINK ou vários outros softwares, como você também vê vários exemplos disso neste canal.

Notas sobre tratamento de dados

Esta série de vídeos deveria ser mais teórica, então não quero gastar muito tempo nisso agora. Se você estiver interessado nas aplicações práticas, há muitos outros vídeos no canal, mas ainda assim eu mencionaria que é assim que os dados ficam. Então aqui cada linhagem é um indivíduo, e aqui temos os genótipos reais. E, claro, também sabemos a localização desses SNPs, sabemos em que cromossomo eles estão, em que posição exata do par de bases estão e qual é o seu nome, para que possamos realmente realizar análises de rotina de vários tipos. E depois, quando tivermos os nossos dados, podemos transformá-los, usando metodologias apropriadas com algum tipo de sinais, e esses sinais podem revelar algo sobre os organismos, ou os indivíduos, ou as populações em que estamos interessados.

Agora, quando se trata de manipulação de dados genômicos não confiamos inteiramente em nosso conhecimento de biologia, porque na verdade estamos falando de grandes conjuntos de dados e esses grandes conjuntos de dados são tratados exclusivamente com computadores e diversos softwares, então me atrevo a dizer que algum tipo ou algum grau de conhecimento de computadores ou tecnologias de informação também é realmente útil se você quiser fazer pesquisas sérias nesta área. Não estou dizendo que você precisa ser um especialista em hardware ou software, mas ainda precisa conhecer o jargão básico e conhecer computadores e também servidores de computadores. É realmente útil ter esse tipo de conhecimento a longo prazo. Quando se trata de genômica, no nosso trabalho diário lidamos muito com softwares porque, como mencionei, realmente não é possível analisar esse tipo de dados manualmente. Embora as habilidades de programação sejam úteis, bem, eu digo aqui essencial, talvez eu reformulasse isso de uma forma que, sim, seja realmente útil, e talvez não seja programação, mas script. se você realmente leva esse tipo de trabalho a sério, ou tipo de trabalho, você realmente precisa conhecer algum tipo de linguagem de script e precisa ser capaz de escrever alguns scripts realmente básicos que adaptem os dados como você deseja, ou modificar os dados da maneira que desejar ou poder executar softwares que você realmente não usava antes, todo tipo de coisa. Portanto, você precisa ter algum tipo de conhecimento sobre computadores e como usá-los.

Dependendo do que você faz, você pode confiar em seus próprios scripts, mas também existem vários programas estabelecidos que fazem todo tipo de coisa. Portanto, especialmente no início, não há nada de errado em confiar nesses programas ou pacotes estabelecidos que fazem o que você deseja. Para qualquer metodologia ou abordagem, há muitas abordagens e soluções de software, então eu realmente encorajo você a dar uma olhada e ver quais atendem melhor às suas necessidades. Mas no final, todos voltaremos à mesma coisa, então voltaremos a grandes arquivos de texto que conterão genótipos de SNP, que podem ser homozigotos, outros homozigotos ou heterozigotos. Portanto, este é um tipo diferente de gráfico, não se preocupe com isso, mas basicamente o que procuramos são esses SNP chips e genótipos de SNP em formato de texto que precisamos analisar.

Códigos de alelos e genótipos

Nesses grandes arquivos de texto com dados genotípicos, você pode encontrar alelos e genótipos em diferentes tipos de codificação e esses diferentes tipos de codificação que quero detalhar neste slide. Um dos mais comuns é, obviamente, a codificação de nucleotídeos. Portanto, sabemos que o DNA consiste em quatro nucleotídeos: guanina, citosina, adenina e timina. E estas também são as abreviaturas G, C, A, T para este tipo de codificação. Agora, você pode notar que entre colchetes aqui está uma codificação no formato TOP, porque nos SNP chips, por algum motivo, existem 2 tipos de codificação de nucleotídeos, geralmente chamados de TOP e FORWARD. Na verdade, ambos são codificadores de nucleotídeos, então você veria o mesmo tipo de códigos, mas os genótipos para os mesmos SNPs poderiam ser denotados de maneira um pouco diferente quando se trata de codificação TOP e FORWARD. Se você analisar uma única população, isso não será um problema; portanto, você não precisará se preocupar muito com a codificação. Esta questão, ou a questão dos códigos de alelos TOP e FORWARD, entra em jogo principalmente quando você deseja mesclar conjuntos de dados. Novamente, há um vídeo sobre fusão de dados neste canal, então se você estiver realmente interessado nisso, eu apenas encorajo você a procurar esse vídeo. Mas, por enquanto, apenas informações de que existe codificação de nucleotídeos e que poderia haver codificação TOP e FORWARD nos SNP chips.

Agora menciono que cada SNP chip é bialélico, o que significa que existem exatamente dois alelos possíveis para cada SNP. Então você pode realmente simplificar isso, então na verdade você não precisa de quatro letras, ou 4 possibilidades, porque cada um dos SNPs é apenas bialélico, então você pode realmente recodificar ou renomear um alelo como A e o outro alelo como B. Então não é outro tipo de codificação, códigos de alelos de caracteres, com a chamada codificação AB. Além disso, às vezes você precisa usar programas, software ou abordagens, caso contrário, é de alguma forma benéfico armazenar os códigos dos alelos não como caracteres, mas como números. Neste caso, muitas vezes os números utilizados para este fim são 1 e 2. “1” é um dos alelos do SNP, e o número “2” é o outro alelo do SNP. Às vezes, você também pode encontrar ou encontrar uma codificação numérica de alelos que usa “0” para um alelo e “1” para o outro alelo. Portanto, em todos os casos, depois de obter o arquivo de genótipo, você procura qual é o estilo de codificação usado e também precisa garantir que sabe o que esses códigos de alelos significam ou quais são os códigos de alelos reais que são usados no seu caso em particular, porque pode ser diferente, e não existe uma única regra ou um único esquema que seja usado o tempo todo. Portanto, existem alguns esquemas que são usados ​​com mais frequência, mas é claro que isso não garante que o arquivo que você possui use essas convenções específicas de codificação de alelo ou genótipo.

Além disso, embora eu tenha mencionado todos esses códigos de alelos, também há o que mencionei antes: os alelos ausentes. Geralmente são codificados com “0”. É claro que se a codificação numérica for 0/1, então ela será codificada de outra forma, mas na maioria das vezes, ou muitas vezes, os alelos ausentes são codificados como “0” ou outra coisa. Além disso, esta é outra coisa que você precisa verificar: primeiro quais são os códigos usados ​​para alelos e a segunda coisa é quais são os códigos usados ​​para genótipos ausentes. Por exemplo, para o relatório final é comum, ou muitas vezes encontro a codificação do alelo ausente como um “-” ou um sinal de menos.

Agora no slide anterior mencionei os códigos dos alelos, mas novamente sublinho que os SNPs são bialélicos, ou seja, são dois alelos que compõem um determinado genótipo, podendo ser um homozigoto, outro homozigoto e o heterozigoto. Novamente, dependendo do tipo de codificação do alelo, pode haver códigos diferentes para os genótipos. Portanto, este seria um exemplo de codificação de nucleotídeos. Este seria o exemplo da codificação AB, portanto AA, AB e BB. No caso de codificação numérica, quando os códigos dos alelos são 1 e 2, então estes são os códigos do genótipo da codificação numérica. Aqui, eu sublinharia que não se pronuncia “onze”, “doze” e “vinte e dois”, mas na verdade nos referimos a esses genótipos como “um-um”, “um-dois” e “dois-dois”. E também há um tipo diferente de codificação de genótipo quando você usa apenas um número para cada genótipo, e é comum tê-lo como 0, 1 e 2. E esses números são usados, então 0, 1 e 2, porque estes são na verdade os números dos chamados alelos “2”. Portanto, o “0” é usado para o genótipo 1/1 porque há zero alelos “2”, o heterozigoto é frequentemente denotado como “1” porque é de 1/2, então há apenas um alelo “2” aqui, e o 2/2 é denotado por “2”, porque existem dois alelos “2” aqui. E obviamente, se este tipo de codificação genotípica for usado, o código para o genótipo ausente deve ser diferente de zero porque zero já é usado para um dos genótipos homozigotos.

Tipos de chips SNP

Então os SNP chips são específicos para cada espécie, e aqui mostro possibilidades de tipos de SNP chips em bovinos. Menciono o gado como a primeira espécie porque, bem, trabalho principalmente com pecuária, e o gado é o mais genotipado entre as espécies pecuárias. E por isso também tem muitas possibilidades em termos de tipos de chips. Então, o que temos mais comumente, ou com mais frequência, é o chamado SNP chip de densidade média. Curiosamente, tem cerca de 54.000 SNPs, mas ainda é referido como 50K ou densidade média, mas de qualquer forma existe este chip que é frequentemente utilizado para muitos fins, desde genética populacional, até seleção genômica. também existem chips SNP que têm densidade maior ou menor dependendo da finalidade para a qual você deseja usá-los. então o chip SNP de alta densidade tem cerca de 800 mil SNPs e o de baixa densidade em torno de 7 mil, mas também podem ser diferentes, eu realmente coloquei isso como exemplo. também existem SNP chips personalizados que podem ter, por exemplo, qualquer um desses como base, e adicionar SNPs especiais adicionais nos quais as pessoas, ou pesquisadores, as organizações de criação, estão especificamente interessadas.

Esta é apenas uma comparação rápida dos chips 50k e HD SNP em bovinos. Então você vê que cada um desses pontos coloridos aqui é um SNP em todos os cromossomos do gado, e você vê que todo o genoma está coberto. Claro, temos muito mais SNPs no HD, por isso é muito mais coberto, então as distâncias entre SNP são muito mais curtas, mas no geral, ambos os SNP chips fazem o trabalho e cobrem todo o genoma, para que possamos usar esses dados para realizar vários tipos de análises.

É claro que existem SNP chips para uma ampla variedade de outras espécies, e aqui apenas menciono algumas dessas espécies e alguns desses tipos de chips. Então tem muito mais no mercado, mas só para você ter uma ideia, cito alguns deles. Portanto, existe um SNP chip humano com cerca de 900.000 SNPs. Em cavalos, ovinos, suínos, animais domésticos (por exemplo, cães, gatos e pássaros) e todos esses tipos de coisas, existem SNP chips disponíveis. Além disso, existem SNP chips para ratos usados ​​em todos os tipos de experimentos de pesquisa. Além disso, nas plantas, sendo o trigo uma das culturas principais, incluí apenas o morango porque achei engraçado que já existam SNP chips para morangos. Bom, eu só não esperava encontrar, então incluí aqui como uma espécie de “cereja no topo”, no caso, um morango no final da lista.

Então, para resumir, existem diferentes tipos de SNP chips e existem SNP chips para muitas espécies. Como mencionei no slide anterior, também existem fabricantes diferentes, então existe pelo menos algum tipo de concorrência no mercado, o que é, obviamente, muito bom para a evolução dos preços. Existem opções que você pode escolher se quiser algo muito específico.

Existem muitos laboratórios que prestam o serviço de genotipagem. Então, na verdade, você não precisa ter essas máquinas de genotipagem em seu laboratório. Basicamente, o que você precisa é apenas pegar o DNA, mandar para um laboratório, e eles fazem tudo para você, inclusive extração de DNA e genotipagem. Em seguida, eles enviam de volta os dados do genótipo em formato de texto que você pode analisar posteriormente.

Quero também mencionar neste slide o ditado que às vezes surge em relação à genotipagem. Diz o ditado: “Na era dos genótipos, o fenótipo é rei!” Na verdade, isso mostra que hoje em dia obter genótipos é muito fácil. Tudo que você precisa é ter DNA, ou mesmo, você não precisa ter DNA, mas apenas uma amostra biológica, e você envia para um laboratório, e você recebe de volta os genótipos em um tempo relativamente curto. Mas se você quiser ter alguns fenótipos muito específicos, poderá ter dificuldade em obtê-los.

Portanto, embora falemos muito sobre genótipos durante estas aulas, não devemos esquecer que a fenotipagem também é uma coisa crucial e é muito, muito importante para uma série de análises que possamos querer realizar. Um exemplo geral seria, por exemplo, um estudo de associação genômica em larga escala quando queremos associar os genótipos aos fenótipos. Obviamente, precisamos desses registros fenotípicos. E se continuarmos no setor pecuário, por exemplo, a seleção genômica é uma das grandes áreas onde também contamos com informações fenotípicas, incluindo registro e todas essas outras coisas que detalharemos em uma apresentação específica no final desta série de aulas.

Então, novamente, apenas para resumir todo o processo: você obtém a amostra biológica e depois extrai o DNA dela. Você envia para um laboratório que usa SNP chips que geram os dados e você pode usar esses dados para obter algum tipo de resultado deles. E, claro, depende do tipo de resultados que você busca. Você usará as metodologias, software apropriados e assim por diante. Alguns desses exemplos e tutoriais também estão neste canal, mas é claro que há uma ampla gama de possibilidades que você pode escolher.

Quanto às aplicações de dados genômicos, como mencionei, existem muitas, muitas delas. Quer dizer, quando se trata de grupos de pesquisa, eles tendem a focar em determinados tipos de análises de dados genômicos. Alguns grupos de pesquisa estão mais interessados, digamos, na genômica populacional; outros estão mais focados na genômica da diversidade e, ainda assim, outros podem estar interessados ​​em algum tipo de análise orientada para GWAS ou orientada para assinatura de seleção. Então, isso realmente depende dos interesses pessoais dos grupos de pesquisa e das pessoas.

Existem muitas aplicações possíveis, e algumas delas já mencionamos neste canal, e certamente, mencionaremos outras também em algum momento. Além disso, durante esta série de aulas, falaremos sobre alguns deles. Portanto, você poderia usar os dados genômicos para calcular as proporções de miscigenação entre as populações. No caso de cruzamento, você pode calcular o parentesco genômico. Você pode usá-lo para estudos de associação genômica em larga escala, assinaturas de seleção, seleção genômica, coeficientes de endogamia genômica e todo tipo de coisa.

Resumo

Faremos tudo eventualmente, mas por enquanto chegamos ao final desta aula, e quero encerrá-la com um pequeno resumo. Então, falamos sobre os marcadores SNP que estão sendo genotipados com máquinas de alto rendimento que determinam o genótipo desses SNPs de maneira econômica. No final, o que obtemos são grandes arquivos de texto que poderiam ser analisados ​​posteriormente. Embora esses arquivos de texto tenham várias maneiras de como os SNPs são expressos, ou os genótipos são expressos para esses SNPs bialélicos, estes podem ser os vários códigos de nucleotídeos ou códigos numéricos. Existem também várias possibilidades de como os dados ausentes são indicados.

No geral, esses SNP chips são uma forma muito padrão de lidar com dados genotípicos em basicamente todas as populações, e existem SNP chips com densidades diferentes para muitas espécies.

Então, terminamos aqui hoje. Agradeço o tempo que você gastou neste vídeo e estou ansioso para vê-lo novamente na próxima aula. Então, obrigado novamente e tenha um ótimo dia.