Compreender como os genes interagem em sistemas biológicos complexos tem sido uma pedra angular da biologia molecular. Uma das maneiras mais poderosas de estudar essas interações é através Experimentos de perturbaçãoonde os cientistas perturbam seletivamente genes para observar seus efeitos nas funções celulares. Técnicas como Perturb-seq revolucionaram esse campo, permitindo intervenções em larga escala e sequenciamento de célula única para mapear influências genéticas. No entanto, o grande volume de dados e os altos custos de condução desses experimentos apresentam grandes barreiras ao seu amplo uso.
Graças ao aprendizado de máquina (ML) e à inteligência artificial (AI), é possível prever respostas celulares e extrair insights significativos sem a necessidade de experimentos de laboratório exaustivo. Mas há um problema: muitos modelos de IA atuais tratam dados biológicos como apenas números, não riqueza semântica de relações genéticas. Eles se concentram nas correlações brutas em vez de no raciocínio biológico mais profundo, limitando sua capacidade de apoiar descobertas significativas.
Um recente estudar Liderados por Menghua Wu (MIT), Russell Littman, Jacob Levine, David Richmond, Tommaso Biancalani, Jan-Christian Hütter (Genentech) e Lin Qiu (Meta AI) propõe uma nova abordagem. Eles apresentam Perturbqauma referência projetada para alinhar modelos de perturbação orientados para IA com tomada de decisão biológica real. Mais importante, eles demonstram como os grandes modelos de linguagem (LLMs) – a mesma tecnologia que alimenta os chatbots de AI – podem ser reaproveitados para pesquisas biológicas. Seu método, chamado Summer (resumir, recuperar e responder), mostra que a IA pode interpretar e raciocinar experimentos de perturbação usando linguagem natural, potencialmente superando os modelos existentes.
Por que as abordagens atuais de IA ficam aquém
A maior limitação de experimentos de perturbação é o custo deles. Essas experiências confiam em Sequenciamento de RNA de célula única (scrna-seq)uma técnica que permite aos cientistas medir como a expressão gênica muda quando genes específicos são derrubados ou superexpressos. Embora poderosos, essas experiências são caras e demoradas, exigindo milhares de células e análises complexas de dados.
Para abordar isso, Modelos de aprendizado de máquina tentar prever como os genes se comportarão sob perturbação Antes de realizar experimentos. Esses modelos usam Gráficos de conhecimento– Databases de interações biológicas conhecidas – para inferir como uma nova interrupção do gene pode afetar uma célula. No entanto, essa abordagem tem várias deficiências:
- Perda de informações: Quando as relações biológicas são reduzidas a matrizes de adjacência numérica, grande parte do contexto detalhado é perdido.
- Objetivos desalinhados: A maioria dos modelos se concentra na previsão de mudanças nos níveis de expressão gênica, em vez de responder questões biológicas que os pesquisadores realmente se preocupam.
- Natureza de caixa preta: Muitos modelos de IA funcionam como “caixas pretas”, dificultando a interpretação de por que eles chegam a uma previsão específica.
AI agora lida com simulações moleculares: graças ao mdcrow
Uma alternativa baseada em idiomas
Para superar essas limitações, a equipe de pesquisa propõe um abordagem baseada em idiomas. Em vez de tratar os genes como meros pontos de dados, eles argumentam que Relações biológicas devem ser representadas através da linguagem natural– A maneira como os cientistas descrevem naturalmente as interações genéticas.
É aqui que entra os grandes modelos de idiomas (LLMS).
Perturbqa: uma nova referência para a IA em biologia
Para testar se os modelos de idiomas podem raciocinar sobre perturbações genéticas, os pesquisadores criaram PerturbqaUma referência projetada para avaliar os modelos de IA em três tarefas biológicas do mundo real:
- Previsão de expressão diferencial: Dada uma perturbação do gene, prevê se a expressão de outro gene mudará significativamente.
- Direção de mudança: Se a expressão de um gene mudar, determine se ele aumenta ou diminui.
- Enriquecimento do conjunto de genes: Identifique clusters de genes que se comportam de maneira semelhante sob perturbações e descrevem sua função comum.
Ao contrário dos benchmarks anteriores, que avaliam principalmente se a IA pode lembrar o conhecimento biológico existente, o perturbador foi projetado para prever e razão sobre perturbações novas e invisíveis. O conjunto de dados inclui cinco em larga escala Perturb-seq Experimentos que cobrem vários tipos de células.
Verão: um modelo de IA que pensa como um biólogo
Para resolver as tarefas perturbadoras, os pesquisadores introduziram VERÃOa Estrutura de AI baseada em idiomas Isso supera os modelos tradicionais de aprendizado de máquina em raciocínio sobre dados de perturbação.
O verão funciona em três etapas principais:
- Resumo: O LLM lê e resume os gráficos de conhecimento biológicoextraindo as principais descrições dos genes e suas interações.
- Recuperação: O modelo Recupera dados experimentais relevantes de perturbações vistas anteriormente, fundamentando seu raciocínio em exemplos do mundo real.
- Pergunta-resposta: Finalmente, verão responde a perguntas biológicas Sobre perturbações usando um processo de raciocínio passo a passo, semelhante à maneira como um biólogo analisaria resultados experimentais.
Ao contrário dos modelos convencionais que correlacionam cegamente os genes, o verão explica por que uma perturbação pode causar um certo efeitotornando suas previsões mais interpretáveis.
Quão bem o verão se sai?
Os pesquisadores testaram o verão contra Modelos de IA de última geraçãoincluindo:
- Modelos baseados em gráficos (Gears, GAT): Eles dependem de redes biológicas estruturadas, mas geralmente descartam as principais informações semânticas.
- Modelos ML de célula única (SCGPT): Eles usam aprendizado profundo para prever níveis de expressão gênica, mas lutam para fornecer explicações biológicas claras.
- Modelos de IA baseados em texto (Genept): Estes codificam descrições genéticas em representações numéricas, mas não têm etapas explícitas de raciocínio.
Os resultados mostraram que O verão superou todos os modelos de linha de base nas tarefas diferenciais de expressão e conjunto de genes. Notavelmente, Modelos sem raciocínio estruturado ou recuperação experimental não tiveram um desempenho melhor do que adivinhação aleatóriadestacando a importância da abordagem do verão.
A IA pode descrever padrões biológicos?
Uma das conquistas mais impressionantes do verão foi Enriquecimento do conjunto de genes. Tradicionalmente, os cientistas usam testes estatísticos para agrupar genes em conjuntos funcionais, mas esses métodos lutam com genes mal caracterizados. Verão, por outro lado, foi capaz de gerar descrições precisas e interpretáveis de clusters de genesmuitas vezes combinando ou excedendo as anotações humanas.
Por exemplo, ao analisar um cluster de genes envolvido em Modificação de RNAos métodos estatísticos tradicionais falharam em fornecer informações significativas. O verão, no entanto, gerou a seguinte descrição:
“Genes associados ao complexo de metilação de M6A: este conjunto inclui genes que regulam a metilação de N6-metiladenosina (M6A) de RNAs, influenciando o splicing de mRNA e o processamento de RNA.”
Tais descrições não são apenas mais legíveis, mas também capturar o significado biológico mais amplo de interações genéticas.
Enquanto o verão representa um grande passo à frente, O raciocínio biológico com a IA está longe de ser um problema resolvido. O estudo destaca várias direções futuras:
- Integração de modelos de IA multimodais: A combinação de modelos de linguagem com IA especializada treinada em dados genômicos brutos pode melhorar a precisão.
- Escalando previsões de perturbação acionada pela IA: Conjuntos de dados mais abrangentes podem ajudar os modelos de IA a aprender detalhes mais delicados sobre interações genéticas.
- Aplicações do mundo real na descoberta de medicamentos: Modelos de IA como o verão podem acelerar a identificação de possíveis alvos de drogas prevendo como as células respondem a modificações genéticas.
Crédito da imagem em destaque: Digitale.de/Unsplash