O BERT é uma estrutura de aprendizado de máquina de código aberto para processamento de linguagem natural (PNL) que ajuda os computadores a entender a linguagem ambígua usando o contexto do texto circundante. O modelo foi pré-levado a texto da Wikipedia inglesa e do corpus marrom, e pode ser ajustado com conjuntos de dados de perguntas e respostas. Bert significa representações bidirecionais do codificador dos Transformers e é baseado no modelo do transformador, que conecta todos os elementos de saída a todos os elementos de entrada dinamicamente.
O que é Bert?
Bert foi projetado para enfrentar os desafios da interpretação da linguagem natural. Modelos de idiomas tradicionais Texto processado apenas sequencialmente-da esquerda para a direita ou da direita para a esquerda-que tornou o entendimento do contexto limitado. Bert supera essa limitação lendo texto bidirecionalmente, permitindo capturar o contexto completo das palavras. Sua vasta e vasto texto não marcada e a capacidade de ser ajustado em tarefas específicas tornam-a uma ferramenta poderosa na NLP moderna.
Como Bert funciona
A força de Bert vem de sua arquitetura de transformadores subjacentes. Diferentemente dos modelos anteriores que dependiam de sequências fixas, os Transformers processam dados em qualquer ordem, o que permite que Bert pese as influências de todas as palavras em torno de uma palavra de destino. Essa abordagem bidirecional aprimora sua compreensão da linguagem.
Arquitetura do transformador
O modelo do transformador forma a espinha dorsal de Bert. Ele garante que cada elemento de saída seja calculado dinamicamente com base em cada elemento de entrada. Esse design permite que Bert lide com o contexto, examinando os relacionamentos em toda a frase, não apenas em uma progressão unidirecional.
Modelagem de linguagem mascarada
Bert usa uma técnica chamada Modelagem de Linguagem Mascarada (MLM). No MLM, certas palavras em uma frase estão ocultas e Bert deve prever essas palavras mascaradas com base no restante da frase. Isso força o modelo a desenvolver uma profunda compreensão do contexto, em vez de depender de representações estáticas de palavras.
Próxima previsão da frase
A próxima previsão de frases (NSP) treina Bert para determinar se uma frase segue logicamente outra. Ao aprender a relação entre os pares de frases – emparelhados corretamente e incorretamente – a Bert melhora sua capacidade de capturar o fluxo da linguagem, o que é crucial para tarefas como a resposta das perguntas.
Mecanismos de auto-ataque
A auto-atimento permite que Bert pese a relevância de cada palavra em relação aos outros em uma frase. Esse mecanismo é fundamental quando o significado de uma palavra muda à medida que o novo contexto é adicionado, garantindo que a interpretação de Bert permaneça precisa mesmo quando as palavras são ambíguas.
Antecedentes e história
O desenvolvimento de Bert marcou um afastamento significativo dos modelos de idiomas anteriores. Modelos anteriores, como os baseados em redes neurais recorrentes (RNN) e redes neurais convolucionais (CNN), texto processado em uma ordem seqüencial fixa. Essa limitação dificultou seu desempenho nas tarefas que se baseavam na compreensão do contexto completamente.
Em 2017, o Google introduziu o modelo do transformador, abrindo caminho para inovações como Bert. Até 2018, o Google lançou e de código aberto Bert, e a pesquisa mostrou que alcançou resultados de ponta em 11 tarefas de compreensão de idiomas naturais, incluindo análise de sentimentos, rotulagem semântica e classificação de texto. Em outubro de 2019, o Google aplicou Bert aos seus algoritmos de pesquisa nos EUA, aprimorando o entendimento de aproximadamente 10% das consultas de pesquisa em inglês. Em dezembro de 2019, Bert havia sido estendido para mais de 70 idiomas, melhorando a pesquisa baseada em voz e texto.
Aplicações e usos
O BERT possui uma ampla gama de aplicações na PNL, permitindo tarefas de uso geral e especializado. Seu design o torna ideal para melhorar a precisão do entendimento e processamento da linguagem.
Tarefas de PNL
O BERT suporta tarefas de sequência a sequência, como resposta a perguntas, resumo abstrato, previsão de sentenças e geração de respostas de conversação. Também se destaca em tarefas de entendimento de linguagem natural, como desambiguação de senso de palavras, resolução de polissemia, inferência de linguagem natural e classificação de sentimentos.
Variantes especializadas
Muitas adaptações de Bert foram desenvolvidas para otimizar o desempenho ou os domínios específicos de destino. Os exemplos incluem Patentbert para classificação de patentes, Docbert para classificação de documentos, BioBert para mineração de texto biomédico e Scibert para literatura científica. Outras versões como Tinybert, Distilbert, Albert, Spanbert, Roberta e Electra oferecem melhorias na velocidade, eficiência ou precisão específica da tarefa.
Bert vs. Gpt
Enquanto Bert e GPT são modelos de idioma de topo, eles servem a propósitos diferentes. Bert se concentra em entender o texto lendo -o na íntegra, usando o contexto de ambas as direções. Isso o torna ideal para tarefas como interpretação de consultas de pesquisa e análise de sentimentos. Por outro lado, os modelos GPT são projetados para geração de texto, destacando -se na criação de conteúdo original e resumindo textos longos.
Impacto na IA e pesquisa
O Google usa o BERT para aprimorar a interpretação das consultas de pesquisa, entendendo melhor o contexto do que os modelos anteriores. Isso levou a resultados mais relevantes para cerca de 10% das consultas de pesquisa em inglês dos EUA. A capacidade de Bert de processar o contexto também melhorou a busca de voz e a precisão da pesquisa baseada em texto, principalmente porque foi adaptada para uso em mais de 70 idiomas. Sua influência se estende por toda a IA, estabelecendo novos padrões para a compreensão da linguagem natural e empurrando o desenvolvimento de modelos mais avançados.