Marketing Digital

Use o teste de folha de papel em branco para otimizar o processamento de idiomas naturais


Se você desse a alguém uma folha de papel em branco e a única coisa nela fosse o título da página, eles entenderiam o que o título significava? Eles teriam uma ideia clara sobre o que seria o documento real? Se sim, parabéns! Você acabou de passar no teste de folha de papel em branco para títulos de página porque seu título era descritivo.

O Teste de folha de papel em branco (BSoPT) é uma idéia sobre a qual Ian Lurie falou muito ao longo dos anos e recentemente em seu novo site. É um teste para ver se o que você escreveu faz sentido para alguém que nunca encontrou sua marca ou conteúdo antes. Nas palavras de Ian: "Este texto, escrito em uma folha de papel em branco, fará sentido para um estranho?" O teste da folha de papel em branco é sobre clareza sem contexto.

Mas e se estivermos executando BSoPT em uma máquina em vez de em uma pessoa? Nosso experimento mental ainda é válido? Acho que sim. Máquinas não conseguem ler, mesmo sofisticadas como Google e Bing. Eles podem apenas adivinhar o significado do nosso conteúdo, o que torna o teste especialmente relevante.

Eu tenho uma versão alternativa do BSoPT, mas para máquinas: se tudo que uma máquina pudesse ver é uma lista de palavras que aparecem em um documento e com que frequência você poderia adivinhar razoavelmente do que se trata o documento?

A folha de papel em branco teste para frequência de palavras

Se você desse a alguém uma folha de papel em branco e a única coisa escrita nela fosse essa tabela de palavras e frequências, você poderia adivinhar o que é o artigo?

Um artigo sobre afiar uma faca é um bom palpite. O artigo do qual extraí a palavra tabela de frequências era um guia prático para afiar uma faca de cozinha.

E se as palavras "passo" e "como" aparecerem na tabela? A pessoa que leu a leitura estaria mais certa de que este artigo trata de afiar facas ou menos? Você poderia saber se este artigo trata de afiar facas de cozinha ou canivetes?

Se não conseguirmos ter uma boa idéia do que é o artigo com base nas palavras que ele usa, o BSoPT para frequência de palavras falha.

Podemos continuar usando a palavra frequência para o BERT?

As abordagens anteriores de processamento de linguagem natural (PNL) empregadas pelos mecanismos de pesquisa usaram análises estatísticas da frequência e da correspondência de palavras para determinar do que se trata uma página. Eles ignoraram a ordem e parte do discurso das palavras em nosso conteúdo, tratando basicamente nossas páginas como sacos de palavras.

As ferramentas que usamos para otimizar esse tipo de PNL compararam a frequência de palavras de nosso conteúdo com a de nossos concorrentes e informaram onde estavam as lacunas no uso de palavras. Hipoteticamente, se adicionarmos essas palavras ao nosso conteúdo, teremos uma classificação mais alta ou, pelo menos, ajudaremos os mecanismos de pesquisa a entender melhor nosso conteúdo.

Essas ferramentas ainda existem: Market Muse, SEMRush, seobility, Ryte e outros têm algum tipo de frequência de palavras ou recursos de análise de gap de TD-IDF. Eu tenho usado uma ferramenta gratuita de frequência de palavras chamada Online Text Comparator, e funciona muito bem. Eles ainda são úteis agora que os mecanismos de pesquisa avançaram com abordagens de PNL como o BERT? Acho que sim, mas não é tão simples quanto mais palavras = melhores classificações.

O BERT é muito mais sofisticado do que uma abordagem de saco de palavras. O BERT analisa a ordem das palavras, parte do discurso e qualquer entidade presente em nosso conteúdo. É robusto e pode ser treinado para fazer muitas coisas, incluindo responder perguntas e reconhecer nomes de entidades, definitivamente mais avançados que a frequência básica de palavras.

No entanto, o BERT ainda precisa examinar as palavras na página para funcionar, e a frequência das palavras é um resumo básico disso. Agora, a localização das palavras e parte do discurso é mais importante. Não podemos simplesmente espalhar as palavras que encontramos em nossa análise de lacunas na página.

Aprimoramento de conteúdo com ferramentas de frequência de palavras

Para ajudar a tornar nosso conteúdo inequívoco para máquinas, devemos torná-lo inequívoco para os usuários. Reduzir a ambiguidade em nossa redação é sobre escolher palavras específicas para o tópico sobre o qual estamos escrevendo. Se nossa redação usa muitos verbos genéricos, pronomes e adjetivos não temáticos, nosso conteúdo não é apenas insípido, mas difícil de entender.

Considere este exemplo extremo de linguagem não específica:

"O truque para encontrar a faca do chef certo é encontrar um bom equilíbrio de recursos, qualidades e preço. Ele deve ser feito de metal forte o suficiente para manter sua borda por um período decente de tempo. Você deve ter uma alça confortável que não Você não precisa gastar muito. O cozinheiro doméstico não precisa de uma faca japonesa de US $ 350 ".

Esta cópia não é ótima. Parece quase gerado por máquina. Não consigo imaginar que um artigo completo escrito assim passaria o BSoPT para frequência de palavras.

É assim que a tabela de frequência de palavras se parece com algumas palavras vazias removidas:

Agora, suponha que usamos uma ferramenta de frequência de palavras em algumas páginas que são bem classificadas como "como escolher a faca de um chef" e descobrimos que essas partes do discurso eram usadas com bastante frequência:

Entidades: lâmina, aço, fadiga, aço de damasco, santoku, Shun (marca)
Os verbos
: aderência, picada
Adjetivos
: perfeito, duro, alto carbono

A incorporação dessas palavras em nossa cópia geraria um texto significativamente melhor:

“O truque para encontrar a faca perfeita para o chef é obter o equilíbrio certo de recursos, qualidades e preço. A lâmina deve ser de aço forte o suficiente para manter uma borda afiada após o uso repetido. Ele deve ter uma alça ergonômica que você possa segurar confortavelmente para evitar que a fadiga espalhe o corte. Você também não precisa gastar muito. O cozinheiro em casa não precisa de um santoku de aço damasco Shun, com alto teor de carbono e 350 dólares ".

Esse texto atualizado será mais fácil para as máquinas classificarem e melhor para os usuários lerem. Também é bom escrever palavras relevantes para o seu tópico.

Olhando para o futuro da PNL

Nosso conteúdo melhora com o Teste de folha de papel em branco otimizado para BERT ou outros algoritmos de PNL? Não não acredito. Eu não acho que exista um conjunto especial de palavras que possamos adicionar ao nosso conteúdo para classificar magicamente mais alto ao explorar o BERT. Vejo isso como uma maneira de garantir que nosso conteúdo seja claramente entendido por usuários e máquinas.

Prevejo que estamos chegando bem perto do ponto em que a idéia de otimizar para a PNL será considerada absurda. Talvez em 10 anos, escrever para usuários e escrever para máquinas seja o mesmo, devido à evolução da tecnologia. Mas, mesmo assim, ainda teremos que garantir que nosso conteúdo faça sentido. E testar a folha de papel em branco ainda será um bom ponto de partida.



Fonte da Matéria

Artigos relacionados

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo
Fechar