Marketing Digital

Rastreado: atualmente não indexado: um guia para o status da cobertura


O relatório de cobertura do índice do Google é absolutamente fantástico, pois fornece ao SEO informações mais claras sobre as decisões de rastreamento e indexação do Google. Desde o seu lançamento, o usamos quase diariamente no Go Fish Digital para diagnosticar problemas técnicos em grande escala para nossos clientes.

No relatório, existem muitos "estados" diferentes que fornecem aos webmasters informações sobre como o Google lida com o conteúdo do site. Embora muitos dos estados forneçam algum contexto sobre as decisões de rastreamento e indexação do Google, um não é claro: "Rastreado – atualmente não indexado".

Desde que o status "Rastreado: atualmente não indexado" foi relatado, ouvimos vários proprietários de sites perguntando sobre seu significado. Um dos benefícios de trabalhar em uma agência é poder acessar uma grande quantidade de dados e, como vimos essa mensagem em várias contas, começamos a detectar as tendências dos URLs relatados.

Definição do Google

Vamos começar com a definição oficial. Segundo a documentação oficial do Google, esse status significa: "A página foi rastreada pelo Google, mas não indexada. Ela pode ou não ser indexada no futuro; não é necessário reenviar esse URL para rastreá-lo".

Então, essencialmente o que sabemos é que:

  1. Google pode acessar a página
  2. O Google reservou um tempo para rastrear a página
  3. Após o rastreamento, o Google decidiu não incluí-lo no índice.

A chave para entender esse estado é pensar nas razões pelas quais o Google "conscientemente" decidirá contra a indexação. Sabemos que o Google não tem problemas para encontrar a página, mas, por algum motivo, acredita que os usuários não se beneficiariam com a localização.

Isso pode ser bastante frustrante, pois você pode não saber por que seu conteúdo não está indexado. Abaixo, detalharei alguns dos motivos mais comuns que nossa equipe viu para explicar por que esse estado misterioso pode estar afetando seu site.

1. falsos positivos

Prioridade: baixa

Nossa primeira etapa é sempre realizar algumas verificações pontuais dos URLs marcados na seção "Rastreado – atualmente não indexado" para indexação. Não é incomum encontrar URLs relatados como excluídos, mas, afinal, eles aparecem no índice do Google.

Por exemplo, aqui está um URL marcado no relatório em nosso site: https://gofishdigital.com/meetup/

No entanto, quando usamos um operador de pesquisa no site, podemos ver que o URL está realmente incluído no índice do Google. Você pode fazer isso adicionando o texto "site:" antes do URL.

Se você vir URLs relatadas com esse status, recomendo que você comece a usar o operador de pesquisa de sites para determinar se o URL está indexado ou não. Às vezes, esses resultados são falsos positivos.

Solução: não faça nada! Está bem.

2. URL do feed RSS

Prioridade: baixa

Este é um dos exemplos mais comuns que vemos. Se seu site usa um feed RSS, você pode encontrar URLs que aparecem no relatório "Rastreado – atualmente não indexado" do Google. Muitas vezes, esses URLs terão a string "/ feed /" anexada no final. Eles podem aparecer no relatório assim:

O Google encontra esses URLs de feeds RSS vinculados na página inicial. Eles geralmente serão vinculados ao uso de um elemento "rel = alternate". Plugins do WordPress como o Yoast podem gerar automaticamente esses URLs.

Solução: não faça nada! Está bem.

É provável que o Google escolha seletivamente não indexar esses URLs e por boas razões. Se você navegar para um URL de feed RSS, verá um documento XML como o seguinte:

Embora este documento XML seja útil para feeds RSS, não é necessário que o Google o inclua no índice. Isso proporcionaria uma experiência muito ruim, pois o conteúdo não se destina aos usuários.

3. páginas de URL

Prioridade: baixa

Outro motivo extremamente comum para a exclusão "Rastreado – atualmente não indexado" é a paginação. Veremos frequentemente uma boa quantidade de páginas de URLs neste relatório. Aqui podemos ver alguns URLs da página que aparecem em um site de comércio eletrônico muito grande:

Solução: não faça nada! Está bem.

O Google precisará rastrear os URLs da página para obter um rastreamento completo do site. Este é o seu caminho para o conteúdo, como páginas de categorias mais profundas ou páginas de descrição de produtos. No entanto, embora o Google use a paginação como uma maneira de acessar o conteúdo, ele não precisa necessariamente indexar os URLs da página.

De qualquer forma, certifique-se de não fazer nada para afetar o rastreamento de paginação individual. Verifique se a página inteira contém uma tag canônica autorreferencial e está livre de tags "nofollow". Essa página funciona como uma maneira de o Google rastrear outras páginas importantes do seu site, então você definitivamente desejará que o Google continue a segui-la.

4. Produtos expirados

Prioridade: Média

Quando as páginas individuais listadas no relatório são verificadas, um problema comum que vemos em todos os clientes são os URLs que contêm texto que indica produtos "expirados" ou "fora de estoque". Especialmente em sites de comércio eletrônico, parece que o Google verifica a disponibilidade de um produto específico. Se você determinar que um produto não está disponível, exclua esse produto do índice.

Isso faz sentido da perspectiva do UX, pois o Google pode não querer incluir conteúdo no índice que os usuários não podem comprar.

No entanto, se esses produtos estiverem realmente disponíveis no seu site, isso poderá resultar em uma grande perda de oportunidade de SEO. Ao excluir páginas do índice, seu conteúdo não tem a possibilidade de ser classificado.

Além disso, o Google não apenas verifica o conteúdo visível na página. Houve casos em que não encontramos evidências no conteúdo visível de que o produto não está disponível. No entanto, verificando os dados estruturados, podemos ver que a propriedade "disponibilidade" está definida como "OutOfStock".

Parece que o Google está recebendo dicas de conteúdo visível e dados estruturados sobre a disponibilidade de um determinado produto. Portanto, é importante que você verifique o conteúdo e o esquema.

Solução: verifique a disponibilidade do seu inventário.

Se você achar que os produtos realmente disponíveis estão listados neste relatório, convém verificar todos os seus produtos que podem estar incorretamente listados como indisponíveis. Acompanhe seu site e use uma ferramenta de extração personalizada, como o Screaming Frog, para coletar dados das páginas dos seus produtos.

Por exemplo, se você quiser ver todos os seus URLs em escala com o esquema definido em "OutOfStock", poderá definir "Regex" para: "disponibilidade": "

Isso: "class =" editor-autoparser-object "> http://schema.org/OutOfStock" deve remover automaticamente todos os URLs com esta propriedade:

Você pode exportar esta lista e cruzar referências com dados de inventário usando o Excel ou ferramentas de inteligência de negócios. Isso deve permitir que você encontre rapidamente discrepâncias entre os dados estruturados em seu site e os produtos realmente disponíveis. O mesmo processo pode ser repetido para encontrar instâncias em que seu conteúdo visível indica que os produtos expiraram.

5. 301 redirecionamentos

Prioridade: Média

Um exemplo interessante que vimos aparecer nesse estado são os URLs de destino das páginas redirecionadas. Frequentemente, veremos que o Google rastreia o URL de destino, mas não o inclui no índice. No entanto, ao analisar o SERP, descobrimos que o Google está indexando um URL de redirecionamento. Como o URL de redirecionamento é o indexado, o URL de destino é lançado no relatório "Rastreado – atualmente não indexado".

O problema aqui é que o Google ainda não pode reconhecer o redirecionamento. Como resultado, você vê o URL de destino como uma "duplicata" porque ainda está indexando o URL de redirecionamento.

Solução: Crie um sitemap.xml temporário.

Se isso ocorrer em um grande número de URLs, vale a pena tomar medidas para enviar sinais de consolidação mais fortes ao Google. Esse problema pode indicar que o Google não reconhece seus redirecionamentos em tempo hábil, o que gera sinais de conteúdo não vinculados.

Uma opção pode ser configurar um "mapa do site temporário". Este é um mapa do site que você pode criar para acelerar o rastreamento desses URLs redirecionados. Essa é uma estratégia que John Mueller recomendou anteriormente.

Para criar um, você deve fazer engenharia reversa de redirecionamentos criados no passado:

  1. Exporte todos os URLs do relatório "Rastreado: atualmente não indexado".
  2. Combine-os no Excel com redirecionamentos que foram configurados anteriormente.
  3. Encontre todos os redirecionamentos que possuem um URL de destino no cubo "Rastreado – atualmente não indexado".
  4. Crie um sitemap.xml estático desses URLs com o Screaming Frog.
  5. Carregue o mapa do site e monitore o relatório "Rastreado: atualmente não indexado" no Search Console.

O objetivo aqui é que o Google rastreie os URLs no sitemap.xml temporário com mais frequência do que seria. Isso levará a uma consolidação mais rápida desses redirecionamentos.

6. Conteúdo fino

Prioridade: Média

Às vezes, vemos URLs incluídos neste relatório com conteúdo extremamente fino. Essas páginas podem ter todos os elementos técnicos configurados corretamente e podem até ser adequadamente vinculados internamente; no entanto, quando o Google atende a esses URLs, há muito pouco conteúdo real na página. Abaixo está um exemplo de uma página de categoria de produto em que há muito pouco texto exclusivo:

Esta página de listagem de produtos foi marcada como "Rastreado – atualmente não indexado". Isso pode ser devido ao conteúdo muito fino da página.

É provável que esta página seja muito fina para o Google achar útil ou há tão pouco conteúdo que o Google considera uma duplicata de outra página. O resultado é que o Google remove o conteúdo do índice.

Aqui está outro exemplo: o Google conseguiu rastrear uma página de componentes de depoimento no site Go Fish Digital (mostrado acima). Embora esse conteúdo seja exclusivo do nosso site, o Google provavelmente não acredita que o testemunho de uma única frase seja uma página indexável.

Mais uma vez, o Google tomou a decisão executiva de excluir a página do índice devido à falta de qualidade.

Solução: adicione mais conteúdo ou ajuste os sinais de indexação.

Os próximos passos dependerão da importância de indexar essas páginas.

Se você acha que a página deve definitivamente ser incluída no índice, considere adicionar conteúdo adicional. Isso ajudará o Google a ver a página como uma melhor experiência do usuário.

Se a indexação for desnecessária para o conteúdo que você está encontrando, a pergunta mais importante é se você deve ou não tomar medidas adicionais para indicar claramente que esse conteúdo não deveria ser indexado O relatório "Rastreado, atualmente não indexado" indica que o conteúdo está qualificado para aparecer no índice do Google, mas o Google decide não incluí-lo.

Também pode haver outras páginas de baixa qualidade às quais o Google não está aplicando essa lógica. Você pode executar uma pesquisa geral do "site:" para encontrar conteúdo indexado que atenda aos mesmos critérios dos exemplos anteriores. Se você descobrir que um grande número dessas páginas aparece no índice, convém considerar iniciativas mais fortes para garantir que essas páginas sejam removidas do índice, como uma tag "noindex", um erro 404 ou removê-las da estrutura de links internos. completamente.

7. Conteúdo duplicado

Prioridade: alta

Ao avaliar essa exclusão em um grande número de clientes, essa é a maior prioridade que vimos. Se o Google vir seu conteúdo como duplicado, você poderá acompanhar o conteúdo, mas optar por não incluí-lo no índice. Essa é uma das maneiras pelas quais o Google evita a duplicação do SERP. Ao remover o conteúdo duplicado do índice, o Google garante que os usuários tenham uma variedade maior de páginas exclusivas para interagir. Às vezes, o relatório marcará esses URLs com o status "Duplicar" ("Duplicar, o Google escolheu um canônico diferente para o usuário"). No entanto, esse nem sempre é o caso.

Esse é um problema de alta prioridade, especialmente em muitos sites de comércio eletrônico. As páginas principais, como as páginas de descrição do produto, geralmente incluem descrições de produtos iguais ou semelhantes a muitos outros resultados na Web. Se o Google as reconhecer como muito semelhantes a outras páginas interna ou externamente, poderá excluí-las completamente do índice.

Solução: adicione elementos exclusivos para duplicar o conteúdo.

Se você acha que essa situação se aplica ao seu site, é assim que você prova:

  1. Pegue um fragmento do possível texto duplicado e cole-o no Google.
  2. No URL da SERP, adicione a seguinte string no final: "& num = 100". Isso mostrará os 100 melhores resultados.
  3. Use a função "Pesquisar" do seu navegador para ver se o seu resultado aparece nos 100 principais resultados. Caso contrário, seu resultado poderá ser filtrado para fora do índice.
  4. Retorne ao URL SERP e adicione a seguinte string no final: "& filter = 0". Isso deve mostrar o resultado não filtrado do Google (obrigado, Patrick Stox, pelo conselho).
  5. Use a função "Pesquisar" para pesquisar seu URL. Se a sua página aparecer agora, é uma boa indicação de que seu conteúdo está vazando do índice.
  6. Repita esse processo para alguns URLs com conteúdo duplicado em potencial ou muito semelhante ao que você está vendo no relatório "Rastreado – atualmente não indexado".

Se você vir constantemente que seus URLs são filtrados do índice, siga as etapas para tornar seu conteúdo mais exclusivo.

Embora não haja um padrão de tamanho único para isso, aqui estão algumas opções:

  1. Reescreva o conteúdo para ser mais exclusivo em páginas de alta prioridade.
  2. Use propriedades dinâmicas para injetar automaticamente conteúdo exclusivo na página.
  3. Elimine grandes quantidades de conteúdo repetitivo desnecessário. Páginas com mais texto de modelo que texto único podem ser lidas como duplicadas.
  4. Se o seu site depende de conteúdo gerado pelo usuário, informe os contribuintes que todo o conteúdo fornecido deve ser exclusivo. Isso pode ajudar a evitar casos em que os contribuintes usam o mesmo conteúdo em várias páginas ou domínios.

8. Conteúdo privado

Prioridade: alta

Há alguns casos em que os rastreadores do Google obtêm acesso ao conteúdo ao qual não devem ter acesso. Se o Google estiver encontrando ambientes de desenvolvimento, você poderá incluir esses URLs neste relatório. Até vimos exemplos de o Google rastreando um subdomínio de um cliente específico configurado para tickets do JIRA. Isso causou um rastreamento explosivo do site, focado em URLs que nunca deveriam ser considerados para indexação.

O problema aqui é que o rastreamento do site do Google não está focado e está perdendo tempo rastreando (e potencialmente indexando) URLs que não são destinados a mecanismos de pesquisa. Isso pode ter implicações enormes para o orçamento de rastreamento de um site.

Solução: ajuste suas iniciativas de rastreamento e indexação.

Esta solução dependerá inteiramente da situação e do que o Google pode acessar. Geralmente, a primeira coisa que você deve fazer é determinar como o Google pode descobrir esses URLs particulares, principalmente se for por meio de sua estrutura de links internos.

Inicie um rastreamento na página inicial do seu subdomínio principal e veja se o Screaming Frog pode acessar qualquer subdomínio indesejado por meio de um rastreamento padrão. Nesse caso, é seguro dizer que o Googlebot pode estar encontrando exatamente as mesmas rotas. Você deve remover links internos para este conteúdo para cortar o acesso ao Google.

A próxima etapa é verificar o status de indexação dos URLs que devem ser excluídos. O Google os mantém suficientemente fora do índice ou alguns ficaram presos no índice? Se o Google não estiver indexando uma grande quantidade desse conteúdo, considere ajustar seu arquivo robots.txt para bloquear o rastreamento imediatamente. Caso contrário, as tags "noindex", as páginas canônicas e protegidas por senha estão na tabela.

Estudo de caso: duplicado conteúdo gerado pelo usuário

Para um exemplo do mundo real, essa é uma instância em que diagnosticamos o problema no site de um cliente. Esse cliente é semelhante a um site de comércio eletrônico, pois grande parte do seu conteúdo é composto de páginas de descrição do produto. No entanto, essas páginas de descrição do produto são todos conteúdo gerado pelo usuário.

Essencialmente, terceiros podem criar listagens neste site. No entanto, terceiros geralmente adicionam descrições muito curtas às suas páginas, resultando em conteúdo ruim. O problema que ocorreu com frequência foi que essas páginas de descrição do produto geradas pelos usuários foram interceptadas no relatório "Rastreado – atualmente não indexado". Isso resultou em uma oportunidade perdida de SEO, pois as páginas capazes de gerar tráfego orgânico foram completamente excluídas do índice.

Ao passar pelo processo anterior, descobrimos que as páginas de descrição do produto do cliente eram muito pequenas em termos de conteúdo exclusivo. As páginas que estavam sendo excluídas pareciam ter apenas um parágrafo ou menos de texto exclusivo. Além disso, a maior parte do conteúdo da página era de texto com modelos existentes em todos esses tipos de páginas. Como havia muito pouco conteúdo exclusivo na página, o conteúdo do modelo poderia ter levado o Google a visualizar essas páginas como duplicadas. O resultado foi que o Google excluiu essas páginas do índice, citando o status "Rastreado – atualmente não indexado".

Para resolver esses problemas, trabalhamos com o cliente para determinar qual conteúdo de modelo não era necessário para existir em cada página de descrição do produto. Conseguimos remover conteúdo desnecessário de milhares de modelos de URL. Isso resultou em uma diminuição significativa nas páginas "rastreadas – atualmente não indexadas", pois o Google começou a ver cada página como mais exclusiva.

Conclusão

Felizmente, isso ajudará os profissionais de marketing de busca a entender melhor o misterioso status "Rastreado – atualmente não indexado" no relatório Cobertura do índice. É claro que há muitas outras razões pelas quais o Google escolheria categorizar URLs como este, mas esses são os casos mais comuns que vimos com nossos clientes até o momento.

Em geral, o relatório de cobertura do índice é uma das ferramentas mais poderosas no Search Console. Eu recomendo que os especialistas em marketing de pesquisa se familiarizem com dados e relatórios, pois geralmente encontramos comportamentos abaixo do ideal de rastreamento e indexação, especialmente em sites maiores. Se você viu outros exemplos de URLs no relatório "Rastreado – atualmente não indexado", informe-me nos comentários!



Fonte da Matéria

Artigos relacionados

Um Comentário

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo