Google ondersteunt niet langer de robots.txt-richtlijn met betrekking tot indexering. Dit betekent dat Google uw webpagina ('s) toch gaat indexeren ook al heeft u de robots.txt noindex-richtlijn toegevoegd om pagina's uit de SERP's te verwijderen. U had tot 1 september de tijd om het te verwijderen en een andere methode te gebruiken.
Wat is een noindex-robots.txt? Het is een tag (meestal HTML) in uw robots.txt-bestand die voorkomt dat zoekmachines uw pagina in de SERP's opnemen.
Waarom ondersteunt Google dit niet meer? Omdat de noindex-robots.txt-richtlijn geen officiële richtlijn is aldus Google.
Google bied wel enkele alternatieven voor webmasters en ontwikkelaars die afhankelijk zijn van de noindex-code. Het bedrijf suggereert bijvoorbeeld dat het opnemen van noindex in de robots-metatags een alternatieve oplossing zou kunnen zijn. Google beschrijft deze noindex-richtlijn die wordt ondersteund in HTTP-response headers en HTML als "de meest effectieve manier om URL's uit de index te verwijderen wanneer crawlen is toegestaan."
Het bedrijf suggereert ook dat webmasters 404 en 410 HTTP-statuscodes kunnen gebruiken, die beide betekenen dat de pagina niet bestaat. Hiermee worden deze URL's uit de index van Google verwijderd nadat ze gecrawld en verwerkt zijn. Google zegt ook dat het plaatsen van een pagina achter een login ook een manier is om deze uit de index te verwijderen, tenzij markup is opgenomen om het aan te duiden als content van een abonnement.
Het bedrijf stelde ook voor om disallow te gebruiken in robots.txt. Zoekmachines kunnen pagina's die ze niet kennen niet indexeren, dus in de meeste gevallen betekent het blokkeren van de pagina niet dat de content niet wordt geïndexeerd. Een andere suggestie is om het hulpprogramma Search Console URL verwijderen van Google te gebruiken, waarmee content tijdelijk uit de index van het bedrijf wordt verwijderd.
Google somt de volgende opties op, die u waarschijnlijk moet gaan gebruiken:
Meta-tag 'NoIndex' gebruiken om zoekindexering te blokkeren. Als u er zeker van wilt zijn dat de crawlers van zoekmachines uw pagina echt niet kunnen indexeren, kunnen de ontwikkelaars de 'noindex'-metatag gebruiken. Onderstaande metatag kunt u laten toevoegen aan de
sectie van uw webpagina. < meta name = "robots" content = "noindex" >Door gebruik te maken van deze codes laat u Google weten dat de bijbehorende pagina niet bestaat.
Dit helpt bij het verwijderen van deze URL's uit de index van Google wanneer ze worden gecrawld en verwerkt.
Een van de belangrijkste statuscodes waar mensen rekening mee moeten houden, is een 404 en deze wordt geretourneerd wanneer er een bepaalde doelbron is die niet meer beschikbaar of aanwezig is op de server.
410 is de statuscode die wordt geretourneerd wanneer de doelbron niet langer beschikbaar is op de server.
Zoals de HTTP-status u zal melden, wordt de 410 error response gebruikt om ervoor te zorgen dat u over de juiste informatie beschikt en het meldt de verschillende ontvangers over de onbeschikbaarheid van de verschillende bronnen die mogelijk vereist zijn door de server. Het is dus belangrijk dat u deze gebruikt.
Een andere optie die u kunt gebruiken, is de 404 code en die in feite een beetje vergelijkbaar is met de 410-statuscode.
Een ander alternatief voor Robots.txt Noindex is het gebruik van de Search Console URL-tool verwijderen.
Door deze tool te gebruiken, kunt u de URL verwijderen uit de zoekresultaten van Google.
Met behulp van URL-tools verwijderen kunt u pagina’s 90 dagen blokkeren.
U kunt kiezen voor dit alternatief om Google te vragen de indexering van een specifieke pagina niet toe te staan.
Dit geeft Google input om die specifieke pagina niet te crawlen.
Op deze manier wordt de content van die pagina niet geïndexeerd.
Wanneer u een pagina achter een login verbergt, kan dit een goede en effectieve techniek zijn om die pagina uit de index van Google te verwijderen.
Op deze manier kan wachtwoordbeveiliging ook een effectief alternatief zijn voor de NoIndex-richtlijn van Robots.txt.