Mijn website wordt te goed geïndexeerd Google geeft allemaal resultaten weer van mijn wordpress website waar helemaal geen content staat alleen een directory met files die helemaal niet interessant zijn voor de wereld.
Google houdt niet van dubbele content op websites (Duplicate Content Penalty), het is dus aan te bevelen om de Google Crawler ook wel spider genoemd in te perken zodat je geen dubbele content aanbied. WordPress biedt immers vele manieren om bij de content van je site te komen.
Tijd om Google dus beter te configureren middels robot.txt
Een robot.txt is een bestandje dat aangeeft waar een zoekrobot wel of niet moet kijken in je site. Het kan bijvoorbeeld zijn dat je bepaalde pagina’s of mappen niet wilt indexeren. Dat kan je met een robot.txt aangeven. Meer hierover kun je lezen op robotstxt.org. We gaan dus een aantal URL en URL directory’s definiëren waar Google wel en niet mag komen middels de robot.txt
Eerst even een korte uitleg:
| Definitie |
Betekenis |
User-agent: *
Disallow: |
Het * teken achter de user agent field houdt in dat alle zoekmachines aan de definitie daarna moeten voldoen. Gezien het feit dat er bij disallow niets staat heeft als gevolg dat alle zoekmachines de gehele site mogen indexeren. |
User-agent: spider_a
Disallow: / |
In dit voorbeeld mag “spider_a” de site niet indexeren en de overige spiders mogen alles zien. Overigens is een lege regel een teken voor een ‘nieuw record’ (of te wel een nieuwe definitie |
Tijd om dus even mijn robot.txt te optimaliseren, deze file kun je vinden in de root van je WordPress installatie, als je WordPress installatie in een subdirectory staat moet je de robot.txt plaatsen in de root. Indien je website er als volgt uitziet /home/user/www/mijnwebsite/wordpress zorg dan altijd dat robot.tx.t in mijnwebsite staat. Bij het open van mijn standard file ziet hij er als volgt uit:
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://blog.maripositas.org/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN
We gaan dat als volgt optimaliseren:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# Sitemap
Sitemap: http://blog.maripositas.org/sitemap.xml
Met dank aan
Wil je je robot.txt testen bij google ga dan naar Google webmasters, het is verplicht om een account te hebben. 
We hebben nu de robot.txt geoptimaliseerd en na een tijdje zullen de links die naar geen content verwijzen, verwijdert zijn uit de listing van Google.