WordPress robot.txt voor Google

Mijn website wordt te goed geïndexeerd Google geeft allemaal resultaten weer van mijn wordpress website waar helemaal geen content staat alleen een directory met files die helemaal niet interessant zijn voor de wereld.

Google houdt niet van dubbele content op websites (Duplicate Content Penalty), het is dus aan te bevelen om de Google Crawler ook wel spider genoemd in te perken zodat je geen dubbele content aanbied. WordPress biedt immers vele manieren om bij de content van je site te komen.

Tijd om Google dus beter te configureren middels robot.txt

Een robot.txt is een bestandje dat aangeeft waar een zoekrobot wel of niet moet kijken in je site. Het kan bijvoorbeeld zijn dat je bepaalde pagina’s of mappen niet wilt indexeren. Dat kan je met een robot.txt aangeven. Meer hierover kun je lezen op robotstxt.org. We gaan dus een aantal URL en URL directory’s definiëren waar Google wel en niet mag komen middels de robot.txt

Eerst even een korte uitleg:

Definitie Betekenis
User-agent: *
Disallow:
Het * teken achter de user agent field houdt in dat alle zoekmachines aan de definitie daarna moeten voldoen. Gezien het feit dat er bij disallow niets staat heeft als gevolg dat alle zoekmachines de gehele site mogen indexeren.
User-agent: spider_a
Disallow: /
In dit voorbeeld mag “spider_a” de site niet indexeren en de overige spiders mogen alles zien. Overigens is een lege regel een teken voor een ‘nieuw record’ (of te wel een nieuwe definitie

Tijd om dus even mijn robot.txt te optimaliseren, deze file kun je vinden in de root van je WordPress installatie, als je WordPress installatie in een subdirectory staat moet je de robot.txt plaatsen in de root. Indien je website er als volgt uitziet /home/user/www/mijnwebsite/wordpress zorg dan altijd dat robot.tx.t in mijnwebsite staat. Bij het open van mijn standard file ziet hij er als volgt uit:

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://blog.maripositas.org/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN

We gaan dat als volgt optimaliseren:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: /category/*/*

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Allow: /wp-content/uploads# Google Image

User-agent: Googlebot-Image

Disallow:

Allow: /*

# Google AdSense

User-agent: Mediapartners-Google*

Disallow:

Allow: /*

# Internet Archiver Wayback Machine

User-agent: ia_archiver

Disallow: /

# digg mirror

User-agent: duggmirror

Disallow: /

# Sitemap

Sitemap: http://blog.maripositas.org/sitemap.xml

Met dank aan

Wil je je robot.txt testen bij google ga dan naar Google webmasters, het is verplicht om een account te hebben. Google Webmasters

We hebben nu de robot.txt geoptimaliseerd en na een tijdje zullen de links die naar geen content verwijzen, verwijdert zijn uit de listing van Google.

 

Featured image thanks to Ognian Mladenov