Die Robots.txt wird oft leider missverstanden und daher auch häufig nicht optimal eingesetzt. Grundlegend ist es möglich, mithilfe der robots.txt Datei die Crawler/Bots der Suchmaschinen bei der Bewegung auf der Website einzuschränken. Diese doch sehr rudimentäre Optimierungs-Möglichkeit wird oft falsch eingesetzt. Wichtig ist es zu verstehen, dass man nur das Crawling einer Seite bzw. eines Verzeichnisses mit der robots.txt ausschließt, aber nicht die Indexierung. Dies bedeutet, dass Seiten die per robots.txt gesperrt sind, zwar nicht gecrawlt werden können, jedoch aber in den Suchmaschinen-Ergebnisseiten zu finden sein können. Das robots.txt-File sollte immer auf der obersten Verzeichnisebene zu finden sein, sowohl “disallow” als auch “allow”-Angaben sind möglich und Groß- und Kleinschreibung spielt eine Rolle. Möchte man die Indexierung von Seiten vermeiden, empfiehlt es sich im Regelfall meist auf die Meta-Robots-Angabe noindex zu setzen und nicht auf das Ausschließen über die robots.txt. Als weiteres empfiehlt es sich, den Pfad zur sitemap.xml in der robots.txt anzugeben. Zusätzlich kann man über eine bestimmte Syntax auch speziellen Bots (Spam-Bots) ausschließen bzw. auch Ordner & Dateien freigeben.