Eine robots.txt ist eine Textdatei im Root-Verzeichnis der Website, die Suchmaschinen Anweisungen gibt, welche Seiten einer Website sie crawlen dürfen und welche nicht.
Sie ist ein wichtiger Bestandteil der technischen SEO und hilft dabei, unnötige oder sensible Seiten wie Login-Bereiche, interne Suchseiten oder Testumgebungen vom Crawling auszuschließen.
In diesem Beitrag gehen wir mehr auf die robots.txt ein, erklären, wie man sie erstellen kann und wie man sie einreicht, sodass Suchmaschinen sie finden können.
Was genau ist eine robots.txt Datei?
Eine robots.txt Datei ist eine simple Datei, die Crawlern & Bots erlaubt oder verbietet, bestimmte Bereiche der Website sie durchforsten (crawlen) und indexieren dürfen, sodass sie in den Suchergebnissen erscheinen.
Außerdem wird oft die XML-Sitemap in der Datei in der Zeile “Sitemap:” verlinkt, um für eine bessere Crawlability Indexierung zu sorgen.
In den meisten Fällen sieht die robots.txt so aus:
User-agent: *
Disallow:
Das heißt: Alle Suchmaschinen können die gesamte Website crawlen & indexieren.
Das * steht in der Zeile “User-agent:” für alle Suchmaschinen und da unter “Disallow:” nichts verboten wurde, wird die ganze Website gecrawlt.
Disallow
Wenn Sie das nicht möchten, können Sie in der Zeile “Disallow:” genaue Angaben machen, welche Bereiche der Website versteckt bleiben sollen.
Möchten Sie z.B. bestimmten Pfad blockieren (z.B. meinedomain.com/blog/ und dessen Unterseiten), dann sollte Ihre robots.txt so aussehen:
User-agent: *
Disallow: /blog/
Und, wenn Sie einzelne Seiten blockieren möchten, geben Sie einfach den kompletten Pfad der URL ein und fügen Sie .html am Ende des Pfades ein, sodass nur diese Page und nicht alle Unterseiten der Page blockiert werden.
Das würde dann so aussehen:
User-agent: *
Disallow: /blog.html
Alllow
Um einzelne Seiten (obwohl Sie von “Disallow:” betroffen sind) trotzdem zu entsperren, kann man diese unter “Allow:” wieder freigeben.
User-agent: *
Disallow: /blog/
Allow: /blog/seo/
Allow: /blog/shopware/was-ist-shopware.html
In diesem Fall wurde der ganze Blog für Suchmaschinen gesperrt, jedoch haben wir die Kategorie “SEO” und einen bestimmten Blogartikel aus der Kategorie “Shopware” entsperrt.
“Allow:” ermöglicht es Ihnen, einzelne Seiten zu entsperren, statt jede einzelne Page, die Sie sperren möchten, händisch unter “Disallow:” eingeben zu müssen.
User-agent:
Zuletzt gehen wir noch darauf ein, wie man mithilfe der Zeile “User-agent:” auch auf spezifische Bots eingeht und diesen den Zugang zu bestimmten Bereichen verbietet.
User-agent: Googlebot
Disallow: /
Beispielsweise könnte man durch diesen Ausdruck Google verbieten, die Website zu durchforsten und in den Suchergebnissen anzuzeigen.
Die Website wäre so nur noch auf anderen Suchmaschinen auffindbar.
Hier ist eine Tabelle der wichtigsten Crawler, dessen Bezeichnungen und dessen Zweck:
| User-Agent | Betreiber | Zweck / Bereich | Hinweise |
|---|---|---|---|
| * | Alle | Wildcard für alle Crawler | Als Fallback-Regel nutzen |
| Googlebot | Websuche (Desktop & Mobile) | Meist reicht dieses Token für Google | |
| Googlebot-Image | Google Bilder | Bilder-Crawling separat steuerbar | |
| Googlebot-Video | Video-Crawling | Für Video-Ressourcen nützlich | |
| Bingbot | Microsoft | Bing Websuche | Wichtig für Bing & Co-Suchnetzwerk |
| DuckDuckBot | DuckDuckGo | DuckDuckGo Crawler | Respektiert gängige robots.txt-Regeln |
| Slurp | Yahoo | Yahoo Crawler | Geringere Relevanz (nutzt Bing-Ergebnisse) |
| Yandex | Yandex | Websuche (Russland) | Nur relevant, wenn Zielmarkt passend |
| Baiduspider | Baidu | Websuche (China) | Oft durch Geoblocking/China-Markt eingeschränkt |
| Applebot | Apple | Siri/Spotlight/Web Preview | Für Rich Previews auf Apple-Geräten |
| facebookexternalhit | Meta (Facebook) | Share-/Link-Vorschau | Steuert Open-Graph-Abrufe |
| Twitterbot | X (Twitter) | Link-/Card-Vorschau | Für Social Previews wichtig |
| LinkedInBot | Link-Vorschau | Für B2B-Sharing relevant | |
| AhrefsBot | Ahrefs | SEO-/Backlink-Crawler | Kann per robots.txt oder IP-Block beschränkt werden |
| SemrushBot | Semrush | SEO-/Backlink-Crawler | Bei Bedarf drosseln/blocken |
| MJ12bot | Majestic | SEO-/Linkindex-Crawler | Bei hoher Crawl-Last regulieren |
| DotBot | Moz | SEO-/Linkdaten-Crawler | Optional einschränkbar |
Robots.txt erstellen: So geht’s
Wenn Sie allen Bots Zugriff auf Ihre gesamte Website geben möchten, brauchen Sie keine robots.txt.
Möchten Sie jedoch einige Bots oder Seiten sperren, dann müssen Sie eine robots.txt erstellen.
Das Gute ist: Sie ist sehr einfach zu erstellen.
Methode 1: SEO-Plugin
Nutzen Sie ein CMS, das Plugins unterstützt (wie z.B. WordPress, TYPO3, Shopware, …), dann können SEO-Plugins für Sie die Arbeit übernehmen.
Diese laden die Datei auch automatisch ins Root-Verzeichnis der Website – einfacher geht es nicht!
Wichtig: Sie müssen trotzdem angeben, welche Bots/Pfade Sie verbieten möchten, da das Plugin sonst eine Standard-Datei erstellt.
Methode 2: Online-Generator
Die einfachste Methode ist es, einen Online-Generator zu nutzen.
Machen Sie dort einfach Ihre gewünschten Angaben und der Generator spuckt Ihnen eine fertige robots.txt Datei aus, die Sie nur noch in das Root-Verzeichnis hochladen müssen!
Methode 3: Manuell erstellen
Da die robots.txt, wie man im Namen bereits erkennt, einfach eine simple Textdatei ist, können Sie diese auch sehr einfach selbst erstellen und im Root-Verzeichnis der Website hochladen.
Wichtig: Achten Sie darauf, dass Sie die Datei im UTF-8 Format speichern und der Dateiname robots.txt ist, da es ansonsten nicht funktioniert.


