
Indiziert trotz Blockierung der robots.txt-Datei: Warum und was tun?
In diesem Artikel werde ich ein Thema behandeln, das meiner Meinung nach viele Websitebesitzer beunruhigt: Warum eine Seite so sein könnte trotz einer Blockierung in der robots.txt-Datei indiziert ? Möglicherweise ist Ihnen aufgefallen, dass einige Seiten Ihrer Website bei Google angezeigt werden, obwohl Sie Bots ausdrücklich gebeten haben, sie nicht zu crawlen. Keine Panik, ich erkläre Ihnen die möglichen Gründe für dieses Phänomen und vor allem, wie Sie es beheben können.
Was ist eine robots.txt-Datei und wofür wird sie verwendet?
Bevor ich zum Kern der Sache komme, möchte ich Sie daran erinnern, um welche Datei es sich handelt robots.txt. Es handelt sich um eine Textdatei, die Sie im Stammverzeichnis Ihrer Website platzieren und die Ihnen dies ermöglicht Kontrollieren Sie den Suchmaschinenzugriff auf bestimmte Teile Ihrer Website. Beispielsweise können Sie Bots das Crawlen bestimmter Seiten verbieten, aber es ist wichtig, dies zu verstehen garantiert keinen Ausschluss von der Indexierung dieser Seiten.
Nehmen wir an, Sie haben eine robots.txt-Datei wie diese:
In diesem Fall bitten Sie Google und andere Suchmaschinen, die Seite nicht zu crawlen /admin/Dies bedeutet jedoch nicht unbedingt, dass diese Seite nicht indiziert wird, wenn andere Bedingungen erfüllt sind.
Warum kann Ihre Seite trotz Sperrung indexiert werden?
Sie fragen sich wahrscheinlich, warum eine Seite Ihrer Website weiterhin in den Suchergebnissen erscheint, obwohl Sie Google ausdrücklich darum gebeten haben blockieren über die robots.txt-Datei. Dafür gibt es mehrere Gründe, auf die ich im Folgenden näher eingehen werde.
Suchmaschinen können weiterhin indexieren, ohne zu crawlen
Die robots.txt-Datei soll verhindern, dass eine Seite gecrawlt wird verhindert nicht die Indizierung. Google kann eine Seite dennoch indizieren, wenn dies der Fall ist über einen Backlink verwiesen wird. Mit anderen Worten: Selbst wenn Sie das Crawlen der Seite blockieren, kann Google diese zu seinem Index hinzufügen, wenn eine andere Website einen Link zu dieser Seite sendet. Dies ist ein wichtiges Detail, da Sie sich zur Steuerung der Indizierung nicht ausschließlich auf die robots.txt-Konfiguration verlassen sollten.
Das Vorhandensein von „noindex“-Tags
Wenn Sie eine Seite über die robots.txt-Datei blockieren, diese Seite jedoch eine enthält „noindex“-Tag In seinem HTML-Code sagen Sie Google dazu Indexieren Sie es nichtauch wenn der Roboter es erkunden kann. Wenn Sie dieses Tag jedoch nicht eingerichtet haben, wird Ihre Seite möglicherweise auch nach dem Crawlen weiterhin indiziert, was zu Verwirrung führen kann.
Hier ist ein Beispiel für ein „noindex“-Tag:
Externe Links können die robots.txt-Datei umgehen, denn eine Google Sandbox unterscheidet sich von einer Strafe und kann auch ohne Blockierung aktiv sein.
Wie oben erwähnt, die externe Backlinks kann es Google ermöglichen, eine durch robots.txt blockierte Seite zu indizieren. Sofern andere Seiten auf die betreffende Seite verweisen, Google kann es entdecken und indizieren direkt über diese Links, auch ohne die Seite selbst erkundet zu haben.
Überprüfen Sie daher unbedingt die Seiten, die auf Ihre Website verweisen. Manchmal können Links von externen Websites Ihre Bemühungen zur Indexierungskontrolle umgehen.
Indizierung über JavaScript-Dateien oder andere Technologien
Google hat große Fortschritte bei der Indexierung dynamischer Inhalte gemacht, insbesondere durch JavaScript. Wenn bestimmte Seiten Ihrer Website in JavaScript erstellt sind, ist es möglich, dass Google dies kann Index auf andere Weiseauch wenn sie in der robots.txt-Datei blockiert sind. Der Bot von Google kann JavaScript ausführen, dynamische Inhalte crawlen und zum Index hinzufügen, auch ohne direktes Crawlen.
Was kann ich tun, um die Indizierung zu verhindern, obwohl robots.txt blockiert ist?
Es gibt mehrere Lösungen, um dieses Problem zu lösen und Verhindern Sie die Indizierung blockierter Seiten von robots.txt. Sehen wir uns diese Lösungen an.
1. Fügen Sie ein „noindex“-Tag hinzu
Eines der ersten Dinge, die Sie tun müssen, ist das Hinzufügen „noindex“-Tag auf Seiten, die nicht in den Suchergebnissen erscheinen sollen. Sie fügen es direkt in den HTML-Code der Seite ein.
Dies ist eine effektive Methode, da sie Google Folgendes mitteilt: „Selbst wenn Sie diese Seite crawlen, indizieren Sie sie nicht.“
2. Verwenden Sie „X-Robots-Tag“-HTTP-Header
Wenn es sich bei der Seite um eine andere Datei als eine HTML-Datei handelt (z. B. eine PDF-Datei, ein Bild oder ein Video), können Sie die verwenden „X-Robots-Tag“ HTTP-Header um Google anzuweisen, die Seite nicht zu indizieren.
Bei einer PDF-Datei verhindert beispielsweise der folgende HTTP-Header die Indizierung:
3. Unerwünschte Backlinks ablehnen
Wenn Ihre Seite mit indiziert ist externe Backlinkskönnen Sie versuchen, diese Links zu entfernen oder verleugnen über das Google Search Console-Tool. Dadurch wird verhindert, dass Google diesen Links folgt und die Seite zu seinem Index hinzufügt.
4. Um dieses Problem zu vermeiden, ist es wichtig, Ihre internen Links zu überprüfen und sicherzustellen, dass sie nicht auf Seiten verweisen, die privat sein sollten.
Wenn Sie Seiten durch robots.txt blockiert haben, stellen Sie sicher, dass Sie nicht über Ihre internen Links auf diese Seiten verweisen. Ein interner Link kann Google dazu ermutigen, eine blockierte Seite zu crawlen und zu indizieren. Vermeiden Sie daher die Verlinkung auf Seiten, die nicht indexiert werden sollten.
5. Verwenden Sie zum Entfernen die Google Search Console
Wenn eine Seite trotz Ihrer Bemühungen, sie zu blockieren, bereits indiziert wurde, können Sie sie verwenden Google Search Console eine Löschung des Index zu beantragen. Dies ist ein Vorgang, der etwas Zeit in Anspruch nehmen kann, aber eine sichere Möglichkeit ist, das Problem schnell zu lösen.
Wie kann man solche Probleme in Zukunft vermeiden?
Um zu verhindern, dass eine solche Situation erneut auftritt, finden Sie hier einige bewährte Vorgehensweisen:
Überprüfen Sie regelmäßig Ihre robots.txt-Dateien und stellen Sie sicher, dass sie richtig konfiguriert sind. Führen Sie regelmäßige Audits Ihrer Website durch.
Nutzen Sie SEO-Tools wie Google Search Console, Ahrefs oder Screaming Frog, um die Indexierung Ihrer Seiten zu überprüfen.
Überprüfen Sie Ihre Backlinks und Ihre interne NetzwerkstrategieStellen Sie sicher, dass Sie nicht auf vertrauliche Seiten verlinken, die nicht indiziert werden sollten.
Als Expertin für natürliche Referenzierung (SEO) optimiere ich seit mehr als 17 Jahren E-Commerce-Websites für Suchmaschinen. Ich helfe Unternehmen dabei, ihre Sichtbarkeit bei Google auszubauen, um ihren Online-Umsatz zu steigern. Meine Mission ist es, Unternehmen dabei zu helfen, in den Suchergebnissen ganz oben zu landen und durch effektive und ethische SEO-Strategien eine Zielgruppe anzulocken.



