93 318 54 36

Robots.txt für SEO: Ihr vollständiger Leitfaden

28/01/2022
Elizabeth De Leon

Was ist robots.txt und warum ist es wichtig für die Suchmaschinenoptimierung (SEO)? Robots.txt ist eine Reihe optionaler Anweisungen, die Webcrawlern mitteilen, auf welche Teile Ihrer Website sie zugreifen können. Die meisten Suchmaschinen, einschließlich Google, Bing, Yahoo und Yandex, unterstützen und verwenden Bot-Text, um zu ermitteln, welche Webseiten gecrawlt, indexiert und in den Suchergebnissen angezeigt werden sollen.

Wenn Sie Probleme haben, Suchmaschinen dazu zu bringen, Ihre Website zu indexieren, könnte Ihre robots.txt-Datei das Problem sein. Robot.txt-Fehler gehören zu den häufigsten SEO-Fehlern, die in SEO-Auditberichten auftauchen und einen massiven Rückgang der Suchrankings verursachen. Auch technische SEO-Dienstleister und Webentwickler sind anfällig für robot.txt-Fehler.

Daher ist es wichtig, dass Sie zwei Dinge verstehen: 1) was robots.txt ist und 2) wie man robots.txt in WordPress und anderen Content-Management-Systemen (CMS) verwendet. Dies hilft Ihnen beim Erstellen einer robots.txt-Datei, die für SEO optimiert ist, und erleichtert es Webspidern, Ihre Webseiten zu durchsuchen und zu indizieren.

Lassen Sie uns in die Grundlagen von robots.txt eintauchen. Lesen Sie weiter und finden Sie heraus, wie Sie die robots.txt-Datei nutzen können, um die Crawlbarkeit und Indexierbarkeit Ihrer Website zu verbessern.

Was ist Robots.txt?

Robots txt, auch bekannt als Robots Exclusion Standard oder Protocol, ist eine Textdatei, die sich im Stamm- oder Hauptverzeichnis Ihrer Website befindet. Es dient als Anweisung für SEO-Spider, welche Teile Ihrer Website sie crawlen können und welche nicht.

Robots.Text-Zeitleiste

Die Robot-TXT-Datei ist ein Standard, der vom Schöpfer von Allweb, Martijn Koster, vorgeschlagen wurde, um zu regulieren, wie verschiedene Suchmaschinen-Roboter und Web-Crawler auf Webinhalte zugreifen. Hier ein Überblick über die Entwicklung der robots txt-Datei über die Jahre:

1994 erstellte Koster einen Webspider, der böswillige Angriffe auf seine Server verursachte. Um Websites vor schlechten SEO-Crawlern zu schützen, hat Koster robot.text entwickelt, um Suchroboter auf die richtigen Seiten zu leiten und zu verhindern, dass sie bestimmte Bereiche einer Website erreichen.

1997 wurde ein Internet-Entwurf erstellt, um Steuerungsmethoden für Webroboter unter Verwendung einer Roboter-TXT-Datei zu spezifizieren. Seitdem wird robot.txt verwendet, um einen Spider-Roboter einzuschränken oder zu trichtern, um Teile einer Website auszuwählen.

Am 1. Juli 2019 gab Google bekannt, dass es daran arbeitet, die Spezifikationen des Robot Exclusion Protocol (REP) zu formalisieren und zu einem Webstandard zu machen, 25 Jahre nachdem die Robots-TXT-Datei erstellt und von Suchmaschinen übernommen wurde.

Das Ziel bestand darin, nicht spezifizierte Szenarien für das Analysieren und Vergleichen von TXT-Robots detailliert darzustellen, um sie an moderne Webstandards anzupassen. Dieser Internet-Entwurf weist darauf hin, dass:

1.  Jedes Übertragungsprotokoll, das auf einem Uniform Resource Identifier (URI) basiert, wie HTTP , Restricted Application Protocol (CoAP) und File Transfer Protocol (FTP), kann robots txt verwenden.
2.  Webentwickler sollten mindestens die ersten 500 Kibibyte einer robot.text-Datei parsen, um Server unnötig zu entlasten.
3.  Robots.txt-SEO-Inhalte werden normalerweise bis zu 24 Stunden zwischengespeichert, um Website-Eigentümern und Entwicklern genügend Zeit zu geben, ihre Robots-TXT-Datei zu aktualisieren.
4.  Unzulässige Seiten werden für einen angemessen langen Zeitraum nicht gecrawlt, wenn auf eine Robots-TXT-Datei aufgrund von Serverproblemen nicht mehr zugegriffen werden kann.

Im Laufe der Zeit wurden in der Industrie verschiedene Anstrengungen unternommen, um Mechanismen zum Ausschluss von Robotern zu erweitern. Allerdings können nicht alle Webcrawler diese neuen Bottext-Protokolle unterstützen. Um klar zu verstehen, wie robots.text funktioniert, wollen wir zunächst den Webcrawler definieren und eine wichtige Frage beantworten: Wie funktionieren Webcrawler?

Was ist ein Webcrawler und wie funktioniert er?

Ein Website-Crawler, auch genannt Spinnenroboter , Website-Crawler o Suchbot , ist ein Internet-Roboter, der normalerweise von Suchmaschinen wie Google und Bing betrieben wird. Ein Webspider durchsucht das Web, um Webseiten zu analysieren und sicherzustellen, dass Benutzer Informationen jederzeit abrufen können, wenn sie sie benötigen.

Was sind Webcrawler und welche Rolle spielen sie im technischen SEO? Um den Web-Crawler zu definieren, ist es wichtig, dass Sie sich mit den verschiedenen Arten von Website-Crawlern im Web vertraut machen. Jeder Spiderbot hat einen anderen Zweck:

1. Suchmaschinen-Bots

Was ist eine Suchmaschinenspinne? Ein Spider-Suchmaschinen-Bot ist einer der häufigsten SEO-Crawler, die von Suchmaschinen zum Crawlen und Crawlen des Internets verwendet werden. Suchmaschinen-Bots verwenden die robots.txt-SEO-Protokolle, um Ihre Web-Crawling-Einstellungen zu verstehen. Kennen Sie die Antwort auf die Frage, was eine Suchmaschinenspinne ist? gibt Ihnen einen Vorsprung bei der Optimierung Ihrer robots.text-Datei und stellt sicher, dass sie funktioniert.

2. Kommerzielle Web-Spider

Ein kommerzieller Website-Crawler ist ein Tool, das von Softwarelösungsunternehmen entwickelt wurde, um Website-Eigentümern dabei zu helfen, Daten von ihren eigenen Plattformen oder öffentlichen Websites zu sammeln. Mehrere Unternehmen bieten Richtlinien zum Erstellen eines Webcrawlers für diesen Zweck an. Stellen Sie sicher, dass Sie mit einem kommerziellen Web-Crawling-Unternehmen zusammenarbeiten, das die Effizienz eines SEO-Crawlers maximiert, um Ihre spezifischen Anforderungen zu erfüllen.

3. Persönlicher Tracking-Roboter

Ein persönlicher Website-Crawler soll Unternehmen und Einzelpersonen dabei helfen, Daten aus Suchergebnissen zu sammeln und/oder die Leistung ihrer Website zu überwachen. Im Gegensatz zu einem Spider-Suchmaschinen-Bot hat ein persönlicher Crawler-Bot eine begrenzte Skalierbarkeit und Funktionalität. Wenn Sie neugierig sind, wie Sie einen Website-Crawler erstellen können, der bestimmte Aufgaben zur Unterstützung Ihrer technischen SEO-Bemühungen erledigt, sehen Sie sich eine der vielen Anleitungen im Internet an, die Ihnen zeigen, wie Sie einen Web-Crawler erstellen, der von Ihrem lokalen Gerät aus ausgeführt wird.

4. Desktop-Site-Tracker

Ein Desktop-Crawler-Bot wird lokal auf Ihrem Computer ausgeführt und ist nützlich, um kleine Websites zu scannen. Desktop-Site-Crawler werden jedoch nicht empfohlen, wenn Sie Zehn- oder Hunderttausende von Webseiten analysieren. Dies liegt daran, dass das Crawlen von Daten von großen Websites benutzerdefinierte Einstellungen oder Proxyserver erfordert, die ein Desktop-Crawler-Bot nicht unterstützt.

5. Copyright-Tracking-Bots

Ein urheberrechtlich geschützter Website-Crawler sucht nach Inhalten, die gegen das Urheberrecht verstoßen. Diese Art von Suchbot kann von jedem Unternehmen oder jeder Person betrieben werden, die urheberrechtlich geschütztes Material besitzt, unabhängig davon, ob sie wissen, wie man einen Webcrawler baut oder nicht.

6. Cloudbasierter Crawler-Roboter

Cloud-basierte Crawler-Bots werden als technisches Werkzeug von SEO-Diensten verwendet. Ein Cloud-basierter Crawler-Roboter, auch Software as a Service (SaaS) genannt, läuft auf jedem Gerät mit Internetverbindung. Diese Internet-Spider wird immer beliebter, da sie Websites jeder Größe durchsucht und keine mehreren Lizenzen für die Verwendung auf verschiedenen Geräten benötigt.

Warum es wichtig ist zu wissen: Was sind Webcrawler?

Such-Bots sind normalerweise so programmiert, dass sie nach robot.text suchen und seinen Anweisungen folgen. Einige Tracking-Bots, wie z. B. Crawler-Bots, Spam , E-Mail-Harvester und Malware-Bots , ignorieren oft das SEO-Protokoll robots.txt und haben nicht die besten Absichten, wenn sie auf die Inhalte Ihrer Website zugreifen.

Was ist das Verhalten eines Webcrawlers, wenn nicht eine proaktive Maßnahme, um Ihre Online-Präsenz zu verbessern und Ihre Benutzererfahrung zu verbessern? Wenn Sie sich bemühen, die Antwort auf die Frage zu verstehen, was eine Suchmaschinenspinne ist? und wie es sich von schlechten Website-Crawlern unterscheidet, können Sie sicherstellen, dass ein guter Suchmaschinen-Spider auf Ihre Website zugreifen kann, und verhindern, dass unerwünschte SEO-Crawler Ihre Benutzererfahrung (UX) und Suchrankings ruinieren.

Der 8. jährliche Bad Bots Report von Imperva zeigt, dass bösartige Web-Crawling-Bots im Jahr 25,6 2020 % des gesamten Website-Traffics generierten, während gute SEO-Spider nur 15,2 % des Traffics generierten . Angesichts der vielen katastrophalen Aktivitäten, zu denen bösartige Spider-Crawling-Bots in der Lage sind, wie z. B. Klickbetrug, Kontoübernahme, Content Scraping und Spamming, ist es wert zu wissen, 1) Was ist eine Crawler-Website, die für Ihre Website von Vorteil ist? und 2) Welche Bots müssen Sie beim Erstellen von Bot-Text blockieren?

Sollten Vermarkter lernen, wie man einen Website-Crawler erstellt?

Sie müssen nicht unbedingt lernen, wie man einen Website-Crawler erstellt. Überlassen Sie die technischen Aspekte der Entwicklung eines SEO-Crawlers den Softwarelösungsunternehmen und konzentrieren Sie sich stattdessen auf die TXT-Optimierung Ihrer SEO-Roboter.

Niemand erstellt seinen eigenen Webcrawler, es sei denn, er zieht speziell Daten von einer Website. „Aus technischer SEO-Sicht sind die Tools für das Website-Crawling bereits vorhanden. Nur wenn Sie ständig Dutzende von GB an Daten minen, wäre es rentabel, Ihren eigenen Internet-Sniffer zu bauen und zu hosten.“

Wie funktionieren Webcrawler?

In dieser schnelllebigen digitalen Landschaft reicht es nicht aus, einfach zu wissen, was ein Webcrawler ist, um die TXT-Optimierung Ihrer SEO-Roboter zu steuern. Zusätzlich zu "Was sind Webcrawler?" Sie müssen auch die Frage "Wie funktionieren Webcrawler?" beantworten. um sicherzustellen, dass Sie Robotertext erstellen, der die richtigen Anweisungen enthält.

Suchspider sind in erster Linie darauf programmiert, automatische, sich wiederholende Suchen im Web durchzuführen, um einen Index zu erstellen. Der Index ist der Ort, an dem Suchmaschinen Webinformationen speichern, um sie abzurufen und in Suchergebnissen anzuzeigen, die für die Suchanfrage des Benutzers relevant sind.

Ein Internet-Crawler folgt bestimmten Prozessen und Richtlinien, um den Prozess des Crawlens Ihrer Website zu verbessern und Ihr Webziel zu erreichen.

Wie genau funktioniert ein Webcrawler? Wir werden sehen.

URLs entdecken Web-Spider beginnen mit dem Crawlen des Webs anhand einer Liste von URLs und wechseln dann zwischen den Links auf der Seite, um Websites zu crawlen. Um die Crawlbarkeit und Indexierbarkeit Ihrer Website zu verbessern, priorisieren Sie die Navigation Ihrer Website, erstellen Sie eine übersichtliche robots.txt-Sitemap und übermitteln Sie die robots.txt-Datei an Google.
Durchsuchen Sie eine Liste von Samen Suchmaschinen stellen ihren Suchmaschinen-Spidern eine Liste mit Seeds oder URLs zur Verfügung, die überprüft werden müssen. Suchmaschinen-Spider besuchen dann jede URL in der Liste, identifizieren alle Links auf jeder Seite und fügen sie der Liste der zu besuchenden Samen hinzu. Webspider verwenden Sitemaps und Datenbanken mit zuvor gecrawlten URLs, um weitere Webseiten im Web zu erkunden.
zum Index hinzufügen Sobald ein Suchmaschinen-Spider die aufgelisteten URLs besucht, lokalisiert und rendert er den Inhalt, einschließlich Text, Dateien, Videos und Bilder, auf jeder Webseite und fügt ihn dem Index hinzu.
Aktualisieren Sie den Index Suchmaschinen-Spider berücksichtigen bei der Analyse einer Webseite Schlüsselsignale wie Schlüsselwörter und Inhaltsrelevanz und -aktualität. Sobald ein Internet-Crawler Änderungen an Ihrer Website findet, aktualisiert er seinen Suchindex entsprechend, um sicherzustellen, dass er die neueste Version der Webseite widerspiegelt.

Laut Google bestimmen Computerprogramme, wie eine Website gecrawlt wird. Sie betrachten die wahrgenommene Wichtigkeit und Relevanz, die Crawling-Nachfrage und das Interesse, das Suchmaschinen und Online-Benutzer an Ihrer Website haben. Diese Faktoren beeinflussen, wie oft eine Internet-Spider Ihre Webseiten durchsucht.

Wie funktioniert ein Web-Crawler und stellt sicher, dass alle Google-Web-Crawling-Richtlinien und Spider-Crawling-Anforderungen erfüllt werden?

Um besser mit einem Suchmaschinen-Spider darüber zu kommunizieren, wie eine Website gecrawlt wird, raten Ihnen technische SEO-Dienstleister und WordPress-Webdesign-Experten, eine robots.txt zu erstellen, die Ihre Daten-Crawling-Präferenzen klar angibt. SEO Bots txt ist eines der Protokolle, die von Webspidern verwendet werden, um ihren Web-Crawling-Prozess zu steuern und Google-Daten über das Internet zu crawlen.

Sie können Ihre robots.txt-Datei so anpassen, dass sie auf bestimmte Such-Spider angewendet wird, den Zugriff auf bestimmte Dateien oder Webseiten verbietet oder Ihre robots.txt-Crawling-Verzögerung steuert.

User Agent

Richtlinie des Benutzeragenten  bezieht sich auf den Namen des SEO-Crawlers, für den der Befehl bestimmt war. Es ist die erste Zeile für jedes Format oder jede Gruppe von robots.txt-Regeln.

Der User-Agent-Befehl verwendet a Platzhalter oder das Symbol * . Das bedeutet, dass die Richtlinie für alle Suchbots gilt. Richtlinien können auch auf bestimmte Benutzeragenten angewendet werden.

Jeder SEO-Crawler hat einen anderen Namen. Google Webcrawler aufgerufen werden Googlebot , wird der Bing SEO-Crawler als identifiziert Binbot und Yahoos Internet-Spider heißt Schlürfen . Sie finden die Liste aller Benutzeragenten hier .

# Beispiel 1
User-Agent: *
Nicht zulassen: /wp-admin/

In diesem Beispiel, da wir verwendet haben bedeutet dies, dass robots.txt alle Benutzeragenten daran hindert, auf die URL zuzugreifen.

# Beispiel 2
User-Agent: Googlebot
Disallow: / wp-admin /

Googlebot wurde als User-Agent angegeben. Das bedeutet, dass alle Search-Spider mit Ausnahme von Google-Crawlern auf die URL zugreifen können.

# Beispiel 3
User-Agent: Googlebot
Benutzeragent: Slurp
Disallow: / wp-admin /

Beispiel #3 zeigt, dass alle Benutzeragenten außer dem Crawler von Google und dem Webspider von Yahoo auf die URL zugreifen können.

Erlauben

Der Allow-Befehl von robots.txt gibt an, auf welche Inhalte der Benutzeragent zugreifen kann. Die Robots.txt-Autorisierungsrichtlinie ist mit Google und Bing kompatibel.

Beachten Sie, dass das Protokoll Autorización der robot.txt muss in der befolgt werden bereuen auf die von Google-Webcrawlern und anderen SEO-Spidern zugegriffen werden kann. Wenn keine angegeben ist bereuen , ignorieren Google-Crawler die robot.txt-Berechtigungsanweisung.

# Beispiel 1
User-Agent: *
Zulassen: /wp-admin/admin-ajax.php
: /wp-admin/

In diesem Beispiel gilt die Allow-Direktive in robots.txt für alle Benutzeragenten. Das bedeutet, dass txt-Bots alle Suchmaschinen daran hindern, auf das Verzeichnis /wp-admin/ zuzugreifen, mit Ausnahme der Seite /wp-admin/admin-ajax.php.

# Beispiel 2: Vermeiden Sie widersprüchliche Anweisungen wie diese
User-agent: *
Erlaube: /Beispiel
: *.php

Wenn Sie eine txt-Robots-Anweisung wie diese erstellen, werden Google-Crawler und Such-Spider verwirrt sein, was sie mit der URL tun sollen http://www.yourwebsite.com/example.php . Es ist nicht klar, welches Protokoll zu befolgen ist.

Um Probleme beim Web-Crawling durch Google zu vermeiden, achten Sie darauf, die Verwendung von Platzhaltern zu vermeiden, wenn Sie die Anweisungen robot.txt allow und robots disallow zusammen verwenden.

Ablehnen

Der disallow-Befehl in der robots.txt wird verwendet, um anzugeben, auf welche URLs Googles Crawling-Robots und Website-Crawling-Spider nicht zugreifen sollen. Wie auf den Befehl „robots.txt allow“ muss auch auf die Anweisung „robots.txt disallow“ der Pfad folgen, auf den die Web-Crawler von Google nicht zugreifen sollen.

# Beispiel 1
User-Agent: *
Nicht zulassen: /wp-admin/

In diesem Beispiel verhindert der Befehl robots disallow all, dass alle Benutzeragenten auf das Verzeichnis /wp-admin/ zugreifen.
Der disallow-Befehl in der robots.txt wird verwendet, um anzugeben, auf welche URLs Googles Crawling-Robots und Website-Crawling-Spider nicht zugreifen sollen. Wie auf den Befehl „robots.txt allow“ muss auch auf die Anweisung „robots.txt disallow“ der Pfad folgen, auf den die Web-Crawler von Google nicht zugreifen sollen.

# Beispiel 2
User-Agent: *
Nicht zulassen:

Dieser robots.txt-Ablehnungsbefehl weist einen Google-Webcrawler und andere Suchroboter an, die Google-Seiten der Website, die gesamte Website, zu crawlen, da nichts verboten ist.

Hinweis: Obwohl diese Robots-Reject-Anweisung nur zwei Zeilen enthält, stellen Sie sicher, dass Sie dem richtigen robots.txt-Format folgen. Schreiben Sie user agent: * Disallow: nicht in eine Zeile, da dies falsch ist. Wenn Sie robots.txt erstellen, muss jede Anweisung in einer separaten Zeile stehen.

# Beispiel 3
User-Agent: *
Nicht zulassen: /

Das Symbol / repräsentiert die Wurzel in der Hierarchie einer Website. In diesem Beispiel entspricht die Anweisung robot.txt disallow dem Befehl robots disallow all. Einfach ausgedrückt verstecken Sie Ihre gesamte Website vor Google-Spidern und anderen Such-Bots.

Hinweis: Vermeiden Sie wie im vorherigen Beispiel ( user-agent: * Disallow: ) die Verwendung einer einzeiligen robots.txt-Syntax ( user-agent: * Disallow: / ), um den Zugriff auf Ihre Website zu verbieten.

Ein robots.txt-Format wie dieser User-Agent: * Disallow: / würde einen Google-Crawler verwirren und könnte WordPress robot.txt-Parsing-Probleme verursachen.

Sitemap

Der Befehl „robots.txt sitemap“ wird verwendet, um Google Spider und Webcrawler auf die XML-Sitemap zu verweisen. Die robots.txt-Sitemap ist mit Bing, Yahoo, Google und Ask kompatibel.

Wie fügt man eine Sitemap zu robots.txt hinzu? Die Antwort auf diese Fragen zu kennen ist hilfreich, insbesondere wenn Sie möchten, dass so viele Suchmaschinen wie möglich auf Ihre Sitemap zugreifen.

# Beispiel
vom Benutzeragenten: *
Nicht zulassen: /wp-admin/
Sitemap: https://ihrewebsite.com/sitemap1.xml
Sitemap: https://ihrewebsite.com/sitemap2.xml

In diesem Beispiel weist der Befehl robots disallow alle Such-Bots an, nicht auf /wp-admin/ zuzugreifen. Die robot.txt-Syntax zeigt auch an, dass es zwei Sitemaps gibt, die auf der Website zu finden sind. Sobald Sie wissen, wie Sie eine Sitemap zu robots.txt hinzufügen, können Sie mehrere XML-Sitemaps in die txt-Datei Ihres Roboters einfügen.

Tracking-Verzögerung

Die Crawl-Verzögerungsrichtlinie robots.txt wird von allen wichtigen Spider-Bots unterstützt. Verhindert, dass ein Google-Webcrawler und andere Such-Spider einen Server überlasten. Mit dem txt-Befehl robots crawl delay können Administratoren in Millisekunden angeben, wie lange Google-Spider und Web-Crawler zwischen jeder Google-Crawl-Anfrage warten sollen.

# Beispiel
vom Benutzeragenten: *
Nicht zulassen: /wp-admin/
Nicht zulassen: /Kalender/
Nicht zulassen: /events/User Agent: BingBot nicht zulassen
: /calendar/ Nicht zulassen
: /Veranstaltungen/
Crawl-Verzögerung: 10 Sitemap: https://yourwebsite.com/sitemap.xml

In diesem Beispiel weist die robots.txt-Crawling-Verzögerungsanweisung Such-Bots an, mindestens 10 Sekunden zu warten, bevor sie eine andere URL anfordern.

Einige Web-Spider, wie z. B. der Web-Crawler von Google, unterstützen keine TXT-Befehle zum Crawlen von Robotern. Stellen Sie sicher, dass Sie Ihre robots.txt-Syntax in einem robots txt-Checker ausführen, bevor Sie die robots.txt-Datei an Google und andere Suchmaschinen senden, um Parsing-Probleme zu vermeiden.

Baidu unterstützt zum Beispiel keine Crawling-Verzögerungsanweisungen für TXT-Roboter, aber Sie können die Vorteile der Baidu Webmaster Tools nutzen, um zu steuern, wie oft Ihre Website gecrawlt wird. Sie können auch verwenden Google Search Console (GSC), um die Crawl-Frequenz des Webcrawlers zu definieren.

Host

Die Host-Direktive teilt Suchspidern Ihre bevorzugte Mirror-Domain oder Replik Ihrer Website mit, die auf einem anderen Server gehostet wird. Die Mirror-Domain wird verwendet, um die Verkehrslast zu verteilen und Latenzen und Serverlast auf Ihrer Website zu vermeiden.

# Beispiel
vom Benutzeragenten: *
Nicht zulassen: /wp-admin/Host: ihrewebsite.com

Mit der host-Direktive von WordPress robot.txt können Sie entscheiden, ob Suchmaschinen yourwebsite.com oder www.yourwebsite.com anzeigen sollen.

Ende des String-Operators

Das $-Zeichen wird verwendet, um das Ende einer URL anzuzeigen und einen Google-Webcrawler anzuweisen, wie eine Website mit Parametern gecrawlt werden soll. Es wird am Ende des Pfades platziert.

# Beispiel
vom Benutzeragenten: *
Nicht zulassen: *.html$

In diesem Beispiel weist die nofollow-Direktive robots txt einen Google-Crawler und andere Benutzeragenten an, keine Google-Website-URLs zu crawlen, die auf .html enden.

Das bedeutet URL mit solchen Parametern https://yourwebsite.com/page. html ?lang=en es wäre immer noch in der Crawl-Anfrage von Google enthalten, da die URL nicht nach .html endet.

Mitteilung

Kommentare dienen als Leitfaden für Spezialisten für Webdesign und -entwicklung und sind mit dem Zeichen vorangestellt #. Sie können am Anfang einer WordPress robot.txt-Zeile oder nach einem Befehl platziert werden. Wenn Sie Kommentare nach einer Anweisung platzieren, stellen Sie sicher, dass sie sich in derselben Zeile befinden.

Alles danach # es wird von den Crawling-Robotern und Such-Spidern von Google ignoriert.

# Beispiel 1: Blockiere den Zugriff auf das Verzeichnis /wp-admin/ für alle Such-Bots.
User-Agent: *
Nicht zulassen: /wp-admin/
# Beispiel 2
User Agent: *#Gilt für alle Suchspinnen.
Nicht zulassen: /wp-admin/#Blockiert den Zugriff auf das Verzeichnis /wp-admin/.

Wofür wird Robots.txt verwendet?

Die Robot.txt-Syntax wird verwendet, um den Spider-Crawling-Verkehr zu Ihrer Website zu verwalten. Es spielt eine entscheidende Rolle dabei, Ihre Website für Suchmaschinen und Online-Besucher zugänglicher zu machen.

Möchten Sie erfahren, wie Sie robots.txt verwenden und txt-Robots für Ihre Website erstellen? Hier sind die wichtigsten Möglichkeiten, wie Sie Ihre SEO-Leistung mit robots.txt für WordPress und andere CMS verbessern können:

1 . Vermeiden Sie es, Ihre Website mit Google-Webcrawling- und Suchbot-Anfragen zu überladen.
2 . Verhindern Sie, dass Google-Crawling-Bots und Search-Spider private Bereiche auf Ihrer Website crawlen, indem Sie bots txt nofollow-Anweisungen verwenden.
3 . Schützen Sie Ihre Website vor bösartigen Bots.
4 . Maximieren Sie Ihr Crawl-Budget – Die Anzahl der Seiten, die Webcrawler innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlen und indexieren können.
5 . Erhöhen Sie die Crawlbarkeit und Indexierbarkeit Ihrer Website.
6 _ Duplicate Content in den Suchergebnissen vermeiden.
7 . Verbergen Sie unfertige Seiten vor den Web-Crawling-Bots und Such-Spidern von Google, bevor sie zur Veröffentlichung bereit sind.
8. Verbessern Sie Ihre Benutzererfahrung.
9 _ Leiten Sie Link Equity oder Link Juice an die richtigen Seiten weiter.

Die Verschwendung Ihres Budgets und das Crawlen von Ressourcen auf Seiten mit URLs mit geringem Wert kann sich negativ auf Ihre Crawlbarkeit und Indexierbarkeit auswirken. Warten Sie nicht, bis Ihre Website verschiedene SEO-Fehler und einen erheblichen Rückgang der Rankings aufweist, bevor Sie endlich lernen, wie man TXT-Roboter für SEO erstellt.

Meistern Sie die robots.txt-Optimierung von Google und schützen Sie Ihre Website vor schädlichen Bots und Online-Bedrohungen.

Müssen alle Websites Robotertext erstellen?

Nicht alle Websites müssen eine robots.txt-Datei erstellen. Suchmaschinen wie Google verfügen über Systeme zum Crawlen der Seiten von Google-Websites und ignorieren automatisch doppelte oder unwichtige Versionen einer Seite.

Technische SEO-Spezialisten empfehlen jedoch, dass Sie eine robots.txt-Datei erstellen und bewährte Vorgehensweisen für robots txt implementieren, um ein besseres und schnelleres Web-Crawling und eine bessere Indexierung durch die Crawling-Roboter und Such-Spider von Google zu ermöglichen.

Neue Websites müssen sich keine Gedanken über die Verwendung von robots.txt machen, da ihr Ziel darin besteht, ihre Webseiten für so viele Suchspinnen wie möglich zugänglich zu machen. Wenn Ihre Website andererseits älter als ein Jahr ist, könnte sie beginnen, Traffic zu gewinnen und Google-Crawling-Anfragen und Probleme mit Search-Spider-Anfragen anzuziehen.

[Wenn dies passiert] müssen Sie diese URLs in der robots.txt-Datei von WordPress blockieren, damit Ihr Crawl-Budget nicht beeinträchtigt wird“, sagte Dagohoy. „Denken Sie daran, dass Websites mit vielen fehlerhaften URLs weniger von Suchmaschinen-Bots gecrawlt werden, und das möchten Sie nicht für Ihre Website.“

Wie oben erwähnt, verschafft Ihnen das Wissen, wie man robots.txt für SEO bearbeitet, einen erheblichen Vorteil. Noch wichtiger ist, dass es Ihnen die Gewissheit gibt, dass Ihre Website vor böswilligen Angriffen durch bösartige Bots geschützt ist.

Speicherort der WordPress Robots.txt

Bereit, robots.txt zu erstellen? Der erste Schritt zum Erreichen Ihres Zielbudgets für Spinnennetze besteht darin, zu lernen, wie Sie robots.txt auf Ihrer Website finden. Sie können den Speicherort von WordPress robots.txt finden, indem Sie zur URL Ihrer Website gehen und den Parameter hinzufügen /robots.txt .

Zum Beispiel: ihrewebsite.com/robots.txt

Die robots.txt-Anweisungen robot.txt disallow und allow, die robots.txt-Suche und das Google-Roboterverzeichnis enthalten auch eine robots.txt-Sitemap, um Web-Crawler zur XML-Sitemap zu leiten und zu vermeiden, dass Ihr Sitemap-Budget verschwendet wird.

Wo ist Robots.txt in WordPress?

WordPress gilt als das beliebteste und am weitesten verbreitete CMS der Welt und betreibt etwa 40 Prozent aller Websites im Internet. Kein Wunder, dass viele Websitebesitzer lernen möchten, wie man robots.txt in WordPress bearbeitet. Einige wenden sich sogar an WordPress-Webdesign-Profis, um Hilfe bei der Optimierung von robots.txt für WordPress zu erhalten.

Wo ist robots.txt in WordPress? Befolgen Sie diese Schritte, um auf Ihre WordPress robots.txt-Datei zuzugreifen:

1 . Melden Sie sich als Administrator bei Ihrem WordPress-Dashboard an.


2
 . Navigieren Sie zu „SEO“. 

3 . Klicken Sie auf „Yoast“. Dies ist ein WordPress-Plugin, das Sie auf Ihrer Website installieren müssen, um robots.txt WordPress zu bearbeiten und robots txt-Updates zu erstellen, wann immer Sie es brauchen.

4 . Klicken Sie auf „Datei-Editor“. Mit diesem Tool können Sie schnell Änderungen an Ihren Google robots.txt-Anweisungen vornehmen.

5 . Sie können jetzt Ihre WordPress robots.txt-Datei anzeigen und das WordPress robots.txt-Verzeichnis bearbeiten.

Wie können Sie in WordPress auf robots.txt zugreifen und Ihre robot.txt-Disallow-Anweisungen aktualisieren, um die durch robots txt eingeschränkte URL anzuzeigen? Folgen Sie einfach dem gleichen Prozess, den Sie verwendet haben, um festzustellen, wo sich robots.txt in WordPress befindet.

Vergessen Sie nicht, alle Änderungen, die Sie an Ihrer WordPress-robots.txt-Datei vornehmen, zu speichern, um sicherzustellen, dass Ihre robots.txt no index- und robot.txt allow-Befehle auf dem neuesten Stand sind.

So finden Sie Robots.txt in cPanel

cPanel ist eines der beliebtesten Linux-basierten Control Panels, mit dem Webhosting-Konten mit maximaler Effizienz verwaltet werden. Webentwickler verwenden cPanel auch, um eine robots.txt-Datei zu erstellen.

So finden Sie robots.txt in cPanel – Befolgen Sie diese Schritte, um auf Ihre Webcrawler und die Google-Roboter-txt-Datei in cPanel zuzugreifen.

1 . Melden Sie sich bei Ihrem cPanel-Konto an.
2 . Öffne das " Dateimanager » und gehen Sie in das Stammverzeichnis Ihrer Website.
3 . Sie müssen in der Lage sein, auf die Suchroboter und die Googlebots-TXT-Datei an derselben Stelle zuzugreifen wie der Index oder die erste Seite Ihrer Website.

So bearbeiten Sie Robots.txt in cPanel

Wenn Sie Ihr robots.txt-Ablehnungsverzeichnis bearbeiten oder notwendige Änderungen an Ihrer robots.txt-Syntax vornehmen möchten, gehen Sie einfach wie folgt vor:

1 . Markieren Sie die robots.txt-Datei ohne Index.
2 . Klicke auf " Herausgeber "Oder" Code bearbeiten » im oberen Menü, um Ihre robots txt nofollow-Befehle zu bearbeiten.
3 . Klicke auf " Änderungen speichern » um die neuesten Änderungen in Ihrem robots.txt-Ablehnungsverzeichnis zu speichern.

So erstellen Sie Roboter-Txt in cPanel

Führen Sie die folgenden Schritte aus, um eine robots.txt-Datei in cPanel zu erstellen:

1 . Melden Sie sich bei Ihrem cPanel-Konto an.
2 . Gehen Sie zum Abschnitt » Aufzeichnungen " und klicke " Dateimanager «.
3 . Klicke auf " Neue Datei » und drücken Sie die Taste » Neue Datei erstellen «. Jetzt können Sie eine robots.txt-Datei erstellen.

So finden Sie Magento Robots.txt

 

Neben der häufig gestellten Frage, wie man in WordPress auf robots.txt zugreift, möchten viele Websitebesitzer auch lernen, wie man auf Magento robots.txt zugreift, es bearbeitet und optimiert, um die eingeschränkte URL von robots txt besser an Suchspider zu kommunizieren.

Magento ist eine E-Commerce-Plattform mit integriertem PHP, die Webentwicklern helfen soll, SEO-optimierte E-Commerce-Websites zu erstellen. Und wie findet man Magento robots.txt?

1 . Melden Sie sich bei Ihrem Magento-Dashboard an.
2 . Gehe zu " Tafel Verwaltung“ und klicken Sie dann auf » Geschäfte «.
3 . Gehe zu " Konfiguration «, dann wählen Sie » Konfiguration «.
4 . Abschnitt öffnen » Suchmaschinen-Bots «. Sie können jetzt Ihre robots.txt-Datei anzeigen und bearbeiten, um die durch robots txt eingeschränkte URL zu ermitteln.
5 . Wenn Sie fertig sind, klicken Sie auf die Schaltfläche » Einstellungen speichern «.

Was ist mit dem Erstellen von TXT-Robotern in Magento? Der gleiche Vorgang gilt beim Erstellen einer robots.txt-Datei für Magento. Sie können auch auf die Schaltfläche » klicken Standardeinstellungen zurückzusetzen » wenn Sie die Standardanweisungen wiederherstellen müssen.

Best Practices für Robotertext

Zu lernen, wie man in WordPress auf robots.txt zugreift und wie man robots.txt auf verschiedenen Plattformen bearbeitet, sind nur die ersten Schritte zur Optimierung Ihrer robots.txt no index- und robot.txt allow-Anweisungen.

Führen Sie die folgenden Schritte aus, um Ihren robots.txt-Optimierungsprozess zu steuern:

1 . Führen Sie regelmäßige Audits mit einem Robots-TXT-Checker durch. Google bietet einen kostenlosen Robots-TXT-Checker an, mit dem Sie Probleme mit robots.txt auf Ihrer Website ermitteln können.

2 . Erfahren Sie, wie Sie eine Sitemap zu robots.txt hinzufügen und auf Ihre robots.txt-Datei anwenden.
3 . Nutzen Sie die robots.txt-Blockierungsanweisungen, um zu verhindern, dass Such-Bots auf private Dateien oder unfertige Seiten auf Ihrer Website zugreifen.
4 . Überprüfen Sie Ihre Serverprotokolle.
5 . Überwachen Sie Ihren Crawling-Bericht in der Google Search Console (GSC), um festzustellen, wie viele Such-Spider Ihre Website crawlen. Der GSC-Bericht zeigt Ihre gesamten Crawling-Anfragen nach Antwort, Dateityp, Zweck und Googlebot-Typ.

6 _ Überprüfen Sie, ob Ihre Website Traffic und Anfragen von bösartigen Bots generiert. Wenn dies der Fall ist, sollten Sie sie mithilfe von robots.txt blockieren alle Anweisungen blockieren.
7 . Wenn Ihre Website viele 404- und 500-Fehler aufweist und diese Probleme beim Webcrawling verursachen, können Sie 301-Weiterleitungen implementieren. Für den Fall, dass Fehler schnell zunehmen und Millionen von 404 Seiten und 500 Fehlern erreichen, können Sie robots txt verwenden, um alle Anweisungen zu blockieren, um einige Benutzeragenten am Zugriff auf Ihre Webseiten und Dateien zu hindern. Achten Sie darauf, Ihre robots.txt-Datei zu optimieren, um wiederkehrende Probleme beim Web-Crawling zu lösen.
8 _ Holen Sie sich professionelle technische SEO-Services und Webentwicklungslösungen, um robots txt block all, robot.txt allow und andere Anweisungen in Ihrer robots.txt-Syntax korrekt zu implementieren.

Zu vermeidende häufige Robots.txt-Fehler

Beachten Sie diese häufigen Fehler beim Erstellen Ihrer robots.txt-Datei und vermeiden Sie sie unbedingt, um die Crawlbarkeit und Online-Leistung Ihrer Website zu verbessern:

❌ Platzieren Sie robots.txt-Anweisungen in einer einzelnen Zeile. Jede Robot-TXT-Anweisung sollte immer in einer separaten Zeile stehen, um Webcrawlern klare Anweisungen zum Crawlen einer Website zu geben.
Falsch: Benutzeragent: * Nicht zulassen: /
Falsch: Benutzeragent: * Nicht zulassen:

❌Fehler beim Senden von robots.txt an Google. Senden Sie immer Ihre aktualisierte robots.txt-Datei an Google. Unabhängig davon, ob Sie kleine Änderungen vorgenommen haben, z. B. das Hinzufügen von robots.txt, das Verweigern aller Befehle für bestimmte Benutzeragenten oder das Entfernen von Robotern, das Verweigern aller Anweisungen, achten Sie darauf, auf die Schaltfläche Senden zu klicken. Auf diese Weise wird Google über alle Änderungen informiert, die Sie an Ihrer robots.txt-Datei vorgenommen haben.

❌Einfügen der falschen robots.txt-Indexanweisungen. Wenn Sie dies tun, riskieren Sie, dass Ihre Website nicht von Suchbots gecrawlt wird, wertvollen Traffic verliert und, schlimmer noch, ein plötzlicher Rückgang der Suchrankings.

❌Legen Sie die Roboter-Textdatei nicht im Stammverzeichnis ab. Wenn Sie Ihre robots.txt-Datei in Unterverzeichnissen ablegen, kann sie für Web-Crawler unauffindbar werden.
Falsch: https://www.yourwebsite.com/assets/robots.txt
Recht: https://www.yourwebsite.com/robots.txt

❌Unsachgemäße Verwendung von robots.txt verweigert alle Befehle, Platzhalter, Schrägstriche und andere Anweisungen. Führen Sie Ihre robot.text-Datei immer in einem robots.txt-Validator aus, bevor Sie sie speichern und an Google und andere Suchmaschinen senden, damit Sie keine robots.txt-Fehler generieren.

❌Verlassen Sie sich auf den robots.txt-Dateigenerator, um die robots.txt-Datei zu generieren. Obwohl ein robots.txt-Generator ein nützliches Tool ist, ist es eine schlechte Idee, sich ausschließlich darauf zu verlassen, ohne manuelle Überprüfungen der robots.txt-Deny-Anweisungen durchzuführen, das Zulassen von robot.txt-Befehlen und Benutzeragenten in Ihrer robots.txt-Datei. Wenn Sie eine kleine Website haben, ist es akzeptabel, einen robots.txt-Dateigenerator zu verwenden, um robots.txt zu generieren. Wenn Sie jedoch eine E-Commerce-Website besitzen oder viele Dienstleistungen anbieten, sollten Sie unbedingt die Hilfe von Experten bei der Erstellung und Optimierung Ihrer robots.txt-Datei in Anspruch nehmen.

❌Robots.txt-Validierungsberichte ignorieren. Ein robots.txt-Validator ist aus einem bestimmten Grund da. Maximieren Sie also Ihren robots.txt-Checker und andere Tools, um sicherzustellen, dass Ihre SEO-Optimierungsbemühungen für robots.txt auf dem richtigen Weg sind.

Behalten Sie die Kontrolle über Ihr Crawl-Budget

Der Umgang mit robots.txt-Optimierung und anderen technischen SEO-Problemen kann anstrengend sein, insbesondere wenn Sie nicht über die richtigen Ressourcen, Arbeitskräfte und Fähigkeiten verfügen, um die erforderlichen Aufgaben auszuführen. Stressen Sie sich nicht mit Website-Problemen, die von Fachleuten schnell gelöst werden könnten.

Müssen Sie Ihre Website aktualisieren?

Benötigen Sie einen unserer Webdesign-Services? In IndianWebs Wir verfügen über umfassende Erfahrung und sind mit einem Team von Programmierern und Webdesignern verschiedener Fachrichtungen in der Lage, eine breite Palette von Dienstleistungen bei der Erstellung individueller Webseiten anzubieten. Was auch immer Ihr Projekt ist, wir werden es in Angriff nehmen.