Crawl-Statistikbericht

Der Crawl- Statistikbericht zeigt Ihnen Statistiken über den Crawling-Verlauf von Google auf Ihrer Website. Zum Beispiel, wie viele Anfragen wann gestellt wurden, wie die Antwort Ihres Servers ausfiel und welche Verfügbarkeitsprobleme aufgetreten sind. Mit diesem Bericht können Sie erkennen, ob Google beim Crawlen Ihrer Website auf Bereitstellungsprobleme stößt.

Dieser Bericht richtet sich an fortgeschrittene Benutzer. Wenn Sie eine Website mit weniger als tausend Seiten haben, sollten Sie diesen Bericht nicht verwenden und sich über diesen Grad an Crawling-Details keine Gedanken machen müssen.

Dieser Bericht ist nur für Eigenschaften auf Stammebene verfügbar. Das heißt, die Eigenschaft muss entweder eine Domäneneigenschaft (z. B. example.com oder m.example.com) oder eine URL-Präfixeigenschaft auf Stammebene (https://example.com, http://example.com) sein , http://m.example.com).

Öffnen Sie den Crawl-Statistikbericht

C<span/>rawl Budget und der Crawl-Statistikbericht – Google Search Console-Schulung

Sie können den Crawl-Statistikbericht in der Search Console aufrufen, indem Sie auf klicken

( Eigenschaftseinstellungen ) > Crawl-Statistiken .

Erste Schritte

Sie sollten die folgenden Informationen verstehen, bevor Sie diesen Bericht verwenden:

So funktioniert die Google-Suche (die lange Version).
Themen für fortgeschrittene Benutzer , insbesondere die Themen Crawling und Indexierung sowie Sitemaps.
Verschiedene Themen zum Verwalten des Zugriffs auf Ihre Website , einschließlich der Blockierung von robots.txt .
Wenn Sie eine große Website haben (Hunderttausende von Seiten), finden Sie hier eine Anleitung zur Verwaltung und Fehlerbehebung Ihres Crawling-Budgets .

Über die Daten

Bei allen angezeigten und gezählten URLs handelt es sich um die tatsächlich von Google angeforderten URLs. Daten werden nicht wie in einigen anderen Berichten kanonischen URLs zugewiesen.
Wenn eine URL über eine serverseitige Weiterleitung verfügt, wird jede Anfrage in der Weiterleitungskette als separate Anfrage gezählt. Wenn also Seite1 zu Seite2 weiterleitet, die wiederum zu Seite3 weiterleitet, und wenn Google Seite1 anfordert, sehen Sie separate Anfragen für Seite1 (gibt 301/302 zurück), Seite2 (gibt 301/302 zurück) und Seite3 (hoffentlich gibt 200 zurück). Beachten Sie, dass nur Seiten der aktuellen Domain angezeigt werden. Eine Umleitungsantwort hat den Dateityp „Anderer Dateityp". Clientseitige Weiterleitungen werden nicht gezählt.
Crawls, die berücksichtigt, aber nicht durchgeführt wurden, weil „robots.txt" nicht verfügbar war, werden in den Crawl-Gesamtzahlen gezählt, der Bericht enthält jedoch möglicherweise nur begrenzte Details zu diesen Versuchen. Mehr Informationen
Ressourcen und Umfang:
- Alle Daten sind auf die aktuell ausgewählte Domain beschränkt. Anfragen an andere Domains werden nicht angezeigt. Dazu gehören Anfragen nach Seitenressourcen (z. B. Bildern), die außerhalb dieser Eigenschaft gehostet werden. Wenn Ihre Seite example.com/mypage also das Bild google.com/img.png enthält, wird die Anfrage für google.com/img.png nicht im Crawl-Statistikbericht für die Property example.com angezeigt.
- Ebenso werden Anfragen an eine Geschwisterdomäne (en.example und de.example) nicht angezeigt. Wenn Sie sich also den Crawl-Statistikbericht für en.example ansehen, werden Anfragen für ein Bild auf de.example nicht angezeigt.
- Anfragen zwischen Subdomains können jedoch von der übergeordneten Domain aus gesehen werden. Wenn Sie beispielsweise Daten für example.com anzeigen, können Sie alle Anfragen an example.com, en.example, de.example.com und alle anderen untergeordneten Domänen auf jeder Ebene unterhalb von example.com sehen.
- Wenn umgekehrt die Ressourcen Ihrer Property von einer Seite in einer anderen Domain verwendet werden, sehen Sie möglicherweise Crawling-Anfragen, die mit der Hostseite verknüpft sind, aber Sie sehen keinen Kontext, der darauf hinweist, dass die Ressource gecrawlt wird, weil sie von einer Seite in einer anderen Domain verwendet wird (Das heißt, Sie werden nicht sehen, dass das Bild example.com/imageX.png gecrawlt wurde, da es in der Seite anotherexample.com/mypage enthalten ist.)
- Crawling-Daten umfassen sowohl http- als auch https-Protokolle, sogar für URL-Präfix-Eigenschaften . Das bedeutet, dass der Crawl-Statistikbericht für http://example.com Anfragen sowohl an http://example.com als auch an https://example.com enthält. Allerdings sind die Beispiel-URLs für URL-Präfix-Eigenschaften auf das für die Eigenschaft definierte Protokoll (http oder https) beschränkt.

Bekanntes Problem: Der Crawl-Statistikbericht meldet derzeit die meisten Crawl-Anfragen, einige Anfragen werden jedoch aus verschiedenen Gründen möglicherweise nicht gezählt. Wir gehen davon aus, dass sich unser Versicherungsschutz im Laufe der Zeit erweitern wird, um die meisten, wenn nicht sogar alle Anfragen abzudecken. Daher kann es zu geringfügigen Unterschieden zwischen den Anfrageprotokollen Ihrer Website und den hier gemeldeten Zahlen kommen.

Navigieren im Bericht

Der Bericht zeigt die folgenden Crawling-Informationen zu Ihrer Website:

Gesamtzahl der Crawl-Anfragen
Gesamtgröße des Downloads
Durchschnittliche Antwortzeit
Host-Status
Crawl-Antworten
Dateityp
Crawl-Zweck
Googlebot-Typ

Klicken Sie auf einen beliebigen Tabelleneintrag, um eine detaillierte Ansicht für dieses Element zu erhalten, einschließlich einer Liste mit Beispiel-URLs. Klicken Sie auf eine URL, um Details zu dieser spezifischen Crawl-Anfrage zu erhalten. Klicken Sie beispielsweise in der Tabelle mit den nach Typ gruppierten Antworten auf die HTML- Zeile, um aggregierte Crawling-Informationen für alle auf Ihrer Website gecrawlten HTML-Seiten sowie Details wie Crawling-Zeit, Antwortcode, Antwortgröße und mehr für eine anzuzeigen Beispielauswahl dieser URLs.

Hosts und untergeordnete Domänen

Wenn sich Ihre Eigenschaft auf Domänenebene befindet (example.com, http://example.com, https://m.example.com) und zwei oder mehr untergeordnete Domänen enthält (z. B. fr.example.com und de. example.com) können Sie Daten für die übergeordnete Domäne anzeigen, die alle untergeordneten Domänen umfasst, oder auf eine einzelne untergeordnete Domäne beschränkt sind.

Um den Bericht anzuzeigen, der sich auf ein bestimmtes untergeordnetes Element bezieht, klicken Sie in den Hosts -Listen auf der Zielseite der übergeordneten Domäne auf das untergeordnete Element. Es werden nur die 20 untergeordneten Domänen angezeigt, die in den letzten 90 Tagen Datenverkehr erhalten haben.

Beispiel-URLs

Sie können auf einen der gruppierten Datentypeinträge (Antwort, Dateityp, Zweck, Googlebot-Typ) klicken, um eine Liste mit Beispiel-URLs dieses Typs anzuzeigen.

Beispiel-URLs erheben keinen Anspruch auf Vollständigkeit, sondern sind lediglich ein repräsentatives Beispiel. Wenn Sie eine URL nicht aufgelistet finden, bedeutet das nicht, dass wir sie nicht angefordert haben. Die Anzahl der Beispiele kann nach Tag gewichtet werden, sodass Sie möglicherweise feststellen, dass einige Arten von Anfragen möglicherweise mehr Beispiele enthalten als andere. Dies sollte sich mit der Zeit ausgleichen.

Gesamtzahl der Crawl-Anfragen

Die Gesamtzahl der für URLs auf Ihrer Website ausgegebenen Crawling-Anfragen, unabhängig davon, ob sie erfolgreich waren oder nicht. Enthält Anfragen nach Ressourcen, die von der Seite verwendet werden, wenn sich diese Ressourcen auf Ihrer Website befinden. Anfragen an Ressourcen, die außerhalb Ihrer Website gehostet werden, werden nicht gezählt. Doppelte Anfragen für dieselbe URL werden einzeln gezählt. Wenn Ihre robots.txt-Datei nicht ausreichend verfügbar ist, werden potenzielle Abrufe gezählt.

Folgende erfolglose Anfragen werden gezählt:

Abrufe wurden nie durchgeführt, da die robots.txt-Datei nicht ausreichend verfügbar war.
Abrufe, die aufgrund von DNS- Auflösungsproblemen fehlgeschlagen sind
Abrufe, die aufgrund von Serververbindungsproblemen fehlgeschlagen sind
Abrufe wurden aufgrund von Umleitungsschleifen abgebrochen

Gesamtgröße des Downloads

Gesamtzahl der Bytes, die während des Crawlings von Ihrer Website für den angegebenen Zeitraum heruntergeladen wurden. Wenn Google eine Seitenressource zwischengespeichert hat, die von mehreren Seiten verwendet wird, wird die Ressource nur beim ersten Mal angefordert (wenn sie zwischengespeichert wird).

Durchschnittliche Antwortzeit

Durchschnittliche Antwortzeit für alle Ressourcen, die während des angegebenen Zeitraums von Ihrer Site abgerufen wurden. Jede durch eine Seite verlinkte Ressource wird als separate Antwort gezählt.

Host-Status

Der Hoststatus beschreibt, ob Google beim Crawlen Ihrer Website auf Verfügbarkeitsprobleme gestoßen ist. Der Status kann einer der folgenden Werte sein:

Google hat in den letzten 90 Tagen keine nennenswerten Probleme mit der Crawling-Verfügbarkeit Ihrer Website festgestellt – gute Arbeit! Hier gibt es nichts anderes zu tun.
Google hat in den letzten 90 Tagen auf Ihrer Website mindestens ein erhebliches Problem mit der Crawling-Verfügbarkeit festgestellt, das jedoch bereits vor mehr als einer Woche aufgetreten ist. Der Fehler könnte ein vorübergehendes Problem gewesen sein oder das Problem wurde möglicherweise behoben. Sie sollten die Antworttabelle überprüfen, um die Probleme zu erkennen und zu entscheiden, ob Sie Maßnahmen ergreifen müssen.
Google hat in der letzten Woche auf Ihrer Website mindestens ein erhebliches Problem mit der Crawling-Verfügbarkeit festgestellt. Da der Fehler erst kürzlich aufgetreten ist, sollten Sie versuchen herauszufinden, ob es sich um ein wiederkehrendes Problem handelt. Sehen Sie sich die Antworttabelle an, um zu sehen, was die Probleme waren, und entscheiden Sie, ob Sie Maßnahmen ergreifen müssen.

Wonach schauen

Idealerweise sollte Ihr Host-Status Grün sein. Wenn Ihr Verfügbarkeitsstatus rot ist, klicken Sie, um Verfügbarkeitsdetails für robots.txt-Verfügbarkeit, DNS-Auflösung und Host-Konnektivität anzuzeigen.

Details zum Hoststatus

Der Verfügbarkeitsstatus des Gastgebers wird in den folgenden Kategorien bewertet. Ein erheblicher Fehler in einer Kategorie kann zu einem verringerten Verfügbarkeitsstatus führen. Klicken Sie auf eine Kategorie im Bericht, um weitere Details zu erhalten.

Für jede Kategorie wird ein Diagramm mit Crawling-Daten für den Zeitraum angezeigt. Das Diagramm hat eine gepunktete rote Linie; Wenn die Metrik über der gepunkteten Linie für diese Kategorie lag (z. B. wenn die DNS-Auflösung bei mehr als 5 % der Anfragen an einem bestimmten Tag fehlschlägt), wird dies als Problem für diese Kategorie betrachtet und der Status spiegelt die Aktualität des Problems wider letztes Problem.

robots.txt wird abgerufen
Die Grafik zeigt die Fehlerrate für robots.txt-Anfragen während eines Crawls. Google fordert diese Datei häufig an. Wenn die Anfrage weder eine gültige Datei (entweder ausgefüllt oder leer) noch eine 404-Antwort (Datei existiert nicht) zurückgibt, wird Google das Crawlen Ihrer Website verlangsamen oder stoppen, bis eine akzeptable Antwort gefunden werden kann robots.txt-Antwort. ( Einzelheiten siehe unten )
DNS-Auflösung
Die Grafik zeigt, wenn Ihr DNS-Server Ihren Hostnamen nicht erkannt hat oder beim Crawlen nicht geantwortet hat. Wenn Sie Fehler sehen, wenden Sie sich an Ihren Registrar, um sicherzustellen, dass Ihre Site richtig eingerichtet ist und Ihr Server mit dem Internet verbunden ist.
Serverkonnektivität
Das Diagramm zeigt, wann Ihr Server während eines Crawls nicht reagierte oder keine vollständige Antwort für eine URL lieferte. Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler .

Weitere Details zur Verfügbarkeit von robots.txt

Hier finden Sie eine detailliertere Beschreibung, wie Google beim Crawlen Ihrer Website robots.txt-Dateien überprüft (und von ihnen abhängt).

Ihre Website muss nicht über eine robots.txt-Datei verfügen, sie muss jedoch eine erfolgreiche Antwort (wie unten definiert) zurückgeben, wenn sie nach dieser Datei gefragt wird. Andernfalls stoppt Google möglicherweise das Crawling Ihrer Website.

Erfolgreiche robots.txt-Antworten
Alle folgenden Antworten gelten als erfolgreiche Antworten:
- HTTP 200 und eine robots.txt-Datei (die Datei kann gültig, ungültig oder leer sein). Wenn die Datei Syntaxfehler enthält, gilt die Anfrage dennoch als erfolgreich, obwohl Google möglicherweise alle Regeln mit einem Syntaxfehler ignoriert.
- HTTP 403/404/410 (die Datei existiert nicht). Ihre Website muss nicht über eine robots.txt-Datei verfügen.
Erfolglose robots.txt-Antworten
- HTTP 429/5XX (Verbindungsproblem)

So fordert Google beim Crawlen einer Website robots.txt-Dateien an und verwendet sie:

Bevor Google Ihre Website crawlt, prüft es zunächst, ob kürzlich eine erfolgreiche robots.txt-Anfrage vorliegt (weniger als 24 Stunden alt).
Wenn Google über eine erfolgreiche robots.txt-Antwort verfügt, die weniger als 24 Stunden alt ist, verwendet Google diese robots.txt-Datei beim Crawlen Ihrer Website. (Denken Sie daran, dass 404 Not Found erfolgreich ist und bedeutet, dass keine robots.txt-Datei vorhanden ist, was bedeutet, dass Google alle URLs auf der Website crawlen kann.)
Wenn die letzte Antwort nicht erfolgreich war oder älter als 24 Stunden ist, fordert Google Ihre robots.txt-Datei an:
- Bei Erfolg kann der Crawl beginnen.
- Wenn nicht erfolgreich:
  - In den ersten 12 Stunden stoppt Google das Crawlen Ihrer Website, fordert jedoch weiterhin Ihre robots.txt-Datei an.
  - Nach 12 Stunden bis 30 Tagen verwendet Google die zuletzt erfolgreich abgerufene robots.txt-Datei und fordert weiterhin Ihre robots.txt-Datei an.
  - Nach 30 Tagen:
    - Wenn die Homepage der Website verfügbar ist, verhält sich Google so, als ob keine robots.txt-Datei vorhanden wäre, und crawlt ohne Einschränkungen.
    - Wenn die Startseite der Website nicht verfügbar ist, stoppt Google das Crawlen der Website.
    - In beiden Fällen wird Google weiterhin regelmäßig Ihre robots.txt-Datei anfordern.

Alle Crawls, die abgebrochen wurden, weil die robots.txt-Datei nicht verfügbar war, werden in den Crawling-Gesamtzahlen gezählt. Diese Crawls wurden jedoch nicht tatsächlich durchgeführt, sodass einige Gruppierungsberichte (Crawlings nach Zweck, Crawls nach Reaktion usw.) diese Crawls nicht auflisten oder möglicherweise nur begrenzte Informationen darüber enthalten.

Crawl-Antworten

Diese Tabelle zeigt die Antworten, die Google beim Crawlen Ihrer Website erhalten hat, gruppiert nach Antworttyp, als Prozentsatz aller Crawl-Antworten. Die Daten basieren auf der Gesamtzahl der Anfragen und nicht auf der URL. Wenn Google also zweimal eine URL anfordert und beim ersten Mal Serverfehler (500) und beim zweiten Mal OK (200) erhält, wäre die Antwort 50 % Serverfehler und 50 %. OK.

Wonach schauen

Die meisten Antworten sollten 200 oder andere „Gut"-Antworten sein, es sei denn, Sie führen eine Site-Neuorganisation oder einen Site-Umzug durch. In der folgenden Liste erfahren Sie, wie Sie mit anderen Antwortcodes umgehen.

Hier sind einige gängige Antwortcodes und deren Handhabung:

Gute Antwortcodes

Diese Seiten sind in Ordnung und verursachen keine Probleme.

OK (200): Unter normalen Umständen sollte die überwiegende Mehrheit der Antworten 200 Antworten umfassen.
Permanent verschoben (301): Ihre Seite gibt eine HTTP 301- oder 308-Antwort (permanent verschoben) zurück, was wahrscheinlich das ist, was Sie wollten.
Vorübergehend verschoben (302): Ihre Seite gibt eine HTTP 302- oder 307-Antwort (vorübergehend verschoben) zurück, was wahrscheinlich das ist, was Sie wollten. Wenn diese Seite dauerhaft verschoben wird, ändern Sie dies in 301.
Verschoben (andere): Eine Meta-Aktualisierung .
Nicht geändert (304) : Die Seite hat sich seit der letzten Crawl-Anfrage nicht geändert.

Möglicherweise gute Antwortcodes

Diese Antworten mögen in Ordnung sein, aber Sie sollten überprüfen, ob dies auch Ihre Absicht ist.

Die Fehlermeldung „Nicht gefunden" (404) kann auf defekte Links innerhalb oder außerhalb Ihrer Website zurückzuführen sein. Es ist nicht möglich, lohnenswert oder sogar wünschenswert, alle 404-Fehler auf Ihrer Website zu beheben, und oft ist 404 die richtige Antwort (z. B. wenn die Seite wirklich ohne Ersatz verschwunden ist). Erfahren Sie, wie und ob Sie 404-Fehler beheben können .

Ungültige Antwortcodes

Sie sollten Seiten beheben, die diese Fehler zurückgeben, um Ihr Crawling zu verbessern.

robots.txt nicht verfügbar: Wenn Ihre robots.txt-Datei einen Tag lang nicht verfügbar ist, unterbricht Google das Crawling für eine Weile, bis eine akzeptable Antwort auf eine Anfrage nach robots.txt eingeht. Stellen Sie sicher, dass Sie Ihre robots.txt-Datei nicht für Google verschleiern oder die robots.txt-Seite je nach Benutzeragent variieren.
Diese Antwort ist nicht dasselbe wie die Rückgabe von „Nicht gefunden (404)" für eine robots.txt-Datei, was als gute Antwort angesehen wird. Weitere robots.txt-Details anzeigen.
Nicht autorisiert (401/407): Sie sollten entweder das Crawlen dieser Seiten mit robots.txt blockieren oder entscheiden, ob die Blockierung aufgehoben werden soll. Wenn diese Seiten keine sicheren Daten enthalten und Sie möchten, dass sie gecrawlt werden, können Sie erwägen, die Informationen auf nicht gesicherte Seiten zu verschieben oder den Zugriff auf den Googlebot ohne Anmeldung zu ermöglichen (aber seien Sie gewarnt, dass der Googlebot gefälscht werden kann, sodass der Zugriff für den Googlebot effektiv möglich ist). Entfernt die Sicherheit der Seite).
Serverfehler (5XX): Diese Fehler verursachen Verfügbarkeitswarnungen und sollten nach Möglichkeit behoben werden. Die Miniaturansicht zeigt ungefähr, wann diese Fehler aufgetreten sind. Klicken Sie hier, um weitere Details und genaue Zeiten anzuzeigen. Entscheiden Sie, ob es sich dabei um vorübergehende Probleme handelte oder ob es sich um tiefer liegende Verfügbarkeitsfehler auf Ihrer Website handelte. Wenn Google Ihre Website übercrawlt, können Sie eine niedrigere Crawling-Rate anfordern . Wenn dies ein Hinweis auf ein schwerwiegendes Verfügbarkeitsproblem ist, lesen Sie den Artikel über Crawling-Spitzen . Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler .
Anderer Client-Fehler (4XX): Ein weiterer 4XX-Fehler (clientseitig), der hier nicht angegeben ist. Beheben Sie diese Probleme am besten.
DNS reagiert nicht: Ihr DNS-Server reagierte nicht auf Anfragen nach URLs auf Ihrer Website.
DNS-Fehler: Ein weiterer, nicht näher bezeichneter DNS-Fehler.
Abruffehler: Die Seite konnte aufgrund einer falschen Portnummer, IP-Adresse oder einer nicht analysierbaren Antwort nicht abgerufen werden.
Seite konnte nicht erreicht werden: Irgendein anderer Fehler beim Abrufen der Seite, bei dem die Anfrage den Server nie erreicht hat. Da diese Anfragen den Server nie erreicht haben, werden sie nicht in Ihren Protokollen angezeigt.
Seiten-Timeout: Zeitüberschreitung bei der Seitenanforderung.
Umleitungsfehler: Ein Anforderungsumleitungsfehler , z. B. zu viele Umleitungen, leere Umleitung oder zirkuläre Umleitung.
Anderer Fehler: Ein weiterer Fehler, der in keine der oben genannten Kategorien passt.

Gecrawlte Dateitypen

Der von der Anfrage zurückgegebene Dateityp. Der Prozentwert für jeden Typ ist der Prozentsatz der Antworten dieses Typs, nicht der Prozentsatz der abgerufenen Bytes dieses Typs.

Mögliche Dateitypwerte:

HTML
Bild
Video – Eines der unterstützten Videoformate .
JavaScript
CSS
PDF
Anderes XML – Eine XML-Datei ohne RSS, KML oder andere auf XML basierende Formate.
JSON
Syndication – Ein RSS- oder Atom-Feed
Audio
Geografische Daten – KML oder andere geografische Daten.
Anderer Dateityp – Ein anderer Dateityp, der hier nicht angegeben ist. Weiterleitungen sind in dieser Gruppierung enthalten.
Unbekannt (fehlgeschlagen): Wenn die Anfrage fehlschlägt, ist der Dateityp nicht bekannt.

Wonach schauen

Wenn Sie Verfügbarkeitsprobleme oder langsame Antwortraten feststellen, sehen Sie sich diese Tabelle an, um ein Gefühl dafür zu bekommen, welche Arten von Ressourcen Google crawlt und warum dies Ihr Crawling verlangsamt. Fordert Google viele kleine Bilder an, die blockiert werden sollten? Fordert Google Ressourcen an, die auf einer anderen, weniger reaktionsfähigen Website gehostet werden? Klicken Sie auf verschiedene Dateitypen, um ein Diagramm der durchschnittlichen Antwortzeit nach Datum und der Anzahl der Anfragen nach Datum anzuzeigen und zu sehen, ob Spitzen bei langsamen Antworten dieses Typs mit Spitzen bei allgemeiner Langsamkeit oder Nichtverfügbarkeit korrespondieren.

Crawl-Zweck

Entdeckung: Die angeforderte URL wurde noch nie von Google gecrawlt.
Aktualisieren: Ein erneutes Crawlen einer bekannten Seite.

Wenn Sie über sich schnell ändernde Seiten verfügen, die nicht oft genug neu gecrawlt werden, stellen Sie sicher, dass sie in einer Sitemap enthalten sind. Für Seiten, die weniger schnell aktualisiert werden, müssen Sie möglicherweise ausdrücklich um ein erneutes Crawlen bitten. Wenn Sie kürzlich viele neue Inhalte hinzugefügt oder eine Sitemap eingereicht haben, sollten Sie im Idealfall einen Anstieg der Discovery-Crawlings auf Ihrer Website feststellen.

Googlebot-Typ

Der Typ des Benutzeragenten, der zum Stellen der Crawl-Anfrage verwendet wird. Google verfügt über eine Reihe von Benutzeragenten , die aus unterschiedlichen Gründen crawlen und sich unterschiedlich verhalten.

Mögliche Werte für den Googlebot-Typ:

Smartphone : Googlebot-Smartphone
Desktop : Googlebot-Desktop
Bild : Googlebot-Bild. Wenn das Bild als Seitenressource geladen wird, wird der Googlebot-Typ als Seitenressourcenlast und nicht als Bild gezählt.
Video : Googlebot-Video. Wenn das Video als Seitenressource geladen wird, wird der Googlebot-Typ als Seitenressourcenlast und nicht als Video gezählt.
Auslastung der Seitenressourcen : Ein sekundärer Abruf der von Ihrer Seite verwendeten Ressourcen. Wenn Google die Seite crawlt, ruft es wichtige verknüpfte Ressourcen wie Bilder oder CSS-Dateien ab, um die Seite zu rendern, bevor versucht wird, sie zu indizieren. Dies ist der Benutzeragent, der diese Ressourcenanforderungen stellt.
AdsBot : Einer der AdsBot-Crawler. Wenn Sie einen Anstieg dieser Anfragen feststellen, haben Sie wahrscheinlich kürzlich eine Reihe neuer Ziele für dynamische Suchanzeigen auf Ihrer Website erstellt. Sehen Sie , warum meine Crawling-Rate gestiegen ist . AdsBot crawlt URLs etwa alle zwei Wochen.
StoreBot : Der Produkt-Shopping-Crawler.
Anderer Agententyp : Ein weiterer Google-Crawler, der hier nicht angegeben ist.

Der Großteil Ihrer Crawl-Anfragen sollte von Ihrem primären Crawler kommen. Wenn Crawling-Spitzen auftreten, überprüfen Sie den Typ des Benutzeragenten. Wenn die Spitzen durch den AdsBot-Crawler verursacht zu werden scheinen, lesen Sie „Warum ist meine Crawling-Rate gestiegen" ?

Fehlerbehebung

Crawling-Rate zu hoch

Der Googlebot verfügt über Algorithmen, die verhindern, dass er Ihre Website beim Crawlen überlastet. Wenn Sie jedoch aus irgendeinem Grund die Crawling-Rate begrenzen müssen, erfahren Sie hier, wie das geht .

Einige Tipps zur Reduzierung Ihrer Crawling-Rate:

Optimieren Sie Ihre robots.txt-Datei so, dass Seiten blockiert werden, die nicht aufgerufen werden sollten.
Als kurzfristige Lösung können Sie in der Search Console Ihre bevorzugte maximale Crawling-Rate festlegen. Wir raten davon ab, dies langfristig zu verwenden, da Sie uns so nicht genau sagen können, welche Seiten oder Ressourcen gecrawlt werden sollen und welche nicht.
Stellen Sie sicher, dass Sie das Crawlen zu Seiten mit „unendlichen" Ergebnissen, wie einem unendlichen Kalender oder einer unendlichen Suchseite, nicht zulassen. Blockieren Sie sie mit robots.txt- oder nofollow-Tags .
Wenn URLs nicht mehr existieren oder verschoben wurden, stellen Sie sicher, dass Sie die richtigen Antwortcodes zurückgeben: Verwenden Sie 404 oder 410 für URLs, die nicht mehr existieren oder ungültig sind; Verwenden Sie 301-Weiterleitungen für URLs, die dauerhaft durch andere ersetzt wurden (302, wenn dies nicht dauerhaft ist); Verwenden Sie 503 für vorübergehende geplante Ausfallzeiten. Stellen Sie sicher, dass Ihr Server einen 500-Fehler zurückgibt, wenn er Probleme erkennt, die er nicht lösen kann.
Wenn Ihre Website überlastet ist und Sie eine Notfallreduzierung benötigen, lesen Sie Warum ist meine Crawling-Rate gestiegen? unten.

Warum ist meine Crawling-Rate gestiegen?

Wenn Sie eine Menge neuer Informationen veröffentlichen oder einige wirklich nützliche Informationen auf Ihrer Website haben, wird Ihre Website möglicherweise etwas häufiger gecrawlt, als Ihnen lieb ist. Zum Beispiel:

Sie haben die Crawling-Blockierung für einen großen Teil Ihrer Website aufgehoben
Sie haben Ihrer Website einen großen neuen Bereich hinzugefügt
Sie haben eine große Anzahl neuer Ziele für dynamische Suchanzeigen hinzugefügt, indem Sie neue Seiten-Feeds oder URL_Equals-Regeln hinzugefügt haben

Wenn Ihre Website so stark gecrawlt wird, dass es zu Verfügbarkeitsproblemen kommt, können Sie sie wie folgt schützen:

Bestimmen Sie, welcher Google-Crawler Ihre Website übercrawlt. Sehen Sie sich Ihre Website-Protokolle an oder verwenden Sie den Crawl-Statistikbericht .
Sofortige Linderung:
- Wenn Sie eine einfache Lösung wünschen, verwenden Sie robots.txt , um das Crawling für den überladenden Agenten (Googlebot, Adsbot usw.) zu blockieren. Es kann jedoch bis zu einem Tag dauern, bis die Wirkung eintritt. Blockieren Sie jedoch nicht zu lange, da dies langfristige Auswirkungen auf Ihr Crawling haben kann.
- Wenn Sie eine erhöhte Last dynamisch erkennen und darauf reagieren können, geben Sie HTTP 503/429 zurück, wenn Sie sich Ihrem Bereitstellungslimit nähern. Stellen Sie jedoch sicher, dass Sie 503 oder 429 nicht länger als zwei oder drei Tage zurückgeben, da dies sonst dazu führen kann, dass Google Ihre Website auf lange Sicht seltener crawlt.
Ändern Sie Ihre Crawling-Rate auf der Seite Crawling-Rate-Einstellungen , sofern die Option verfügbar ist.
Zwei oder drei Tage später , wenn sich die Crawling-Rate von Google angepasst hat, können Sie Ihre robots.txt-Blöcke entfernen oder die Rückgabe der Fehlercodes 503 oder 429 beenden.
Wenn Sie mit AdsBot- Crawlings überhäuft werden, liegt das Problem wahrscheinlich daran, dass Sie mithilfe von URL_Equals oder Seiten-Feeds zu viele Ziele für dynamische Suchanzeigen auf Ihrer Website erstellt haben. Wenn Sie nicht über die Serverkapazität verfügen, um diese Crawls durchzuführen, sollten Sie entweder Ihre Anzeigenziele einschränken, URLs in kleineren Mengen hinzufügen oder Ihre Bereitstellungskapazität erhöhen. Beachten Sie, dass AdsBot Ihre Seiten alle zwei Wochen crawlt. Sie müssen das Problem also beheben, sonst tritt es erneut auf.
Beachten Sie, dass die Crawling-Rate nach 90 Tagen wieder automatisch angepasst wird, wenn Sie die Crawling-Rate über die Seite mit den Crawling-Einstellungen eingeschränkt haben.

Die Crawling-Rate scheint zu niedrig zu sein

Sie können Google nicht anweisen, Ihre Crawling-Rate zu erhöhen (es sei denn, Sie haben sie für Ihre Property ausdrücklich reduziert ). Sie können jedoch mehr darüber erfahren, wie Sie Ihr Crawling für sehr große oder häufig aktualisierte Websites verwalten .

Wenn Sie bei kleinen oder mittelgroßen Websites feststellen, dass Google nicht Ihre gesamte Website crawlt, aktualisieren Sie die Sitemaps Ihrer Website und stellen Sie sicher, dass Sie keine Seiten blockieren .

Warum ist meine Crawling-Rate gesunken?

Im Allgemeinen sollte Ihre Google-Crawling-Rate über den Zeitraum von ein oder zwei Wochen relativ stabil sein; Wenn Sie einen plötzlichen Rückgang bemerken, sind hier einige mögliche Gründe:

Sie haben eine neue (oder sehr weit gefasste) robots.txt-Regel hinzugefügt. Stellen Sie sicher, dass Sie nur die Ressourcen blockieren, die Sie benötigen. Wenn Google bestimmte Ressourcen wie CSS oder JavaScript benötigt, um den Inhalt zu verstehen, stellen Sie sicher, dass Sie diese nicht für den Googlebot blockieren.
Fehlerhafter HTML-Code oder nicht unterstützter Inhalt auf Ihren Seiten: Wenn der Googlebot den Inhalt der Seite nicht analysieren kann, weil er möglicherweise einen nicht unterstützten Medientyp verwendet oder die Seite nur aus Bildern besteht, kann er diese nicht crawlen. Verwenden Sie das URL-Inspektionstool, um zu sehen, wie Googlebot Ihre Seite sieht.
Wenn Ihre Website langsam auf Anfragen reagiert, drosselt der Googlebot seine Anfragen, um eine Überlastung Ihres Servers zu vermeiden. Überprüfen Sie den Crawl-Statistikbericht, um festzustellen, ob Ihre Website langsamer reagiert.
Wenn die Fehlerrate Ihres Servers zunimmt, drosselt der Googlebot seine Anfragen, um eine Überlastung Ihres Servers zu vermeiden.
Stellen Sie sicher, dass Sie Ihre bevorzugte maximale Crawling-Rate nicht gesenkt haben.
Wenn eine Website Informationen enthält, die sich seltener ändern oder nicht von sehr hoher Qualität sind, crawlen wir sie möglicherweise nicht so häufig. Werfen Sie einen ehrlichen Blick auf Ihre Website, holen Sie neutrales Feedback von Personen ein, die nichts mit Ihrer Website zu tun haben, und überlegen Sie, wie oder wo Ihre Website insgesamt verbessert werden könnte.

Die Gesamtzahl der Crawling-Berichte ist viel höher als die Gesamtzahl der Serverprotokolle Ihrer Website

Wenn die in diesem Bericht angezeigte Gesamtanzahl der Crawls viel höher ist als die Crawling-Anfragen von Google in Ihren Serverprotokollen, kann dies passieren, wenn Google Ihre Website nicht crawlen kann, weil Ihre robots.txt-Datei zu lange nicht verfügbar ist . Wenn dies geschieht, zählt Google Crawls, die es möglicherweise durchgeführt hätte , wenn Ihre robots.txt-Datei verfügbar gewesen wäre, führt diese Aufrufe jedoch nicht tatsächlich durch. Überprüfen Sie den Status Ihres robots.txt-Abrufs , um zu bestätigen, ob dies das Problem ist.

Pc Support

Sunday, October 29, 2023