13. Mrz. 2023

Was sind Google Bots?

Inhalt

Google Bots, auch genannt Spider, Webcrawler oder auch einfach Bots, sind Programme, die Websiten auslesen und Daten sammeln. Sie durchsuchen das gesamte Internet nach Informationen. Sie helfen Google dabei, seine Indexdatenbank zu erweitern und zu aktualisieren, was wiederum den Benutzern hilft, relevantere Ergebnisse zu finden.

Welche Google Bots gibt es?

Google-Bots können jeden Tag mehrere Millionen Webseiten besuchen und sie in den Index einpflegen. Dieser Prozess ist ziemlich umfangreich und erfordert viel Rechenleistung. Neben den normalen Google Bots, deren Aufgabe es ist Seiteninhalte auszulesen, hat Google auch andere spezialisierte Crawler im Umlauf. Diese sind auf das Crawling von ganz bestimmten Inhaltstypen ausgerichtet.

Google Desktop Crawler

Einer der beliebtesten Google Bots ist der Googlebot-Desktop-Crawler. Dieser Bot durchsucht die Desktop-Version einer Website und indexiert alle Seiten der Website in Googles Suchindex.

Mobile Bot

Der Mobile-Bot hingegen durchsucht die mobiloptimierte Version einer Website und speichert sie im gleichen Index wie die Desktopversion. Ein weiterer Bot ist der Imagebot, der Bilder indexiert. Der Imagebot scannt nicht nur Bilder auf der Website, sondern auch auf anderen Websites, sodass in den Suchergebnissen nur qualitativ hochwertige Bilder gezeigt werden.

Video Bot

Google hat auch einen Video-Bot entwickelt, der Videos von YouTube und anderen Video-Sharing-Websites crawlt und in seinem Index speichert.

News Bot

Schließlich gibt es noch den Newsbot, der Nachrichtenartikel von verschiedenen Medienquellen scannt und in den Google-News-Index aufnimmt.

Google hat also mehrere Bot -Typen im Einsatz, die alle dazu beitragen können, die Suchergebnisse einer Suchmaschine wie Google zu optimieren. Diese Bots helfen, relevante Inhalte für Benutzer zu liefern und gleichzeitig unerwünschte Inhalte aus dem Index herauszuhalten.

Das Internet ist ein gigantisches Netzwerk aus Informationen, welches in Form von Webseiten organisiert ist und mithilfe einer Suchmaschine lassen sich diese Daten jederzeit abrufen. Grundsätzlich lässt sich der Prozess der Google Suche in 3 Phasen einteilen: 1. Crawling 2. Indexierung 3. Bereitstellung

Crawling

Bevor eine Seite über die Google Suche angezeigt werden kann, werden Texte, Fotos und Videos der Website von den Google Bots vollständig heruntergeladen. Dieser Prozess wird auch als Crawling bezeichnet.

Hiernach analysiert Google den Content der Website, indem Textinhalte, ALT-Attribute, <title>-Elemente sowie Bilder und Videos verarbeitet werden.

Google Bots sind ein wesentlicher Bestandteil der Suchmaschinenoptimierung. Ohne Webcrawler kann die Suchmaschinenoptimierung nicht erfolgreich sein, da die meisten Suchmaschinen, sowie Google, Bing und Yahoo, diese Crawler verwenden, um Webseiten und Inhalte zu indexieren. Dies bedeutet, dass ohne die Hilfe von den Crawlern keine Seite in den Suchergebnissen angezeigt werden kann.

Google-Bots helfen dem Suchalgorithmus von Google bei der Bestimmung der Relevanz und Qualität einer Website für bestimmte Suchanfragen. Dies geschieht durch das Scannen von Inhalten auf Webseiten, um zu bestimmen, ob sie relevant oder nützlich für bestimmte Anfragen sind. Wenn ja, dann wird die Seite höher in den Suchergebnissen platziert als andere Seiten mit ähnlichem Inhalt.

Googles Webcrawler helfen auch bei der Bewertung anderer Faktoren wie Linkpopularity und PageRank. Linkpopularity ist ein Maß dafür, wie viele andere Websiten auf die eigene verlinken und wie gut diese im organischen Ranking platziert ist. PageRank ist ein Algorithmus, mit dem Google feststellt, welche Seite am relevantesten ist. Diese beiden Faktoren tragen maßgeblich zur Platzierung der Website in den SERPs (Search Engine Result Pages) bei.

Dieser Crawling-Prozess findet ständig statt und kann das Ranking, je nachdem, was auf der Website gepostet oder veröffentlicht wird, beeinflussen. Daher ist es entscheidend, dass regelmäßig qualitativ hochwertige Inhalte veröffentlicht und der Content der eigenen Website optimiert wird. Auf diese Weise kann sichergestellt werden, dass die Seite in den Suchergebnissen angezeigt wird und gleichzeitig mehr Traffic erzielt wird.

Indexierung

Wird der Seiteninhalt als wertvoll und hochwertig eingestuft, kommt es zur Indexierung in den Google-Index, sodass im Fall einer Suchanfrage, Google im Index nach übereinstimmenden Seiten sucht und die Ergebnisse in den SERPs (search engine result pages) anzeigt, die von der Maschine als relevant eingestuft werden.

Wie werden Inhalte von der Google Indexierung ausgeschlossen?

Google Bots sind ein wesentlicher Bestandteil des Google-Index, denn sie scannen sämtliche Webseiten, die es im Internet gibt, und indexieren ihren Inhalt. Aber es gibt auch Fälle, in denen man bestimmte Inhalte von der Google-Indexierung ausschließen möchte.

Dabei gibt es mehrere Möglichkeiten, wie man das erreichen kann. Eine der einfachsten Methoden ist die Verwendung der Robots Exclusion Standard-Datei (robots.txt). Diese Datei befindet sich normalerweise im Root-Verzeichnis einer Seite und enthält Anweisungen für den Crawler, welche Bereiche der Seite indexiert und welche nicht indexiert werden sollen. Zum Beispiel kann man angeben, dass der Crawler bestimmte Ordner, Seiten oder Dateien nicht öffnen oder indexieren soll.

Alternativ lassen sich auch die Meta-Robots Tags verwenden, um die Indexierung einzelner Seiten zu beschränken. Diese HTML-Tags werden in den Header-Bereich der Seitenquelltexte implementiert und bieten Kontrolle über die Indexierung spezifischer Seiten und Subordner. Mit diesem Tag können Webmaster dem Crawler mitteilen, ob und welche Seiten indexiert werden sollen oder nicht.

Außerdem können noch andere Techniken wie die noindex-Tags (nofollow) verwendet werden, um Inhalte vom Auslesen durch Google Bots zu verhindern. Dabei ist es wichtig zu verstehen, dass die noindex-tags nur die Bots, nicht aber menschliche Besucher von der Website ausschließen.

Bereitstellung

Gibt ein Nutzer eine Suchanfrage ein, suchen unsere Maschinen im Index nach übereinstimmenden Seiten und geben die Ergebnisse zurück, die unserer Meinung nach am hochwertigsten und für die Suchanfrage des Nutzers am relevantesten sind. Die Relevanz wird von Hunderten von Faktoren bestimmt, wie etwa dem Standort, der Sprache und dem Gerät des Nutzers (Computer oder Smartphone).

Wie oft crawlt Google meine Seite?

Wie oft und in welchen Zeitabständen die Seite von den Google Bots gecrawlt wird, hängt von unterschiedlichen Faktoren ab. Diese lassen sich zum geringfügigen Teil durch SEO-Maßnahmen beeinflussen. Grundsätzlich spielen dabei die Anzahl der Backlinks sowie der Pagerank der Seite eine wichtige Rolle. Denn je mehr Links eine Seite hat und je besser sie in Suchmaschinenergebnissen erscheint, desto mehr Besucher erhält sie.

Crawling-Frequenz des Googlebots ändern

Die Crawling-Frequenz des Googlebots gibt an, wie oft der Bot die Website ansteuert, um nach neuen oder geänderten Inhalten zu suchen. Je höher die Crawling-Frequenz, desto schneller werden neue oder geänderte Seiten im Google-Index vermerkt. Umgekehrt bedeutet eine niedrige Crawling-Frequenz, dass der Googlebot die Website seltener besucht.

Grundsätzlich müht sich Google darum, dass der Crawl-Prozess die Serverleistung so wenig wie möglich beeinträchtigt. Es kann jedoch passieren, dass wenn zu viele Anfragen pro Sekunde durchgeführt werden, die Server beeinträchtigt werden.

In der Google Search Console lässt sich die Crawling-Frequenz der Google Bots verringern, indem ein spezieller Antrag an Google gesendet wird, mit dem Ziel, die Auslastung der Server zu minimieren. Die Optimierung der Crawling-Frequenz des Googlebots kann somit ein effektives Mittel sein, den technischen Prozess der Suchmaschinen-Indexierung zu verbessern.

Wie kann ich Googlebots auf meine Website schicken?

Du kannst den Google-Bot manuell auf deine Website schicken, indem du die URL in die Google Search Console eingibst und dann „Crawl this URL and its direct links“ (Diese URL und ihre direkten Links crawlen) anklicken. Der Google Bot scannt dann die Website nach neuen oder geänderten Seiten bzw. Inhalten.

Grundsätzlich ist es wichtig sicherzustellen, dass dem Crawler von Google überhaupt ein Zugang zu der Website gegeben ist. Dazu musst du den robots.txt-Editor verwenden, um dem Bot mitzuteilen, welche Teile deiner Website gescannt werden sollten und welche nicht. Wenn der robots.txt-Editor richtig konfiguriert ist, kann der Bot alle relevanten Seiten scannen, aber keine Seiten auslesen oder indexieren, die nicht für Suchmaschinenergebnisse relevant sind.

Nachdem sichergestellt ist, dass der Crawler Zugriff auf die Seite hat, braucht er Anweisungen, wo er suchen soll. Dafür empfiehlt sich das Erstellen einer Sitemap. Eine Sitemap ist eine XML-Datei mit all den URLs einer Website. Der Bot verwendet diese Informationen, um Seiten leichter auszulesen bzw. zu indexieren.

Sobald der Crawler Zugang zur Site Map hat, muss er diese abrufen. Dazu muss man ihm einfach mitteilen, wo die Sitemap zu finden ist. Dies lässt sich im Header-Bereich des HTML-Quellcodes bewerkstelligen. Hier wird dem Crawler mitgeteilt, an welcher Stelle er nach der Sitemap suchen soll.

Der letzte Schritt besteht darin, den Google Bots anzuweisen, die Inhalte einer Website auszulesen. Dazu nutzt man wieder die Google Search Console und gibt die URL der Seite ein, die gescannt werden soll. Anschließend “Crawl this URL and its direct links” (Diese URL und ihre direkten Links crawlen) wählen: Die Bots crawlen dann die Seite und speichern die ausgelesenen Inhalte im Google-Index ab.

Quellen

https://developers.google.com/search/docs/crawling-indexing/googlebot?hl=de
https://de.ryte.com/wiki/Googlebot
https://www.sistrix.de/frag-sistrix/technisches-seo/crawling/googlebot

Weiterführende Artikel

Darum ist die Search Console wichtig für deine SEO
Kompetenzen eines SEO-Beraters
10 Dinge, die eine Leadgenerierung unmöglich machen
Diese 20 SEO-Fehler solltest du unbedingt vermeiden

Redaktion