Crawler

Crawler sind die „Spinnen“ des World Wide Web. Die Bots durchkämmen das Netz und sammeln neue Informationen. Daraus legen sie Indizes an. Crawler sorgen dafür, dass die großen Suchmaschinen stets mit aktuellen Suchergebnissen versorgt werden.

Crawler - Kurzfassung

Crawler sind Bots, die das Internet nach Informationen durchsuchen. Sie legen Datenbanken und Verzeichnisse an, darüber hinaus sammeln sie Kontakt- und Profildaten. Durch das kontinuierliche Sammeln von Daten verbessern sie die Leistung der Suchmaschinen. Weil sie sich sicher durch die vielen Verästelungen des Netzes bewegen, werden sie auch als „Spider Bots“ bezeichnet.

Was sind Crawler?

Ein Crawler ist ein Bot oder Computerprogramm, das Inhalte und Daten im Web sammelt. Das Durchsuchen von Internetseiten verläuft dabei völlig automatisiert. Vor allem Suchmaschinen setzen Crawler ein, um Indexe aufzubauen und bessere Suchergebnisse zu liefern. Crawler bilden die Basis für die Arbeit von Suchmaschinen. Der Begriff „Crawler“ basiert auf der ersten Suchmaschine, dem Webcrawler. Der heute bekannteste Webcrawler ist der Googlebot.

Welche Crawler gibt es?

Crawler werden in ihrem Fokus und in ihrer Reichweite unterschieden.
Suchmaschinen-Crawler sind die älteste und am weitesten verbreitetet Art von Crawler. Sie sind die Bots großer Suchmaschinen und sammeln bzw. indexieren in deren Auftrag Inhalte von Websites. Dadurch verbessern sie die Datenbanken der Suchmaschinen und letztlich die Suchergebnisse für den User. Zu den bekanntesten Webcrawlern gehört Googlebot.

Personal-Website-Crawler decken nur ein bestimmtes Aufgabengebiet ab und können in erster Linie von Unternehmen genutzt werden. Zu ihren Aufgaben gehört die Überwachung von bestimmten Suchbegriffen oder die Erreichbarkeit von URLs.
Kommerzielle Website-Crawler sind meist als Tools käuflich zu erwerben. Sie sparen Unternehmen Kosten, die eine Crawler-Lösung benötigen, denen aber die nötige Zeit für eine eigene Entwicklung fehlt. In ihren Funktionen sind sie umfangreicher als die Personal-Website-Crawler.

Cloud-Website-Crawler sichern Daten in einer Cloud und sind ebenfalls kostenpflichtige Tools, die von Software-Firmen für Unternehmen entwickelt wurden. Weil sie cloudbasiert funktionieren, sind sie unabhängig von lokalen PCs und lassen sich so auch von mobilen Geräten aus nutzen.

Einsatzgebiete eines Crawlers

Zu den primären Zielen eines Crawlers gehört das Erstellen eines Index. Doch sie können auch für andere Ziele bzw. Tätigkeiten eingesetzt werden:

Preisvergleichsportale wie idealo.de: Crawler suchen nach Preisen und anderen relevanten Informationen für bestimmte Produkte, sodass der potentielle Kunde ein noch komfortableres Erlebnis bei der Suche nach seinem Wunschprodukt hat.

Data Mining: Crawler dienen der Sammlung öffentlich zugänglicher E-Mail-Adressen.

Datengenerierung: Crawler versorgen Informationsportale mit Daten.

Webanalyse: Crawler sammeln Daten zu ein- oder ausgehenden Links und zu Seitenaufrufen.

Crawlen manuell anfordern

Websites können auch manuell durch Google gecrawlt werden. So besteht in der Google Search Console die Möglichkeit, das Crawlen ganzer Websites, einer Domain oder aber einzelner Seiten manuell zu beantragen. Dadurch muss der Websitebetreiber nicht auf das „Auffinden“ der Seite durch die Crawler der Suchmaschinen warten, sondern kann den gesamten Prozess etwas beschleunigen. Dies lohnt sich insbesondere bei neuen Seiten, die kaum über Links verfügen, die auf diese Seite verweisen.

Bedeutung für die Suchmaschinenoptimierung

Websites können nur dann in den Suchergebnisseiten ranken, wenn sie durch Crawler „gefunden“ und indexiert werden. Für jede Seite verfügt der Crawler nur über einen begrenzten Zeitraum, der ihm zum Crawlen zur Verfügung steht. Dieser Zeitraum wird als Crawl Budget bezeichnet. Eine optimierte Struktur der Website sowie eine durchdachte Navigation ermöglichen es Websitebetreiber, das Crawl Budget besser nutzen zu können. Eingehende Links und eine Seite, die über viel Traffic verfügt, erhöhen das Budget.

Für die Steuerung der Crawler ist die robots.txt.-Datei und die XML-Sitemap zuständig. Mithilfe der Google Search Console kannst Du außerdem prüfen, ob der Crawler alle Inhalte der Website gecrawlt und indexiert hat.

Sperrung eines Crawlers

Soll eine Website nicht gecrawlt werden, kann dies über die robots.txt-Datei ausgeschlossen werden. Eine Indexierung der Inhalte durch Suchmaschinen kann dennoch nicht gänzlich vermieden werden.

Ein Crawler untersucht Seiten und sammelt Informationen für die Suchergebnisse einer Suchmaschine. Auf diese Weise entsteht ein Index.