Was ist ein Crawler?

 

Ein Crawler ist ein Programm, das eigenständig das Internet durchsucht und Inhalte analysieren kann. Sie werden auch Webcrawler, Robots oder Searchbots genannt, wobei ein Bot ursprünglich ein Programm ist, das selbstständig automatisierte Aufgaben erledigt. Die Tätigkeit selbst nennt man Crawling.
Die meisten Crawler werden von Suchmaschinen losgeschickt, um das Web nach Inhalten abzusuchen. Auch Google schickt seinen eigenen Crawler auf die Reise, den sogenannten Googlebot. Crawler besuchen Webseiten im Normalfall über Links, die auf bereits bekannten bzw. indexierten Webseiten erfasst worden sind. Die durch den Crawler ausgelesenen Inhalte werden im Cache gespeichert, ausgewertet und je nach Status auch indexiert.

 

Was wird durch den Crawler gefunden?

 

Da der Crawler die vorhandenen Verlinkungen notiert und sie im Anschluss versucht abzuarbeiten, müssen die dahinterliegenden Seiten bzw. URLs zwingend erreichbar sein. Es können keine Inhalte, die beispielsweise hinter einer Login-Maske liegen, vom Crawler erfasst werden. Ein großer Teil des Internet bleibt auf diese Weise für die Crawler unsichtbar (das sog. „Deep Web“).
Aber auch der Crawler selbst kann den Prozess abbrechen, um Ressourcen zu schonen oder gewinnbringender einzusetzen. Die gefundenen URLs werden gefiltert und nach Wichtigkeit priorisiert. Außerdem muss geprüft werden, ob sie bereits besucht wurden. Relevante URLs werden der Liste hinzugefügt, die der Crawler abarbeitet.
Manche Seiten werden für unwichtig befunden und dementsprechend auch nicht gecrawlt. Andere Seiten, z.B. solche, zu denen viele Verlinkungen existieren oder deren Inhalte sich oft ändern, werden häufig durchsucht. Hierfür wird der Website ein sogenanntes Crawl Budget zugewiesen: Eine Seite, die als relevant eingestuft wurde und deren Inhalte bspw. häufig aktualisiert werden, hat dementsprechend ein hohes Crawl Budget zur Verfügung und wird häufiger und tiefergehend gecrawlt.

 

Crawler müssen draußen bleiben?

 

Mit einer im Hauptverzeichnis abgelegten Textdatei robots.txt oder mit entsprechenden Meta-Tags im Kopfbereich eines HTML-Dokuments kann man den Crawler anweisen, die entsprechende Seite nicht zu durchsuchen. Das kann sinnvoll sein, wenn die Seite noch nicht fertig ist oder aus anderen Gründen nicht indexiert werden soll.
Das funktioniert allerdings nur bei Crawlern, die sich an diesen Standard halten, wie zum Beispiel der Googlebot. Es stellt also keine technische Hürde dar, mit der sich schädliche Bots abwehren ließen.