fbpx
Glossar
0

Crawler

Ein Crawler (oder auch Webcrawler, Spider oder Searchbot) ist ein Programm, welches automatisch nach einem vorgegebenen Schema nach bestimmten Informationen sucht. Hinreichende Kenntnisse über Crawler ist im Hinblick auf ihre Bedeutung im Internet sehr wichtig. Außerdem sind Crawler und das Wissen darüber in einigen digitalen Berufszweigen unerlässlich.

Mit unserem Glossar Beitrag möchten wir dich für das Thema Crawler begeistern. Hier werden die Definitionen und Erklärungen von Webcrawler nähergebracht und genau erklärt. Wir wünschen dir viel Spaß beim Lesen. Außerdem wollen wir dir einige Tipps und Empfehlungen mitgeben, wie du vorgehen solltest, um das bestmögliche Ergebnis mit Crawlers zu erreichen. Wir wünschen dir viel Spaß beim Lesen.

Das Wichtigste in Kürze

  • Crawler sind automatisierte Bots und sie durchsuchen das Internet nach Information, indem sie URLs und deren Hyperlinks nacheinander besuchen und abspeichern, um sie danach thematisch zu kategorisieren.
  • Webcrawler sind sehr praktische Tools zur Informationsbeschaffung, insbesondere für SEO-Optimierung für Webseiten und Produkte, da sie helfen die Relevanz bei den Suchmaschinen zu erhöhen.
  • Aufpassen musst du vor allem vor schädliche Webcrawler, da sie deine Webseiten belasten und in Sachen Datenschutz keine Rücksicht nehmen. Deswegen ist ein Schutz vor böswillige Webcrawler unerlässlich.

Glossareintrag: Der Begriff Crawler im Detail erklärt

Wir wollen dir alles Wichtige um das Thema Crawler erklären, damit du das nötige Wissen dafür hast.

Was ist eine Crawler?

Ein Crawler ist die Bezeichnung für ein Computerprogramm, welches im World Wide Web Internetseiten durchsucht und sie nach bestimmten Informationen analysiert. Diese Art von Computerprogramme werden auch Webcrawler, Spider, Searchbot oder Robot genannt(1).

Ein Crawler durchsucht das World Wide Web nach bestimmten Informationen. (Bildquelle: 123rf / Sergii Gnatiuk)

Wie funktioniert ein Crawler?

Im ersten Schritt durchsucht ein Webcrawler nach bestimmten Informationen. Dabei gelangt der Crawler zu einer Website und über Hyperlinks dann zu weiteren URLs. Der Crawler besucht diese URLs der Webseiten und speichert sie in einer Liste ab.

Im Grunde ist es die Aufgabe von einem Crawler, im Internet über das World Wide Web Websites zu durchkämmen und sie analytisch zu betrachten. Dieser Vorgang soll automatisch erfolgen und sich wiederholen.

Auf diese Weise speichert ein Crawler theoretisch alle URLs im World Wide Web ab, die nicht für das Crawlen gesperrt sind. In der praktischen Anwendung wird der Vorgang nach einer Vorgabe beendet und der Webcrawler fängt dann von vorne an zu crawlen. Deswegen werden Crawler auch Bots oder Searchbots genannt, da sie wiederholende Prozesse zum großen Teil automatisch erledigen.

Nach dem Crawlen werden die Informationen der gesammelten Webseiten mithilfe einer Indexierung gespeichert und ausgewertet, um die gesammelten Daten zu ordnen und zu strukturieren(2).

Welche rechtliche Rahmenbedingungen sollte ich bei einem Crawler beachten?

Im Allgemeinem ist die Verwendung von einem Crawler für dich rechtlich unbedenklich und in einigen Bereichen wie SEO oder Marketing sogar notwendig.

Webcrawler bilden die Grundlage für große Suchmaschinen.

Allerdings kannst du leicht mit einem Webcrawler gesammelte Daten missbrauchen und in rechtliche Graubereiche manövrieren. Zum Beispiel kannst du einen Crawler verwenden, um gezielt geschützte Daten zu finden, die unter dem Urheberschutz stehen. Auch ist die Verwendung von E-Mail-Adressen für Dritte unzulässig, besonders ohne Erlaubnis.

Sehr problematisch wird die Sache dann, falls du dich mit einem Crawler zu Informationen und Seiten Eintritt verschaffst, die für ein Webcrawler gesperrt sind. Meistens werden diese Art von Crawlers für gefährliche Dinge eingesetzt.

Welche Vor- und Nachteile gibt es bei einem Crawler?

Die Existenz von Crawler beinhalten einige Vor- und Nachteile, die wir dir kurz hier erläutern möchten.

Vorteile

Das Wissen und Nutzen von einem Webcrawler bietet dir einige Vorteile, die du zu deinen Gunsten nutzen kannst. Webcrawler eignen sich zum einen beim Sammeln von Informationen im World Wide Web. Zusätzlich lassen sich die gesammelten Informationen indexieren, um Struktur und Ordnung in den Daten herzustellen.

Besonders wichtig ist eine gute Grundkenntnis von Crawler auch, um praktisch deine SEO-Kenntnisse zu erweitern und zu verbessern. Wenn du weiß, wie du deine betreuenden Produkte und Webseiten gut für seriöse Webcrawler sichtbar machst, werden sie am Ende bei den Suchmaschinen hoch gerankt.

Nachteile

Leider bringen Crawler auch ein paar negative Aspekte mit, die wir dir nicht vorenthalten wollen. Schädliche Webcrawler beeinflussen die Webseitenperformance auf negative Weise und in einigen Fällen folgt auch ein unerlaubter Datenklau.

Viele negative Folgen von Webcrawler erfolgen daraus, dass sie für böswillige und illegale Zwecke benutzt und missbraucht werden.

Wieso sollte ich einen Crawler verwenden?

Ein Crawler hilft dir in einigen Bereichen sehr weiter. Besonders im Bereich SEO sind Webcrawler eine große Hilfe, um Webseiten und Produkte in ihrer Sichtbarkeit nach vorne zu bringen(3).

Das Wissen, wie du hoch und positiv bei Crawler gerankt wirst, ist schon viel wert.

Gute Crawler vereinfachen die Suche enorm. Webcrawler sammeln mit hoher Zuverlässigkeit Informationen wie zum Beispiel Nachrichten, statistische Daten oder E-Mail-Adressen.

Auch sind Webcrawler praktisch für Preis- und Produktvergleiche und helfen auch zur Indexierung von gesammelten Daten. Webcrawler sammeln auch viele URLs, die zum Aufbauen von guten Backlinks hilfreich sind.

Welche Arten von Crawler gibt es?

Bei den Arten von Crawler unterscheiden wir anhand von den Aufgaben, die Webcrawler erleben. Die Unterscheidung von Webcrawler ist nicht immer ganz einfach, da ein Webcrawler mehrere Aufgaben erledigen kann oder dass die Aufgaben nicht immer ganz deutlich zu unterscheiden ist.

  • Focused Crawler: Fokussierte Crawler sind die gängigsten und bekannteste Formen von Webcrawler. Solche Crawler suchen im Internet nach bestimmten Inhalten und unterteilen ihre gefundene Webseiten und deren Hyperlinks thematisch nach Kategorien.
  • Crawler zum Data Mining: Dieser Art von Webcrawler sucht mithilfe von statistischen Methoden Zusammenhänge von großen Datenbestände im Internet. Muss sich nicht nur im World Wide Web beschränken.
  • Crawler zur Webometrie: Bei dieser Variante wird meist anhand von Messungen die Struktur und Eigenschaften des Internets und ihren Nutzern.
    E-Mail-Harvester Solche Crawler durchsuchen im Internet nach E-Mail-Adressen und speichern sie ab, um sie danach für weitere Zwecke zu verwenden.

Leider missbrauchen viele die Verwendungszwecke von Webcrawler für fragwürdige bis illegale Zwecke. Bei E-Mail-Harvester werden die Adressen für Dritte gesammelt, um sie für Spam-Mails zu versenden. Auch um urheberrechtlich geschütztes Material zu finden werden Webcrawler genutzt.

Was unterscheidet einen Crawler von einem Scraper?

Während ein Crawler im Normalfall eher Meta-Daten sammelt und sie für die weitere Verwendung ordnet und vorbereitet, sucht ein Scraper sehr zielgerichtet nach bestimmten Seiten und deren Inhalten. Diese werden kopiert und anschließend werden diese Inhalte in sehr ähnlicher Form und ohne Erlaubnis auf eigene Webseiten hochgeladen.

Webseiten, die ihre Inhalte von anderen Webseiten kopieren heißen Scraper Site. Große Suchmaschinen wie Google oder Bing versuchen solche Webseiten zu erkennen und aus ihrem Ranking zu entfernen(4).

Ein Scraper durchsucht nur vorher festgelegte Webseiten während ein Webcrawler durch Verlinkungen auch weitere Seiten durchsuchen kann. Außerdem achten seriöse Crawler auf Begrenzungen wie robots.txt, während Scraper diese meist ignorieren und dadurch Serverüberlastungen und Urheberrechtsverletzungen in Kauf nehmen.

Wo finde ich gute Crawler?

Zu den Crawler von großen Suchmaschinenanbieter bekommen Privatpersonen keinen direkten Zugang. Deren Crawler werden mit viel Geld und Aufwand entwickelt und instandgesetzt. Dafür gibt es viele Tools und Open-Source-Programme für Webcrawler(5, 6).

Große Betreiber von Suchmaschinen besitzen meistens gute Crawler. Wichtige Webcrawler von bekannten Suchmaschinen sind:

  • Google: Googlebot wird aus zwei Crawler für Desktop und für mobile Endgeräte unterteilt. Google bietet zudem viele Tools, womit du deine Daten im Zusammenhang mit dem Googlebot einlesen und verbessern wirst(7).
  • Bing: Mit Bingbot verwendet Microsoft einen eigenen Webcrawler für seine Suchmaschine.
  • Yahoo: Der Webcrawler Slurp Bot sorgt dafür, dass Yahoo User personenbezogene Inhalte erhalten.
  • DuckDuckGo: Die Suchmaschine wirbt damit, keine persönlichen Daten zu sammeln. DuckDuckGo arbeitet mit DuckDuckBot als Crawler.

Wenn du erfahren beim Programmieren bist, kannst du selber einen Webcrawler bauen, der im besten Fall perfekt auf deine Bedürfnisse zugeschnitten ist. Du machst dich aber strafbar, falls du einen Crawler entwickelst, der für Webcrawler gesperrte Inhalte zugreifen kannst.

Wie kann ich mich vor einem Crawler schützen?

Für deine Webseiten ist es von großem Vorteil, wenn sie von Webcrawler von großen Suchmaschinen schnell und leicht gefunden werden. Allerdings ist es für dich auch von größter Wichtigkeit, dass schädliche Crawlers nicht auf deine Webseiten zugreifen können. Solch schädliche Bots verursachen Dinge wie mangelhafte Benutzerfreundlichkeit, Serverausfälle oder Datenklau.

Auch wenn in manchen Fällen einige Schutzmaßnahmen gegen schädliche Webcrawler nicht wirken, ist es trotzdem zu deinem Interesse jede mögliche Schutzmaßnahme aufzuziehen. Webseiten ohne Schutzmaßnahmen gegen schädliche Webcrawler sind denen schutzlos ausgeliefert.

Du als Webseitenbetreiber kannst über der Datei robots.txt auf dem Webspace kommunizieren, dass bestimmte Inhalte nicht erfasst werden sollte. Zusätzlich bestimmen besondere Angaben im HTML-Header und in den Meta-Tags zusätzlich, welche Daten und Seiten du zur Indexierung freigibst. Allerdings halten sich leider besonders schädliche Crawlers nur selten an solche Vorgaben.

Wenn du deine Webseiten vor schädlichen Crawler schützen willst, darfst du nicht vergessen, dass Webcrawler von großen Suchmaschinen trotzdem deine Webseiten ranken sollen. Du solltest anstreben, beides so gut wie möglich zu erreichen. (Bildquelle: Benjamin Dada / unsplash)

Um deine E-Mail-Adressen vor bösartige Crawler zu schützen, kannst du sie so auf deine Webseiten hinterlegen, dass Webcrawlers die Adressen nicht als solche sehen. Eine Möglichkeit wie du die E-Mail-Adresse alternativ schreiben kannst, ist zum Beispiel beispiel(at)domain(dot)com.

ute Bot-Management Programme sorgen dafür, dass seriöse Webcrawler auf deine Webseiten zugreifen können, während ein bösartiger Crawler ausgeschlossen wird. Solche Programme legen Whitelists an, wo seriöse Webcrawler nicht ausgeschlossen sind.

Fazit

Wir finden, dass im SEO-Bereich das Wissen über Crawler essenziell für dich ist. Zum einen bringt dein Wissen über Webcrawler die Grundlage dafür, dass die Bots der Suchmaschinen deine Webseiten und Produkte durch effektive Maßnahmen größere Aufmerksamkeiten schenken und besser positionieren.

Andererseits hilft dir dein Wissen über Crawler auch dabei, dass unseriöse und schädliche Webcrawler nicht deine Webseiten lahmlegen oder wichtige und vertrauenswürdige Daten klauen und für böse Zwecke missbrauchen.

Weiterführende Literatur: Quellen und interessante Links

[1] https://de.wikipedia.org/wiki/Webcrawler [2] https://de.wikipedia.org/wiki/Indexierung [3] https://www.design4u.org/suchmaschinenoptimierung/selbststandige-crawlerbasierte-suchmaschinen-wie-funktionieren-suchmaschinen-diplomarbeit-seo-strategien-kapitel-2-3/ [4] https://webmaster-de.googleblog.com/2008/06/duplicate-content-aufgrund-von-scraper.html [5] https://www.octoparse.com/blog/top-20-web-crawling-tools-for-extracting-web-data [6] https://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ [7] https://support.google.com/webmasters/answer/182072?hl=de

Bildquelle: pixabay / StockSnap

Weitere Glossarbeiträge

Featured Artikel im Glossar
Menü