Was ist Data Scraping? Definition und Anwendungsbereich

Beim Data Scraping geht es darum, Daten von einer Website in eine Tabellenkalkulation zu übernehmen. Für einen erfahrenen Data Scraper ist diese Methode ein effizienter Weg, um eine große Menge an Daten zur Analyse, Aufbereitung oder Präsentation zu erhalten. 

Ein Beispiel: Stellen Sie sich vor, Sie arbeiten für einen Schuhhersteller, und Ihr Chef bittet Sie, Personen zu finden, die bereit wären, Ihre Produkte auf Instagram zu bewerben. Sie könnten Tausende von Suchanfragen nach Personen durchführen, die Ihnen helfen könnten. Oder Sie könnten ein Scraping-Tool einsetzen, das eine Tabelle füllt, die Sie auswerten können. Raten Sie mal, welche Methode schneller ist?

Was ist Data Scraping?

Eine Website ist voll von nützlichen Daten. Oft haben Sie aber nicht die Zeit oder die Energie, sich durch jede Page zu klicken und detaillierte Notizen zu machen. Hier kommt Data Scraping ins Spiel. Mit einem einzigen Tool erhalten Sie alle gewünschten Daten (ohne das lästige Klicken und Tippen). 

Data-Scraping-Tools sind benutzerfreundlich. Sie spucken keinen Code, keine Tags oder Formatierungsregeln aus. Stattdessen lassen sich die Ergebnisse einfach interpretieren und bearbeiten. 

Es gibt drei Haupttypen von Data Scraping:

  1. Report Mining: Programme überführen Daten von Websites in nutzergenerierte Reports. Es ist ein bisschen wie das Ausdrucken einer Seite, wobei der Report des Users der Drucker ist. 
  2. Screen Scraping: Das Tool überführt Daten von älteren Rechnern auf moderne Versionen. 
  3. Web Scraping: Tools überführen Daten von Websites in Reports, die User anpassen können. 

Data Scraping eignet sich für:

  • Website-Upgrades. Ein Screen Scraper kann ein nützliches Tool sein, wenn Sie mit einem sehr alten Rechner arbeiten, der nicht mit einem neuen System interagieren kann. Anstatt zu versuchen, den alten Rechner neu zu kodieren oder zu updaten, können Sie die Daten einfach extrahieren und mit dem neuen System weiterarbeiten. 
  • Wettbewerbsanalyse. Ein Wettbewerber veröffentlicht alle Farben, Größen und Preise eines Produkts online. Mithilfe von Data Scraping können Sie herausfinden, wie viel Ihr Produkt kosten sollte und wie viele Menschen es kaufen möchten. Experten halten diese Form der Analyse für eine der besten Einsatzmöglichkeiten von Data Scraping
  • Aggregation von Daten. Haben Sie schon einmal eine Website besucht, die mit Zeitungsschlagzeilen aus der ganzen Welt gefüllt war? Oder sind Sie schon einmal auf eine Page gestoßen, die Preise und Produkte mehrerer verschiedener Unternehmen an einem Ort vergleicht? Mit Data Scraping ist all das möglich.
  • Detaillierte Reports. Im Jahr 2018 haben Reporter von BuzzFeed alle State of the Union Addresses miteinander verglichen, die jemals in den Vereinigten Staaten gehalten wurden. Die Analyse stützte sich auf Daten des Presidency Project der University of California, Santa Barbara. Ohne Data Scraping hätten die Reporter alle Ansprachen von Hand eintippen müssen, was das Projekt erheblich verzögert hätte. 

Die Technik lässt sich allerdings auch missbrauchen. So lassen sich mit Scraping-Tools etwa E-Mail-Adressen oder Social-Media-Profile sammeln. Diese Daten werden dann gebündelt und an E-Mail-Spammer verkauft.

Böswillige Akteure können Scraping-Tools auch dazu verwenden, um Daten zu stehlen. Facebook, zum Beispiel, hat im Jahr 2020 zwei Unternehmen verklagt, weil sie Erweiterungen installiert hatten, die Namen, Geburtstage und andere sensible Daten erfassten. Die User bekamen nichts davon mit, dass diese Unternehmen ihre Daten an Dritte verkauften. 

Mitunter wird Data Scraping mit Web Crawling verwechselt, die beiden Techniken sind jedoch grundverschieden. Ein Web Crawler analysiert den Code einer Page und kann Pages sogar ganz überspringen, wenn der Programmierer das entsprechende Tag einfügt. Die Erkenntnisse helfen Websites wie Google zu verstehen, was in den Suchergebnissen angezeigt werden soll. Data-Scraping-Tools ignorieren Code größtenteils und bieten keine Möglichkeit für Requests.

Wie funktioniert Data Scraping? 

Angenommen, Sie möchten Daten aus einer von Ihnen recherchierten und geprüften Quelle extrahieren. Wie fangen Sie an? Am besten mit einem Tool, das jemand bereits zu diesem Zweck programmiert hat. 

Versuchen Sie es mit einem Web Scraper. Diese Tools folgen in der Regel einem dreistufigen Prozess:

  1. Request. Das Programm verwendet einen „GET“-Befehl, um Daten von einer von Ihnen gewählten Page zu sammeln. 
  2. Parse. Der Scraper sucht nach dem konkreten Datenfeld, das Sie angegeben haben. 
  3. Display. Die gewünschten Daten fließen in einen von Ihnen spezifizierten oder erstellten Report ein. 

Diese Tools mögen komplex erscheinen und sind mitunter schwer zu programmieren. Aber im Grunde sind sie bemerkenswert einfach zu handhaben. Diese drei Data-Scraping-Tools eignen sich zum Experimentieren:

  • Data Scraper: Diese Chrome-Erweiterung überführt Daten von jeder Page, die Sie besuchen, in ein von Ihnen gewähltes Format. Sie müssen also nicht selbst entwickeln. Einfach nur die Page auswählen und warten. 
  • Data Miner: Diese Erweiterung für Chrome und Microsoft Edge überführt Daten in CSV-Dateien. Sie können diese Daten dann in Excel öffnen und sie nach Belieben bearbeiten. 
  • Data Scraping Crawler: Dieses Tool kann Telefonnummern, E-Mail-Adressen oder Social-Media-Profile extrahieren. Die Daten fließen in Excel, und Sie können das Programm so konfigurieren, dass die Felder automatisch aktualisiert werden. 

Möchten Sie nicht selbst aktiv werden, können Sie über UpWork auch einen Data Scraper engagieren.

4 Wege, Ihre Daten zu schützen 

Der einzige Weg, um sicherzustellen, dass niemand Ihre Daten stiehlt, besteht darin, sie nicht auf Ihre Website zu stellen. Aber genau dieser Schritt kann dazu führen, dass Ihre Kunden gezielt nach Ihren Produkten und Preisen suchen. Um wettbewerbsfähig zu bleiben, müssen Sie online sein – dennoch können Sie Ihre Daten schützen. 

Versuchen Sie es mit diesen vier Strategien:

  1. Beschränken Sie Requests. Stellen Sie mit Hilfe von Raten-Beschränkungen sicher, dass eine IP-Adresse Ihren Server innerhalb eines bestimmten Zeitraums nicht zu oft anpingen kann. 
  2. Verwenden Sie CAPTCHA. Registrieren Sie mehrere Anfragen vom selben Server, dann bitten Sie den User, seine Identität zu bestätigen, indem er ein einfaches Rätsel löst oder auf einen Button tippt. Da Bots diese Hürde nicht nehmen können, ziehen Sie Scraping-Tools so aus dem Verkehr. 
  3. Nutzen Sie Bilddateien. Web-Scraping-Tools sind für die Analyse und Auswertung von Wörtern konzipiert, nicht von Fotos. Betten Sie sensible Daten, wie Kontaktinformationen und Preise, in Bilder ein, anstatt sie im Text zu exponieren. 
  4. Strukturieren Sie Ihren Text neu. Einfache Änderungen (wie die Verwendung von [at] statt @ in einer E-Mail-Adresse) können Data-Scraping-Tools in die Irre führen und den Diebstahl und die Weiterverwendung dieser Daten erheblich erschweren.

Sie werden nicht immer alle Ihrer Daten schützen können.Aber diese vier Strategien können Ihnen helfen, Ihre sensiblen Pages zu schützen.

Wenn Sie nach weiteren Möglichkeiten suchen, um Ihre Daten zu schützen, dann setzen Sie sich gerne mit uns in Verbindung. Okta unterstützt Sie beim Schutz all Ihrer Identitäten – von denen Ihrer Kunden bis hin zu denen Ihrer Mitarbeitenden. Mehr dazu hier.

Referenzen

Five Best Ways to Use Data Scraping. (November 2019). Towards Data Science. 

Spiders, Crawlers, and Bots, Oh My! The Basics of Website Scraping. (Oktober 2012). Intellectual Property Today. 

"I Have the Best Words." How Trump's First SOTU Compares to All the Others. (Januar 2018). BuzzFeed. 

Facebook Sues Two Companies Engaged in Data Scraping Operations. (Oktober 2020). Tech Crunch. 

Data Scraper. Chrome Web Store.

Data Miner. Data Miner.io

Data Scraping Crawler. Phantom Buster.

Hire the Best Web Scrapers. Upwork.