Google scrapen

Über diesen Artikel auf Golem musste ich letzte Woche etwas schmunzeln. Google versucht mit allen Mitteln das maschinelle auslesen von Daten einer Website (scrapen) zu verhindern und hat viele gute Methoden gefunden das zu unterbinden .. aber manchmal schlagen die halt zu früh zu ..

Warum macht Google das?

Googles Daten sind seine heiligen Kühe. Also auch die Suchergebnisse. Weltweit sind viele Firmen dran interessiert mit ihren Keywords ganz oben in Google zu stehen. Oder zumindest vor dem Wettbewerber. Für umfangreiche Analysen usw. geben die dann auch gern viel Geld aus weil jeder natürlich wissen will wie sich das Ranking verändert. Kein Problem wenn man da nur 2 Keywords beobachten will .. aber wenn man täglich viele hundert Keywords im Auge behalten will wird das entweder aufwendig oder recht teuer.

Google verlangt für 1000 API Calls a 10 Suchergebnisse 5 USD und deckelt das dann auch noch auf 10000 API Calls am Tag. Übersetzt bedeutet das, ich kann für 1000 Keywords pro Tag die Top 100 Suchergebnisse bekommen .. dann ist Schluss. Dafür zahle ich dann aber auch 50 USD.

Grund genug um sich drumrum zu hacken ..

Baut man sich nun in der Programmiersprache seiner Wahl einen Scraper der diese URL aufruft: https://www.google.com/search?oe=utf-8&hl=en&num=100&q=seorch wird Google nach ca. 20 – 50 Anfragen einen Captcha vorschalten und die IP von der die Anfrage kommt wird temporär gesperrt.

Okay jetzt kann ich mir natürlich irgendwelche Proxys zusammensuchen oder vielleicht habe ich auch ein paar Server mit verschiedenen IPs im Netz stehen .. oder ich nutze Dienste wie SEO-Proxies, HideMyAss usw. es gibt viele Möglichkeiten und wahrscheinlich noch mehr Ideen das Problem zu lösen .. alle sind mehr oder weniger aufwändig oder kosten Geld.

Zuviel Aufwand find ich doof!

und außerdem möchte ich auch nicht dafür bezahlen .. also nicht Google 🙂 Darum habe ich mir für SEORCH etwas ausgedacht .. naja .. eigentlich fast 9 Monate drauf gebrütet bis ich es dann mal getestet habe.

Ich habe also einen Scraper für Google Suchergebnisse gebaut und außerdem werden in SEORCH selbst (wenn man ein Keyword eingibt) die Top 30 Google Suchergebnisse angezeigt.

Alles kommt von einer einzigen IP Adresse, keine Proxys, keine Verschleierungstaktiken .. einfach etwas Software und eine Idee.

Seit einigen Wochen ist das jetzt auch produktiv online und ich konnte für jede Useranfrage immer 30 – 100 Google Ergebnisse ausliefern.

Wie ich das gemacht habe möchte ich zurzeit noch nicht veröffentlichen .. weil ich noch nicht sagen kann bis zu welcher Anzahl von Anfragen / pro Stunde das funktioniert und ob ich nicht doch irgendwann gegen eine Wand laufe ..

Parallel dazu habe ich noch einen Google Suggest Scraper gebaut der pro Tag derzeit ca. 1000 Anfragen an Google raushaut .. bis jetzt auch noch sehr stabil ..

Ich beobachte das jetzt mal eine Weile und schreibe dann nochmal was dazu.