Google Suchergebnisse scrapen

Die heilige Kuh in der SEO Branche sind die Google Suchergebnisse. Ist klar .. der Erfolg von SEO Maßnahmen wird direkt daran gemessen.

Bist du für ein Keyword in den Top 3 hast du alles richtig gemacht. Zumindest auf der ersten Seiten musst du ranken. Kein Mensch schaut auf die zweite Suchergebnisseite (naja ich dann doch manchmal).

Nichts ist also wichtiger als das tägliche Ranking im Auge zu behalten. Leichte Schwankungen gibt es hier immer allerdings muss die Tendenz eben stimmen.

Was nun ein paar Plätze ausmachen sieht man anhand von SEORCH.de. Dafür betrachte ich ein paar Daten aus den Google Webmaster Tools und hier vor allem die CTR. Ich untersuche nur generische Keywords, also Begriffe ohne Marke oder exakte Produktbezeichnung.

Wie ist nun die CTR auf den unterschiedlichen Positionen?

  • für den Begriff seo check rankt SEORCH etwa auf Pos 14
    6000 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 4% der Fälle
  • für den Begriff website analyse rankt SEORCH etwa auf Pos 7
    2000 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 7% der Fälle
  • für den Begriff webseiten analyse rankt SEORCH etwa auf Pos 3
    900 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 13% der Fälle
  • für den Begriff onpage analyse rankt SEORCH aktuell auf Pos 1
    500 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 22% der Fälle

Snippetdesign, Keywordwiedererkennung usw. mal außer acht gelassen.
Ihr seht nun was die unterschiedlichen Rankings bedeuten. Rankst du Top 3 greifst du die Besucher ab. Ab Pos. 11 klickt kaum noch wer.

Eine Google Scraper Branche ist entstanden?

Weil das ganze nun so wichtig ist zahlen viele Menschen viel Geld um darüber auf dem laufenden gehalten zu werden. Die größten Anbieter solcher Daten in Deutschland sind u.a. Sistrix oder Searchmetrics die Millionen von Keyword Rankings regelmäßig irgendwo her bekommen müssen um diese ihren Kunden zur Verfügung zu stellen. Wie die Tools an diese Daten kommen ist Betriebsgeheimnis. Große Tools wie MOZ oder AHREFs wurden in der Vergangenheit von Google gezwungen Dienste die auf Keyword Monitoring basieren einzustellen.

Google selbst verbietet in seinen Nutzungsbedingungen ganz klar das scrapen der Suchergebnisse und möchte das man z.b. die Google Webmaster Tools dafür verwendet. Nur kann man hier eben nur seine eigenen Domains überwachen und nicht die von Mitbewerbern. Eine Analyse über Wochen oder Monate auf Ranking Basis ist nicht möglich und die Daten reichen nur 4 Monate in die Vergangenheit zurück.

Ich hätte durchaus Skrupel Daten von kleinen Firmen zu scrapen deren Geschäftsmodell und Überleben an diesen Daten hängt. Allerdings habe ich kein moralisches Problem dies bei einem Monopolisten zu machen der keinen Cent Umsatz verliert wenn ich mir die Daten organisiere. Googles Geschäftsmodell ist immer noch das Verkaufen von Anzeigen und das Bereitstellen einer Suchmaschine.

Sportliche Herausforderung!

Wie schon in meinem älteren Artikel zum Thema Google Scraper ist es immer noch so, daß Google recht viel dagegen unternimmt massenhaft und automatisiert Suchergebnisse zu ermitteln. Man kann etwa 40-60 mal von einer IP automatisiert abfragen. Wenn man einen Headless Browser (PhantomJS oder SlimerJS) nimmt noch 20 – 30 mal mehr. Danach sieht man Captchas und die IP wird für etwa 12 – 24 Stunden gesperrt. Dies führt dazu das hier auch schon(wieder) eine Branche entstanden ist die sich auf die Bereitstellung von Proxys spezialisiert hat.

Ich scrape nun seit knapp 9 Monaten jede Nacht ein paar tausend Keywords. Dafür habe ich aktuell 3 Scraper Instanzen laufen die von einem Server ferngesteuert werden der die Ergebnisse dann auch in die Datenbank schreibt. Die Scraper sind nicht ausgelastet. Mit diesem Ansatz kann ich aktuell für 6-7 Keywords 100 Suchergebnisse pro Minute abrufen. Das macht pro Instanz etwa 8500 Keywords in 24 Stunden. 3 Instanzen = 25.000 Keywords am Tag.

Eine Scraper Instanz ist ein Mini Cloud Server mit 512 MB RAM und 1 Core. Die Instanzen kann ich programmatisch hoch und runter fahren bzw. erweitern oder neue hinzufügen. (Tip: Amazon mag Scraper nicht auf seiner Cloud).

Den Ansatz habe ich nun verbessert und heute ist es mir gelungen 60 – 70 Top 100 Rankings pro Minute und Instanz zu scrapen. Pro Instanz sind das dann etwa 90.000 Keywords in 24 Stunden. Der Clou daran ist, daß ich weder mehr RAM oder CPU brauche und auch keinen einzigen Request mehr an Google absetze als vorher.

Ich muss das natürlich noch etwas länger testen .. bin aber recht zuversichtlich.

Die Kosten die ich dabei habe sind die Scraper Instanzen .. eine davon kostet 5 USD im Monat. Ich brauche keine privaten Proxys oder muss sonst irgendwelche Stunts treiben um das zu erreichen.

Und nein ich erzähle hier nicht öffentlich wie das geht .. zum einen kann man den Ansatz nicht nur gegen Google verwenden sondern im Grunde gegen absolut jede Website und damit auch noch mit recht wenigen Ressourcen ganze Server lahmlegen ohne das die es (durch IP Sperren usw.) verhindern können.

Leave a Reply

Your email address will not be published. Required fields are marked *