Mein eigener Netflix Squid Proxy

22. September 2014

Seit letzter Woche gibt es Netflix in Deutschland. Allerdings nicht mit dem vollständigen US Angebot. Es fehlen sämtliche Star Trek Serien, viele aktuelle Filme und Dokus und diverse neuere Staffeln populärer Serien.

Ein Bekannter gab mir dann den Hinweis das man sich mit dem deutschen Netflix Account auch im US Netflix einloggen kann .. allerdings benötigt man eine US IP Adresse.

Netflix filtert das Angebot für die jeweiligen Länder nach IP Ranges die diesen Ländern zugeordnet sind.

Nichts leichter als das. Für meine SEORCH Scraper betreibe ich sowieso ein paar kleine 5 Dollar Server in New York. Da sollte sich doch ein Proxy drauf installieren lassen. Quasi mein eigener US Proxy.

Natürlich gibt es solche Angebote zuhauf im Internet. Kosten alle ein paar Dollar im Monat und funktionieren auch prima. Aber ich finde selber machen immer noch um Welten cooler als dafür zu bezahlen.

Werkzeug

Du brauchst also einen kleinen Linux Server auf dem du Superuser Rechte hast, der muss zwingend eine US IP Adresse haben. Ich hab meinen bei Digital Ocean .. das kleinste Paket reicht um sicher 10 – 20 Kumpels auch noch damit zu versorgen. 1 TB Transfer muss man auch erst mal wegballern. Daneben musst du dir zutrauen auf der Linux Konsole Programme zu installieren und mit VI oder NANO Textfiles zu editieren.

Konsolen Foo

Erst mal Paketmanager Update machen und dann squid installieren .. ggf. mit sudo davor wenn ihr keine root Rechte habt.

CentOS:

yum update
yum install squid

Ubuntu:

apt-get update
apt-get install squid squid-common

Dann müsste in beiden Fällen unter /etc/squid/squid.conf die Squid Config Datei liegen. An der pfuschen wird gleich rum darum am besten ein Backup davon machen:

cp squid.conf squid.conf.bak

Jetzt bearbeiten wir schnell die squid.conf .. ihr könnt sie natürlich auch per FTP öffnen oder direkt auf der Konsole bearbeiten wie man das lieber mag. Dort muss dann folgendes rein:

via off
forwarded_for off

Das dient dazu den Proxy zu anonymisieren. Transparente Proxys reichen eure IP an den Zielserver weiter. Mit diesen Einstellungen sieht Netflix dann nur noch die IP des Proxy Servers.

Such dann die Zeile -> http_access deny all und kommentiert das aus. Wir lassen für den ersten Test erst mal alle Zugriffe auf den Proxy zu. (Das solltet ihr später dann ändern).

# http_access deny all
http_access allow all

Dann starten wir Squid:

service squid start 
oder 
service squid restart

Nun sollte euer Proxy zu erreichen sein:
http://[SERVERIP]:3128

Genau diese Einstellungen müsst ihr nun auch in eurem Browser vornehmen. Unter MacOS findet man das unter Netzwerk und dann Weitere Optionen -> Proxies

Dort dann bei HTTP und HTTPS die IP und den Port eintragen und im Fenster davor dann auf Anwenden klicken.

Sicherheit

Natürlich solltet ihr euren Proxy nicht so offen im Netz stehen lassen. Naja kann man .. muss man aber nicht. Man kann Squid mit einem Passwort versehen und wie das geht steht hier.

Ebenso könnte man auch wieder in der squid.conf den Zugriff auf Netflix beschränken. Ich wollte hier aber nur eine schnelle Basisanleitung geben um Netflix US mit eigenen Mitteln zu nutzen.

Kategorie:

Kommentare

---

Neue Art Google SERP Snippet?

12. Juli 2014

Diese SERP Art habe ich gestern entdeckt. Auf der Seite befindet sich nur ein Tabelle die in Auszügen von Google indiziert wird. Ich habe aber auch noch einige Beispiele mit kleinen Fließtextanteilen gefunden. Zentraler Bestandteil der Seite war aber immer eine große HTML Tabelle.

Google SERP Tabelle

Hier die indizierte Seite und hier die Google Suchergebnisse mit der Seite.

Kategorie:

Kommentare

---

Google Suchergebnisse scrapen

10. Juli 2014

Die heilige Kuh in der SEO Branche sind die Google Suchergebnisse. Ist klar .. der Erfolg von SEO Maßnahmen wird direkt daran gemessen.

Bist du für ein Keyword in den Top 3 hast du alles richtig gemacht. Zumindest auf der ersten Seiten musst du ranken. Kein Mensch schaut auf die zweite Suchergebnisseite (naja ich dann doch manchmal).

Nichts ist also wichtiger als das tägliche Ranking im Auge zu behalten. Leichte Schwankungen gibt es hier immer allerdings muss die Tendenz eben stimmen.

Was nun ein paar Plätze ausmachen sieht man anhand von SEORCH.de. Dafür betrachte ich ein paar Daten aus den Google Webmaster Tools und hier vor allem die CTR. Ich untersuche nur generische Keywords, also Begriffe ohne Marke oder exakte Produktbezeichnung.

Wie ist nun die CTR auf den unterschiedlichen Positionen?

  • für den Begriff seo check rankt SEORCH etwa auf Pos 14
    6000 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 4% der Fälle
  • für den Begriff website analyse rankt SEORCH etwa auf Pos 7
    2000 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 7% der Fälle
  • für den Begriff webseiten analyse rankt SEORCH etwa auf Pos 3
    900 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 13% der Fälle
  • für den Begriff onpage analyse rankt SEORCH aktuell auf Pos 1
    500 mal wurde SEORCH bei einer Suche nach dem Begriff angezeigt
    geklickt wurde etwa in 22% der Fälle

Snippetdesign, Keywordwiedererkennung usw. mal außer acht gelassen.
Ihr seht nun was die unterschiedlichen Rankings bedeuten. Rankst du Top 3 greifst du die Besucher ab. Ab Pos. 11 klickt kaum noch wer.

Eine Google Scraper Branche ist entstanden?

Weil das ganze nun so wichtig ist zahlen viele Menschen viel Geld um darüber auf dem laufenden gehalten zu werden. Die größten Anbieter solcher Daten in Deutschland sind u.a. Sistrix oder Searchmetrics die Millionen von Keyword Rankings regelmäßig irgendwo her bekommen müssen um diese ihren Kunden zur Verfügung zu stellen. Wie die Tools an diese Daten kommen ist Betriebsgeheimnis. Große Tools wie MOZ oder AHREFs wurden in der Vergangenheit von Google gezwungen Dienste die auf Keyword Monitoring basieren einzustellen.

Google selbst verbietet in seinen Nutzungsbedingungen ganz klar das scrapen der Suchergebnisse und möchte das man z.b. die Google Webmaster Tools dafür verwendet. Nur kann man hier eben nur seine eigenen Domains überwachen und nicht die von Mitbewerbern. Eine Analyse über Wochen oder Monate auf Ranking Basis ist nicht möglich und die Daten reichen nur 4 Monate in die Vergangenheit zurück.

Ich hätte durchaus Skrupel Daten von kleinen Firmen zu scrapen deren Geschäftsmodell und Überleben an diesen Daten hängt. Allerdings habe ich kein moralisches Problem dies bei einem Monopolisten zu machen der keinen Cent Umsatz verliert wenn ich mir die Daten organisiere. Googles Geschäftsmodell ist immer noch das Verkaufen von Anzeigen und das Bereitstellen einer Suchmaschine.

Sportliche Herausforderung!

Wie schon in meinem älteren Artikel zum Thema Google Scraper ist es immer noch so, daß Google recht viel dagegen unternimmt massenhaft und automatisiert Suchergebnisse zu ermitteln. Man kann etwa 40-60 mal von einer IP automatisiert abfragen. Wenn man einen Headless Browser (PhantomJS oder SlimerJS) nimmt noch 20 – 30 mal mehr. Danach sieht man Captchas und die IP wird für etwa 12 – 24 Stunden gesperrt. Dies führt dazu das hier auch schon(wieder) eine Branche entstanden ist die sich auf die Bereitstellung von Proxys spezialisiert hat.

Ich scrape nun seit knapp 9 Monaten jede Nacht ein paar tausend Keywords. Dafür habe ich aktuell 3 Scraper Instanzen laufen die von einem Server ferngesteuert werden der die Ergebnisse dann auch in die Datenbank schreibt. Die Scraper sind nicht ausgelastet. Mit diesem Ansatz kann ich aktuell für 6-7 Keywords 100 Suchergebnisse pro Minute abrufen. Das macht pro Instanz etwa 8500 Keywords in 24 Stunden. 3 Instanzen = 25.000 Keywords am Tag.

Eine Scraper Instanz ist ein Mini Cloud Server mit 512 MB RAM und 1 Core. Die Instanzen kann ich programmatisch hoch und runter fahren bzw. erweitern oder neue hinzufügen. (Tip: Amazon mag Scraper nicht auf seiner Cloud).

Den Ansatz habe ich nun verbessert und heute ist es mir gelungen 60 – 70 Top 100 Rankings pro Minute und Instanz zu scrapen. Pro Instanz sind das dann etwa 90.000 Keywords in 24 Stunden. Der Clou daran ist, daß ich weder mehr RAM oder CPU brauche und auch keinen einzigen Request mehr an Google absetze als vorher.

Ich muss das natürlich noch etwas länger testen .. bin aber recht zuversichtlich.

Die Kosten die ich dabei habe sind die Scraper Instanzen .. eine davon kostet 5 USD im Monat. Ich brauche keine privaten Proxys oder muss sonst irgendwelche Stunts treiben um das zu erreichen.

Und nein ich erzähle hier nicht öffentlich wie das geht .. zum einen kann man den Ansatz nicht nur gegen Google verwenden sondern im Grunde gegen absolut jede Website und damit auch noch mit recht wenigen Ressourcen ganze Server lahmlegen ohne das die es (durch IP Sperren usw.) verhindern können.

Kategorie:

Kommentare

---

K.I.M. SEO Tool

2. März 2014

Vor einigen Wochen hatte eine Kollegin eine Idee für ein SEO Tool. Der Hintergrund war folgender: Wenn man versucht eine neue Seite für ein bestimmtes Keyword ans ranken zu bekommen schaut man sich in der Regel die Wettbewerber um die ersten 10 Plätze an.

Man untersucht wie oft sie welches Keyword verwenden, wo es verwendet wird, welche ähnlichen Keywords vorkommen usw. natürlich kann man den Text nicht einfach kopieren da Google das in der Regel sofort als Duplicate Content identifiziert.

Diese Arbeit kann mitunter sehr aufwändig sein und viel Zeit beanspruchen. Außerdem möchte man höchstwahrscheinlich noch seine eigene Seite mit den gut rankenden, vorhandenen Seiten vergleichen. Am besten auch noch in verschiedenen Google Versionen sofern man auch fürs Ausland optimieren muss.

Lass es uns mit Tooling erschlagen

In den letzten 2 Wochen habe ich dann so ein Tool gebaut. Es ist noch nicht auf SEORCH verlinkt weil sicher noch Fehler drin sind .. aber es ist gut genug das man es mal testen kann. Feedback ist natürlich wie immer willkommen.

Was macht das Tool:

  • man gibt ein Keyword (oder mehrere) ein
  • optional noch die eigene Seite mit der man alles vergleichen will
  • wählt die Google Version
  • nun erhält man zuerst die Top 50 Suchergebnisse (nicht lokalisiert)
  • hier wählt man nun bis zu 10 Wettbewerber aus
  • das Tool untersucht nun alle gewählten Seiten auf die wichtigsten OnPage Faktoren
  • macht Screenshots etc.
  • nach ein paar Sekunden (manchmal Minuten) erhält man das Ergebnis

Das Ergebnis beinhaltet:

  • Keywords die auf allen Seiten verwendet werden
  • Keywords die auf einem Großteil der Seiten verwendet werden
  • LSI Keywords die eine hohe Ähnlichkeit mit dem eingegebenen Keyword haben

zusätzlich werden die üblichen OnPage Faktoren analysiert:

  • hier wird überall das Keyword hervorgehoben
  • Title, Meta Desc, URL, Headings, Bilder, Links
  • Textlänge, Keywordvorkommen, DC Quote usw.
  • am Ende gibts dann noch die Top 20 der sichtbarsten Keywords auf jeder Seite

Wenn man nun für ein bestimmtes Keyword texten möchte hat man schon mal alle Basics zusammen. Ich weiß welche Wörter auch in meinem Text vorkommen sollten und kann ebenfalls prüfen das die DC Quote im Rahmen bleibt. Die Screenshots helfen bei der visuellen Orientierung.

Hier könnt ihr das K.I.M. Tool testen.

Kategorie:

Kommentare [3]

---

Buchrezension: SEO auf Deutsch

16. Februar 2014

Vor ein paar Tagen kam ein Rezensionsexemplar von SEO auf Deutsch bei mir an. Das Buch wurde von Andre Alpar (Geschäftsführer AKM3) geschrieben .. oder besser er hat sich die Fragen ausgedacht und sie 33 bekannten SEOs aus dem deutschsprachigem Raum gestellt, denn es handelt sich um ein Interview Buch.

Jedem SEO werden etwa 30+ Fragen gestellt die er ausführlich beantworten darf. Das geht mit ein paar Hardfacts los (Alter, Familienstand, Wohnort, Arbeitsplatz) und endet in ausführlichen Einschätzungen zum Zustand der Branche, Zukunftsausblicke etc. Die Fragen sind mehr oder weniger immer sehr ähnlich was ich allerdings positiv empfand. Das Buch hat ca. 330 Seiten und somit hat jeder Interviewpartner 9-10 Seiten Platz bekommen .. genug Raum um alle Fragen ausführlich zu beantworten :)

Für mich natürlich besonders spannend waren die Tool Entwickler .. Markus Tandler (onpage.org), Christoph Cemper (LRT Link Research Tools), Markus Tober (Searchmetrics), Johannes Beus (Sistrix), Fabian Brüssel (Manhattan Tool) usw. kommen alle zu Wort und erzählen von ihren ersten SEO Erfolgen, wie sie angefangen haben und von ihren größen Patzern ..

Witzig finde ich auch Interviews mit Leuten zu lesen mit denen man selbst schonmal einen Workshop hatte oder längere Gespräche geführt hat. In meinem Fall mit Stefan Fischerländer oder Maik Metzen.

Andre Alpar gelingt eine gute Momentaufnahme der Branche. Das Buch ist folglich für alle SEO Neueinsteiger so eine Art Pflichtlektüre, da man alle Personen die im deutschsprachigen Raum eine Rolle spielen einmal kennen lernt. Aber auch langjährige SEOs haben ihren Spass daran .. besonders wenn die interviewten Experten ihre schlimmsten SEO Fehler offenlegen .. und man sich das ein oder andere mal schmunzelnd wiederfindet.

SEO auf Deutsch gibts bei Amazon als Paperback und Ebook.

Kategorie:

Kommentare [2]

---

SEO Site Clinic

14. Februar 2014

Was ist eigentlich eine Site Clinic und wieso macht man das?

Die Site Clinic ist im Grunde eine tiefgehende OnPage SEO Analyse einer Website. Alle Fehler und Baustellen sollen aufgedeckt und konkrete Verbesserungen erarbeitet werden.

Populär wurde das auf diversen SEO Konferenzen als Live Show. Der SEO nimmt quasi am Laptop eine Seite aus technischer und inhaltlicher Sicht auseinander und zeigt die groben Fehler live am Beamer. Meistens ist das sehr lustig für die Anwesenden und weniger lustig für den Betreiber der Seite.

Eine SiteClinic ist aber in jedem Fall immer der erste Schritt wenn man seine Seite das erste mal unter SEO Gesichtspunkten verbessern möchte .. und ich schreibe hier nun mal auf was man da alles berücksichtigen kann (nicht muss!)

0. Aktuellen Zustand der Seite feststellen

  • Struktur und Thema der Seite
  • Welche Seitentypen gibt es (Produkt, Kategorie, Filter ..)?
  • Welche Seiten sind für SEO auch relevant?
  • grobe SEO Fehler
  • Snippetcheck, Sitelinks
  • Crawlbuget (korreliert PageRank)
  • Indexbudget
  • Reverse IP Lookup

1. Site Check

2. Analyse des Quelltextes

  • Page Speed Analyse
  • Crawlability
  • Semantischer und fehlerfreier Quellcode
  • Strukturiertes und fehlerfreies CSS
  • Entfernung von unnötigen Quellcode Kommentaren
  • prüfen auf Inline CSS, Inline JS
  • wieviele CSS und JS Files werden geladen und wann
  • Hauptkeywords semantisch ausgezeichnet
  • Keine leeren ALT Attribute
  • Flash?
  • Frames?

3. Title Tags und Meta Description

  • Hauptkeywords im Title Tag
  • einzigartige, beschreibende Meta Description
  • Hauptkeywords in Meta Keywords
  • Meta Robots?
  • fehlende und leere Title Tags / Meta Descriptions
  • doppelte Title Tags / Meta Descriptions
  • zu kurze, zu lange Title Tags / Meta Descriptions
  • SERP Snippet Design
  • Twitter Cards
  • Open Graph

4. Textqualität, Textlänge, Keywords

  • klare Keywordausrichtung, welche Seite soll für welches KW ranken
  • Keyword Sichtbarkeit
  • Content, Richness
  • Textstrukturierung, Lesbarkeit erhöhen
  • Hauptkeywords für die Seite identifizieren
  • weitere Keywords für die Seite identifizieren
  • Hauptkeywords im Text
  • ausreichende Textlänge?
  • weitere Keywords im Body Text
  • Hauptkeywords als ALT Attribut im IMG Tag
  • Duplicate Content durch wiederkehrende Template Elemente?
  • DC durch Paginierung?
  • DC durch Filter?
  • DC durch Produkt in verschiedene Kategorien?
  • DC durch Länder / Sprachversionen?
  • DC durch verschiedene Produktversionen?
  • können statische Seiten über URL Parameter geöffnet werden?
  • DC intern?
  • DC extern?
  • DC extern?
  • DC durch http/https, www., verschiedene Domains .. usw. ?
  • Rich Snippets?

5. Navigation

  • zugängliche Navigation (kein JS)
  • Navigation in Markup erkennbar
  • Breadcrumb Navigation mit HTML Microdata
  • ggf. Usability-Optimierungen
  • unwichtige Navigationspunkte per AJAX oder iFrame maskieren
  • WSA Website Silo Architektur
  • Navigations Cluster mit Themenfokus
  • unwichtige Navigationspunkte entfernen
  • Keywords verlinkt?

6. Headings

  • fehlende Headings
  • Hauptkeywords in Heading H1 bis H3

7. Struktur / Architektur der Seite

  • URL Struktur
  • fehlende Breadcrumb?
  • robots.txt vorhanden und valide?
  • sitemap.xml in robots.txt referenziert?
  • sitemap.xml vorhanden, alle Seiten drin?
  • Canonical Tag?
  • rel=“alternate” hreflang=“x”
  • 301er, 302er, 404er ?
  • Weiterleitungsketten
  • sinnvolle Robots / X-Robots: noindex, nofollow, noarchive, nosnippet?
  • Hauptkeywords in den URLs
  • Keywords mit Bindestrich getrennt
  • Keine Umlaute in den URLs
  • URL Parameter, dynamisch?
  • maximal 4 Verzeichnisebenen
  • Ladezeit
  • Google Webmaster Tools Verifikation
  • Code/Text Rate
  • lange URLs > 100 Zeichen?
  • Dateigrößen > 100 kb?

8. Interne und Externe Verlinkung

  • sinnvolle Linkstruktur
  • aussagekräftige Anchor Texte
  • Sculpting -> entwerten unwichtiger Links mit rel=“nofollow”
  • alle Links mit beschreibendem TITLE Attribut
  • maximale Anzahl von Links auf der Seite (intern/extern)
  • Seiten mit wenigen eingehenden Links
  • Seiten ohne interne, externe Links
  • Link stuffing (Footer, Sidebar, Tagclouds)?

9. Offpage

10. Google Webmaster Tools

  • Bevorzugte Domain
  • Sitelinks
  • URL-Parameter
  • Website-Fehler
  • Suchanfragen
  • doppelte Rankings
  • Crawling-Statistiken
  • blockierte URLs / Robots.txt
  • XML Sitemaps
  • HTML Optimierung
  • Content Keywords

11. Zum Schluss

  • detailierte Handlungsempfehlungen für den Seitenbetreiber
  • Milestones
  • alles priorisieren

Kategorie:

Kommentare

---

Die allgemeine Nacktheit

22. Januar 2014

hat als solches nichts mit diesem Beitrag zu tun. Heute morgen habe ich steif und fest behauptet Blogs liest kein Mensch mehr und wenige Stunden später schreibe ich doch seit langer Zeit mal wieder einen Beitrag.

Ich will über SEORCH berichten .. das gibts jetzt immerhin knapp über 2 Jahre und ist natürlich größer geworden.

Hier mal ein paar Zahlen:

  • Normale Analysen: ca. 1500 / Tag
  • Screenshots: ca. 1500 / Tag
  • Seorch Ultrasuggest Abrufe: ca. 2000 / Tag
  • Seorch Scanner Analysen: ca. 20 / Tag
  • Unique Besucher: > 1000 / Tag
  • Chrome Installs: > 28.000
  • Facebook Likes > 200
  • Tweets mit der Domain > 165 (die meisten von mir)
  • Google+ Erwähnungen > 220

Über die Social Network Zahlen darf man nun gern auch lachen .. ich finde das aber alles trotzdem beachtlich. Vor 2 Jahren war mein Ziel eigentlich nur das Seorch so 20-30 Analysen pro Tag macht .. damit war ich zufrieden.

SEORCH

Angefangen hat es ja mit einem relativ kleinen OnPage Check. Nach und nach kamen jede Menge Features dazu wie z.b. Backlinkdaten, Social Network Daten, Domain Informationen, Google Rankings, Anzahl der Seiten im Index, PageRank.
Vor mehr als nem Jahr habe ich die Screenshot Funktion eingebaut. Man kann mittlerweile PDFs der Analysen erzeugen, eine Semantische Analyse machen .. dann die PRO Version mit kompletten Performance Daten aus YSLOW und Google Page Speed.

SEORCH Scanner

Vor knapp einem Jahr ist der SEORCH Scanner dann online gegangen. Und ich war in der Lage komplette Webseiten zu analysieren. Man kann daraus viele wichtige Daten herauslesen die nur im Zusammenspiel aller Seiten einen Sinn machen. Ich habe einen komplett eigenen Crawler geschrieben, das Backend hinten dran bildet eine MongoDB und der ganze Scanner skaliert auch für viele tausend Seiten wunderbar. Ich habe alleine 3 Monate Bugs gefixt und erst vor kurzem noch CSV Exports und PDF Exports eingebaut. Wenn ich selbst eine Site Clinic mache ist das Tool immer meine erste Anlaufstelle.

SEORCH Ultrasuggest

Eher so aus Langeweile habe ich den gebaut. Ich wollte mal wieder was neues machen .. so ganz ohne Legacy Code. Mitterweile liefert das Tool LongTail Daten aus 5 verschiedenen Quellen und ich plane noch ein paar hinzuzunehmen. Ideen un Input dazu kam meist per Email, Google+ oder direkt von Kollegen und ich habe dann einfach alles eingebaut was mir sinnvoll erschien.

SEORCH Keywordmonitor

Noch nicht wirklich veröffentlicht entwickle ich aktuell daran. Klar .. Keywordmonitoring Tools gibt es wie Sand am Meer. Meins ist auch nicht besser oder schlechter als die meisten. Aber es ist meins und ich muss nichts dafür bezahlen. Die Infrastruktur die aktuell dazu brauche kostet 10 Dollar im Monat und ich jage aktuell Google jede Nacht 2500 Top 100 Rankings ab ohne das ich eine IP Penalty bekomme ..
Der letzte Satz beschreibt auch schon den eigentlichen Reiz. Ich wollte in großen Maßstab an Daten herankommen die Google sonst extrem teuer verkauft. Quasi ein kleiner Hack .. und wenig macht mehr Spass :)

Und nu?

Ideen für Tools habe ich noch Tonnen. Die nächsten SEORCH Releases sind schon in der Mache und ich habe immer noch jede Menge Spass an der Entwicklung. Die zentralen Analysemöglichkeiten werden weiter kostenlos bleiben. Ich würde gerne eine paar Whitelabel Versionen mehr verkaufen und ich fände es cool wenn der Keywordmonitor irgendwann mal 100 zahlende Benutzer hat. Sonst wünsche ich mir nix :)

Aaah ja ..

Mich motiviert an SEORCH das was draus geworden ist. Wenn eine Website einen Bericht über SEORCH schreibt ist das ein wahnsinnig gutes Gefühl. Wenn SEORCH auf Twitter, FB oder sonstwo empfohlen wird bekomme ich immer ein kleines Lachen ins Gesicht. Über jede Feedback Email bin ich dankbar. Und Feature Requests bau ich meistens schneller ein als ich sollte ..

Im Grunde habe ich mit allen SEORCH Tools immer nur Dinge programmiert die ich selbst brauche und genau so werde ich auch weitermachen. Nur wenn es für mich Sinn macht habe ich Spass daran :)

Kategorie:

Kommentare [4]

---

Mit AJAX Links vor Google verbergen

5. Oktober 2013

In der Firma hatte ich letzte Woche wieder die Diskussion ob man Links die mit dem Thema einer Seite nichts zu tun haben vor dem Google Bot verbergen soll oder nicht.

Ich arbeite bei 1&1 wir verkaufen DSL, Mobilfunkverträge, Webspace, Server usw. Wenn sich der Google Bot nun beispielsweise im Bereich Server befindet sollen keine störenden Links zu DSL Produkten zu finden sein. Sondern nur Links die zu artverwandten Themen führen. Man nennt dies eine Clusternavigation. Alle Links eines Themenbereichs sollen sich nur im selben Kategorie-Themen-Cluster bewegen. Also konkret .. keine Links von DSL zu Hostingprodukten.

Problem ist jetzt, das wir das dem User sehr wohl anbieten wollen und auch müssen. Über die Hauptnavigation hat der Kunde jederzeit die Möglichkeit von DSL zu SERVERN zu springen.

Um dies aber dem Google Bot nicht zu ermöglichen sollen Links zu Fremdthemen per Ajax nachgeladen werden.

Dies erfolgt in der Annahme das Google kein JavaScript auf den Seiten ausführt und somit die Links nie zu sehen bekommt.

Mein Kollege Nico hat schon bewießen das selbst ein BASE64 codierter JavaScript Link von Google gefunden wurde.

Headless Browser?

Seit einigen Jahren gibt es allerdings Headless Browser wie z.b. der PhantomJS. Mit diesen kann man auch programmatisch, ohne großen Aufschlag, JavaScript inkl. Ajax ausführen und die Seite also so rendern wie das ein stinknormaler Firefox oder Chrome macht.
Dieser Headless Browser sieht also alles was der User auch sieht. Wenn Google mit Headless Browser crawlt dann kann man per Ajax keine Links verbergen.

Testszenario

Ich habe in einer Seite die sich im Google Index befindet zwei Ajax Requests untergebracht. Diese laden Textdateien in denen sich ein ganz normaler A HREF befindet.
Nach dem Laden werden die Links per JavaScript in den Quelltext eingebunden. Beide verlinkten Seiten habe ich neu angelegt. Sie wurden nicht in Google Chrome aufgerufen und sind auch nirgendwo sonst verlinkt. Beide Seiten haben ein eindeutiges Keyword: PfaffenroterHeavyMetalHamsterpuff und NordKoreanischerPupsnasenEiterich :)

Ich bin jetzt mal gespannt was passiert und halte euch direkt hier auf dem laufenden.

Update 14.09.2013

Die zwei Keywords befinden sich nun im Index. (Klickt einfach oben auf die Keywords). Allerdings nicht die Seiten die per AJAX verlinkt sind. Die Keywords habe ich extra auf der Seite von der die Links weggehen nochmal erwähnt um zu sehen wann/ob der Google Crawler vorbei kam.

Update 03.10.2013

Beide Seiten befinden sich immer noch nicht im Google Index. Aktuell gehe ich davon aus, daß Google eine bestimmten Trigger benötigt um die Seiten mit nem Headless Browser aufzurufen. Insofern muss ich derzeit davon ausgehen das sich per AJAX Links vor Google verstecken lassen.

Kategorie:

Kommentare

---

Google scrapen

14. August 2013

Über diesen Artikel auf Golem musste ich letzte Woche etwas schmunzeln. Google versucht mit allen Mitteln das maschinelle auslesen von Daten einer Website (scrapen) zu verhindern und hat viele gute Methoden gefunden das zu unterbinden .. aber manchmal schlagen die halt zu früh zu ..

Warum macht Google das?

Googles Daten sind seine heiligen Kühe. Also auch die Suchergebnisse. Weltweit sind viele Firmen dran interessiert mit ihren Keywords ganz oben in Google zu stehen. Oder zumindest vor dem Wettbewerber. Für umfangreiche Analysen usw. geben die dann auch gern viel Geld aus weil jeder natürlich wissen will wie sich das Ranking verändert. Kein Problem wenn man da nur 2 Keywords beobachten will .. aber wenn man täglich viele hundert Keywords im Auge behalten will wird das entweder aufwendig oder recht teuer.

Google verlangt für 1000 API Calls a 10 Suchergebnisse 5 USD und deckelt das dann auch noch auf 10000 API Calls am Tag. Übersetzt bedeutet das, ich kann für 1000 Keywords pro Tag die Top 100 Suchergebnisse bekommen .. dann ist Schluss. Dafür zahle ich dann aber auch 50 USD.

Grund genug um sich drumrum zu hacken ..

Baut man sich nun in der Programmiersprache seiner Wahl einen Scraper der diese URL aufruft: https://www.google.com/search?oe=utf-8&hl=en&num=100&q=seorch wird Google nach ca. 20 – 50 Anfragen einen Captcha vorschalten und die IP von der die Anfrage kommt wird temporär gesperrt.

Okay jetzt kann ich mir natürlich irgendwelche Proxys zusammensuchen oder vielleicht habe ich auch ein paar Server mit verschiedenen IPs im Netz stehen .. oder ich nutze Dienste wie SEO-Proxies, HideMyAss usw. es gibt viele Möglichkeiten und wahrscheinlich noch mehr Ideen das Problem zu lösen .. alle sind mehr oder weniger aufwändig oder kosten Geld.

Zuviel Aufwand find ich doof!

und außerdem möchte ich auch nicht dafür bezahlen .. also nicht Google :) Darum habe ich mir für SEORCH etwas ausgedacht .. naja .. eigentlich fast 9 Monate drauf gebrütet bis ich es dann mal getestet habe.

Ich habe also einen Scraper für Google Suchergebnisse gebaut und außerdem werden in SEORCH selbst (wenn man ein Keyword eingibt) die Top 30 Google Suchergebnisse angezeigt.

Alles kommt von einer einzigen IP Adresse, keine Proxys, keine Verschleierungstaktiken .. einfach etwas Software und eine Idee.

Seit einigen Wochen ist das jetzt auch produktiv online und ich konnte für jede Useranfrage immer 30 – 100 Google Ergebnisse ausliefern.

Wie ich das gemacht habe möchte ich zurzeit noch nicht veröffentlichen .. weil ich noch nicht sagen kann bis zu welcher Anzahl von Anfragen / pro Stunde das funktioniert und ob ich nicht doch irgendwann gegen eine Wand laufe ..

Parallel dazu habe ich noch einen Google Suggest Scraper gebaut der pro Tag derzeit ca. 1000 Anfragen an Google raushaut .. bis jetzt auch noch sehr stabil ..

Ich beobachte das jetzt mal eine Weile und schreibe dann nochmal was dazu.

Kategorie:

Kommentare [1]

---

Das Stinktier

2. Mai 2013

The Skunk ist ein Stockscreener den ich mal kurz mit PHP und Ajax zusammen gebaut habe. Die Idee war eher spontan. Ich selbst handle seit über 10 Jahren mit Wertpapieren und zwei Kollegen von mir ebenfalls. Dabei kam dann irgendwie heraus das jeder von uns so 6-10 verschiedene Seiten besucht um eine Aktie zu bewerten.

Man sammelt diverse Informationen in nem Spreadsheet zusammen und am Ende überlegt man sich obs ne gute Aktie ist oder nicht. Aufwand pro Analyse gut und gerne mal 10 – 15 Minuten.

Datenbasis

Ich habe dann beschlossen das zu beschleunigen und herausgekommen ist theskunk.cc. Gestern habe ich die ALPHA veröffentlicht und ich bin schon ein bisschen zufrieden damit.

Wichtig für so ein Tool sind natürlich die Daten. Soweit es geht versuche ich diese über öffentliche APIs zusammen zu sammeln (Danke Yahoo) aber an vieles kommt man dann doch nicht so einfach ran.

Anbieter von guten Finanzmarkt Daten lassen sich in der Regel fürstlich entlohnen .. und da ist man dann schnell bei ein paar tausend Euro für ein paar einfach API Calls.

Die feine Englische ..

Was macht man also wenn man sich nicht weiterhelfen kann .. man scraped die Daten aus seinen Lieblingsseiten knallhart heraus.

Das ist nicht die feine Art (darum wohl auch The Skunk) .. aber oft die einzige Möglichkeit. Scrapen bedeutet, daß ich die Seiten wie ein normaler Browser lade und mir dann die Infos die ich haben möchte herauskratze.

Das ist natürlich alles andere als wirklich zuverlässig. Aber die Idee hinter Skunk ist einen generischen Scraper zu entwickeln der sich selbst meldet wenn er an Daten nicht mehr herankommt. Idealerweise hat man dann höchstens eine kleine Anpassung im Selector zu machen um die Daten wieder zu sehen.

Das steckt jetzt alles noch in den Kinderschuhen. Aber da ich mich scrapetechnisch mit dem Endgegner (Google) schon angelegt habe .. und dementsprechend weiß was da alles an Hürden auf mich zukommen kann .. wir das sicher ganz lustig.

Außerdem brauche ich ein leichtgewichtiges Projektchen .. SEORCH ist mittlerweile so umfangreich das ich mir schon 2-3 Stunden Zeit nehmen muss wenn ich was anpassen möchte.

The Skunk soll klein, schnell und flexibel bleiben ..

Kategorie:

Kommentare

---

« älter