Search Console Bug?

Anbei mal ein paar Screenshots von Crawling Fehlern aus der Google Search Console. Alle haben was gemeinsam ..

Seit einigen Tagen steigen bei einigen Websites die ich betreue die Anzahl der 404 Crawling Fehler in der Search Console. Teilweise auf das zehnfache. Kunde A hatte vorher immer so 2000 Fehler an dieser Stelle angezeigt bekommen .. jetzt sind es 20.000. An der Website wurde aber in besagtem Zeitraum nichts verändert. Los gegangen ist das Ende August / Anfang September als auch das bisher unkommentierte Google Index Update war.

Gemeinsam ist fast allen neuen 404 Fehlern das es die Seiten schon lange nicht mehr gibt .. teilweise über ein Jahr und das es auch die Links dahin schon fast so lange nicht mehr gibt.

Will sagen .. das waren schon mal korrekte 404 Fehler für 1-2 Wochen. Die dann aber gefixt wurden. Also die Links dahin wurden entfernt.

Hier mal einige Beispiele von SEORCH:

search-console-1

search-console-2

search-console-3

search-console-4

search-console-5

Ich kenne SEORCH ja zwangsweise sehr genau .. und die Website verfügt nur über 20-30 statische Seiten. Die ersten zwei Screenshots (todo.html und babycrawler.html) wurden vor über einem Jahr abgestellt. Die Links dahin im gleichen Zeitraum entfernt.

Bei Screenshots 3-5 sieht man es noch genauer da die URL einen Timestamp hat (März 2015). Diese Ergebnisseiten werden max. 1 Monat gespeichert und dann automatisch gelöscht. Die Links dahin existieren maximal 3-4 Tage von der Startseite der Tools und verschwinden dann ebenfalls automatisch. Trotzdem findet Google sie “neu” z.b. am 23.08.2016. Das ist falsch und zwar schon seit einem Jahr.

Also bevor man jetzt in Panik verfällt sollte man (mal wieder) von einem Search Console Bug ausgehen.

Über die Gründe kann man nur spekulieren .. wir hoffen ja alle nicht das Google einen alten Indexstand in seine Suche eingespielt hat 😉 Es gibt sogar ne Data Anomalies Seite für die Search Console .. da steht allerdings keine Meldung.

Andere haben das Problem auch: hier, hier, da, dort, mmh, woanders, auch da und hier

SEORCH Backlinktool

Oh Gott jetzt hat der Idiot auch noch ein weiteres Backlinktool gelauncht .. ist in der Regel der erste Gedanke wenn ich ein Neues sehe. Jetzt habe ich auch eins gebaut und das hat Gründe.

Backlink != Backlink

Die Frage die ich mir bei vielen Tools stelle: Wie kommt ihr an eure Backlinks? Viele werden einen eigenen Crawler haben oder bauen auf irgendeiner Datenbasis eines anderen Anbieters auf. Keiner hat Zugriff auf die Google Datenbasis. Oft finde ich darin Links die schon lange nicht mehr funktionieren. Backlinks die ich z.b. innerhalb der letzten Woche erhalten habe werden meist nicht gefunden. Und die größte Frage die ich mir stelle: Sind die angezeigten Backlinks für Google überhaupt relevant?

Backlink Quellen werden nicht offengelegt, man wirbt mit magischen Crawlern und Algorithmen und keiner beachtet die Quelle die wirklich zählt: Google.

Was nützt mir ein guter Backlink wenn Google ihn nicht kennt und umgekehrt .. was schadet mir ein schlechter Backlink wenn Google ihn nicht kennt?

Gut jetzt kannst du sagen ich kann die Backlinks ja in der Search Console nachsehen. Aber selbst diese Daten sind nicht vollständig bzw. finde ich da drin auch noch Links die nicht mehr funktionieren. Außerdem sehe ich den Linktext nicht und diverse andere Infos fehlen mir auch. Mach dir mal den Spass und prüfe das.

TL;DR: die Welt der Backlinktools ist sehr esoterisch und eigentlich kaputt.

Okay .. und jetzt?

These: Mich interessieren nur Backlinks die Google kennt. Weil eben nur diese in die Linkbewertung und letztendlich in die Seitenbewertung mit einbezogen werden.

Folglich brauche ich ein Tool das die bekannten Backlinks aus Google herausholt und darstellt. Diese Backlinks müssen möglichst oft auf Funktion geprüft werden. Ich will wissen wie der Linktext ist, wie stark die Domain ist die auf mich verlinkt, Quelle -> Ziel .. das ist es eigentlich schon. Mehr brauche ich nicht .. vor ALLEM keine Backlinks die Google NICHT kennt. Ich will aktuelle Daten und neue Backlinks sollen schnell gefunden werden.

Ich habs dann mal gebaut

Mein Backlinktool kann das nun alles (und noch etwas mehr).

  • Zweimal pro Woche wird Google nach neuen Backlinks für die Domain durchsucht
  • Täglich werden die Backlinks auf Funktion geprüft
  • Zustand und Linktext wird angezeigt
  • Follow / Nofollow wird dargestellt
  • Man kann bequem filtern, suchen, exportieren, sortieren usw.
  • Backlinks können ebenso manuell hinzugefügt und gelöscht werden
  • Alle Backlinks erhalten eine Bewertung ihrer Stärke (0-100)

Das Tool gibt es aktuell wenn man den Keywordmonitor nutzt kostenlos dazu.
Ist alles noch Beta und baue da noch recht viel dran rum aber es funktioniert schon sehr zuverlässig.

backlinktool

Update 15.08.2016

Bekomme Fragen gestellt ob Google nicht “alle” Backlinks kennt? Hmm .. Nein! Selbst Google ist nicht in der Lage das komplette Web zu crawlen und alle externen Links jeder Website aufzunehmen. Ich behaupte hier mal frech das Google max. 15% alle WWW Seiten crawlt. Google hat sicherlich mit die mächtigsten Crawler und ist aus meiner Sicht auch besser als der Crawler eines beliebigen Backlinktools.

Recap SEO Day 2015

letzten Freitag war ich als Speaker auf dem SEO Day 2015. War auch mein erster SEO Day und auch das erste mal das ich auf so einer großen Konferenz Speaker war. Mein Chef musste mich nichtmal dazu verdonnern .. denn ich hatte Bock. Also hat mich die beste SEO Agentur 2015 nach Köln geschickt um dort was über Enterprise SEO zu erzählen. Wie es sich für nen guten Speaker gehört bin ich natürlich etwas zu spät angekommen .. was ausnahmsweise mal nicht an der Bahn lag. Aber gut .. ich hatte ja sowieso noch Zeit bis mein Vortrag um 11:00 Uhr los ging.

Also habe ich erst mal alles abgeckeckt .. viele bekannte SEOs gesehen und mich dann erst mal in die Ü30 Ecke gesetzt und nen Kaffee getrunken.

Um 11:00 ging mein Vortrag los und ich hatte ein schweres Los. Auf dem SEO Day gab es dieses Jahr 4 parallele Slots und in den anderen Slots sprachen zu der Zeit Marcus Tober, Gero Wenderholm und Jens Fauldrath. Also hab ich eigentlich damit gerechnet das ich leeren Stühlen was über die Fallstricke von Enterprise SEO erzähle.

Falsch gedacht.

Der Raum war voll .. ab da wurde ich dann etwas nervös.

Malte Landwehr war als Moderator da und hat dann kurz ein Kick Off gemacht und dann ging es auch schon los. Meinen Vortrag findet ihr bei Slideshare. Es hat alles prima geklappt .. ich konnte mein Thema (denke ich) gut rüber bringen und es kamen sogar Fragen ..

Dann hab ich aber erst mal wieder nen Kaffee gebraucht.

Eigentlich wollte ich mir dann noch einige Vorträge ansehen, aber ich kam irgendwie mit diversen Teilnehmern sofort ins Gespräch und hab dann den Rest des Tages mit diversen Diskussionen um technisches SEO verbracht .. nebenher 1-2 Startups beraten, ein paar Kunden getroffen und schwupps war auch irgendwie schon Abend.

Zur Party konnte ich leider nicht bleiben weil ich Abends noch nen Termin in Karlsruhe hatte.

Ich fand den SEO Day 2015 super, die Location im Kölner Stadion ist weit besser als irgend so ein Messegelände oder Kongresszentrum. Alles war von Fabian Rossbacher (dem Veranstalter) super organisiert, Catering war gut und es gab immer irgendwo was zu essen und eine große Getränkeauswahl.

Die Speaker (wenn ich auch wenige gesehen habe) waren hochklassig und der ganze Event macht irgendwie mehr Spass als die SMX in München .. alles war persönlicher und direkter obwohl es über 800 Leute waren.

Hoffe nur das ich nächstes Jahr nochmal als Speaker kommen darf 😉

Und hier findet ihr noch Bilder von mir.

Mein eigener Netflix Squid Proxy

Seit letzter Woche gibt es Netflix in Deutschland. Allerdings nicht mit dem vollständigen US Angebot. Es fehlen sämtliche Star Trek Serien, viele aktuelle Filme und Dokus und diverse neuere Staffeln populärer Serien.

Ein Bekannter gab mir dann den Hinweis das man sich mit dem deutschen Netflix Account auch im US Netflix einloggen kann .. allerdings benötigt man eine US IP Adresse.

Netflix filtert das Angebot für die jeweiligen Länder nach IP Ranges die diesen Ländern zugeordnet sind.

Nichts leichter als das. Für meine SEORCH Scraper betreibe ich sowieso ein paar kleine 5 Dollar Server in New York. Da sollte sich doch ein Proxy drauf installieren lassen. Quasi mein eigener US Proxy.

Natürlich gibt es solche Angebote zuhauf im Internet. Kosten alle ein paar Dollar im Monat und funktionieren auch prima. Aber ich finde selber machen immer noch um Welten cooler als dafür zu bezahlen.

Werkzeug

Du brauchst also einen kleinen Linux Server auf dem du Superuser Rechte hast, der muss zwingend eine US IP Adresse haben. Ich hab meinen bei Digital Ocean .. das kleinste Paket reicht um sicher 10 – 20 Kumpels auch noch damit zu versorgen. 1 TB Transfer muss man auch erst mal wegballern. Daneben musst du dir zutrauen auf der Linux Konsole Programme zu installieren und mit VI oder NANO Textfiles zu editieren.

Konsolen Foo

Erst mal Paketmanager Update machen und dann squid installieren .. ggf. mit sudo davor wenn ihr keine root Rechte habt.

CentOS:

yum update
yum install squid

Ubuntu:

apt-get update
apt-get install squid squid-common

Dann müsste in beiden Fällen unter /etc/squid/squid.conf die Squid Config Datei liegen. An der pfuschen wird gleich rum darum am besten ein Backup davon machen:

cp squid.conf squid.conf.bak

Jetzt bearbeiten wir schnell die squid.conf .. ihr könnt sie natürlich auch per FTP öffnen oder direkt auf der Konsole bearbeiten wie man das lieber mag. Dort muss dann folgendes rein:

via off
forwarded_for off

Das dient dazu den Proxy zu anonymisieren. Transparente Proxys reichen eure IP an den Zielserver weiter. Mit diesen Einstellungen sieht Netflix dann nur noch die IP des Proxy Servers.

Such dann die Zeile -> http_access deny all und kommentiert das aus. Wir lassen für den ersten Test erst mal alle Zugriffe auf den Proxy zu. (Das solltet ihr später dann ändern).

# http_access deny all
http_access allow all

Dann starten wir Squid:

service squid start 
oder 
service squid restart

Nun sollte euer Proxy zu erreichen sein:
http://[SERVERIP]:3128

Genau diese Einstellungen müsst ihr nun auch in eurem Browser vornehmen. Unter MacOS findet man das unter Netzwerk und dann Weitere Optionen -> Proxies

Dort dann bei HTTP und HTTPS die IP und den Port eintragen und im Fenster davor dann auf Anwenden klicken.

Sicherheit

Natürlich solltet ihr euren Proxy nicht so offen im Netz stehen lassen. Naja kann man .. muss man aber nicht. Man kann Squid mit einem Passwort versehen und wie das geht steht hier.

Ebenso könnte man auch wieder in der squid.conf den Zugriff auf Netflix beschränken. Ich wollte hier aber nur eine schnelle Basisanleitung geben um Netflix US mit eigenen Mitteln zu nutzen.

Neue Art Google SERP Snippet?

Diese SERP Art habe ich gestern entdeckt. Auf der Seite befindet sich nur ein Tabelle die in Auszügen von Google indiziert wird. Ich habe aber auch noch einige Beispiele mit kleinen Fließtextanteilen gefunden. Zentraler Bestandteil der Seite war aber immer eine große HTML Tabelle.

Google SERP Tabelle

Hier die indizierte Seite und hier die Google Suchergebnisse mit der Seite.

Die allgemeine Nacktheit

hat als solches nichts mit diesem Beitrag zu tun. Heute morgen habe ich steif und fest behauptet Blogs liest kein Mensch mehr und wenige Stunden später schreibe ich doch seit langer Zeit mal wieder einen Beitrag.

Ich will über SEORCH berichten .. das gibts jetzt immerhin knapp über 2 Jahre und ist natürlich größer geworden.

Hier mal ein paar Zahlen:

  • Normale Analysen: ca. 1500 / Tag
  • Screenshots: ca. 1500 / Tag
  • Seorch Ultrasuggest Abrufe: ca. 2000 / Tag
  • Seorch Scanner Analysen: ca. 20 / Tag
  • Unique Besucher: > 1000 / Tag
  • Chrome Installs: > 28.000
  • Facebook Likes > 200
  • Tweets mit der Domain > 165 (die meisten von mir)
  • Google+ Erwähnungen > 220

Über die Social Network Zahlen darf man nun gern auch lachen .. ich finde das aber alles trotzdem beachtlich. Vor 2 Jahren war mein Ziel eigentlich nur das Seorch so 20-30 Analysen pro Tag macht .. damit war ich zufrieden.

SEORCH

Angefangen hat es ja mit einem relativ kleinen OnPage Check. Nach und nach kamen jede Menge Features dazu wie z.b. Backlinkdaten, Social Network Daten, Domain Informationen, Google Rankings, Anzahl der Seiten im Index, PageRank.
Vor mehr als nem Jahr habe ich die Screenshot Funktion eingebaut. Man kann mittlerweile PDFs der Analysen erzeugen, eine Semantische Analyse machen .. dann die PRO Version mit kompletten Performance Daten aus YSLOW und Google Page Speed.

SEORCH Scanner

Vor knapp einem Jahr ist der SEORCH Scanner dann online gegangen. Und ich war in der Lage komplette Webseiten zu analysieren. Man kann daraus viele wichtige Daten herauslesen die nur im Zusammenspiel aller Seiten einen Sinn machen. Ich habe einen komplett eigenen Crawler geschrieben, das Backend hinten dran bildet eine MongoDB und der ganze Scanner skaliert auch für viele tausend Seiten wunderbar. Ich habe alleine 3 Monate Bugs gefixt und erst vor kurzem noch CSV Exports und PDF Exports eingebaut. Wenn ich selbst eine Site Clinic mache ist das Tool immer meine erste Anlaufstelle.

SEORCH Ultrasuggest

Eher so aus Langeweile habe ich den gebaut. Ich wollte mal wieder was neues machen .. so ganz ohne Legacy Code. Mitterweile liefert das Tool LongTail Daten aus 5 verschiedenen Quellen und ich plane noch ein paar hinzuzunehmen. Ideen un Input dazu kam meist per Email, Google+ oder direkt von Kollegen und ich habe dann einfach alles eingebaut was mir sinnvoll erschien.

SEORCH Keywordmonitor

Noch nicht wirklich veröffentlicht entwickle ich aktuell daran. Klar .. Keywordmonitoring Tools gibt es wie Sand am Meer. Meins ist auch nicht besser oder schlechter als die meisten. Aber es ist meins und ich muss nichts dafür bezahlen. Die Infrastruktur die aktuell dazu brauche kostet 10 Dollar im Monat und ich jage aktuell Google jede Nacht 2500 Top 100 Rankings ab ohne das ich eine IP Penalty bekomme ..
Der letzte Satz beschreibt auch schon den eigentlichen Reiz. Ich wollte in großen Maßstab an Daten herankommen die Google sonst extrem teuer verkauft. Quasi ein kleiner Hack .. und wenig macht mehr Spass 🙂

Und nu?

Ideen für Tools habe ich noch Tonnen. Die nächsten SEORCH Releases sind schon in der Mache und ich habe immer noch jede Menge Spass an der Entwicklung. Die zentralen Analysemöglichkeiten werden weiter kostenlos bleiben. Ich würde gerne eine paar Whitelabel Versionen mehr verkaufen und ich fände es cool wenn der Keywordmonitor irgendwann mal 100 zahlende Benutzer hat. Sonst wünsche ich mir nix 🙂

Aaah ja ..

Mich motiviert an SEORCH das was draus geworden ist. Wenn eine Website einen Bericht über SEORCH schreibt ist das ein wahnsinnig gutes Gefühl. Wenn SEORCH auf Twitter, FB oder sonstwo empfohlen wird bekomme ich immer ein kleines Lachen ins Gesicht. Über jede Feedback Email bin ich dankbar. Und Feature Requests bau ich meistens schneller ein als ich sollte ..

Im Grunde habe ich mit allen SEORCH Tools immer nur Dinge programmiert die ich selbst brauche und genau so werde ich auch weitermachen. Nur wenn es für mich Sinn macht habe ich Spass daran 🙂

Das Stinktier

The Skunk ist ein Stockscreener den ich mal kurz mit PHP und Ajax zusammen gebaut habe. Die Idee war eher spontan. Ich selbst handle seit über 10 Jahren mit Wertpapieren und zwei Kollegen von mir ebenfalls. Dabei kam dann irgendwie heraus das jeder von uns so 6-10 verschiedene Seiten besucht um eine Aktie zu bewerten.

Man sammelt diverse Informationen in nem Spreadsheet zusammen und am Ende überlegt man sich obs ne gute Aktie ist oder nicht. Aufwand pro Analyse gut und gerne mal 10 – 15 Minuten.

Datenbasis

Ich habe dann beschlossen das zu beschleunigen und herausgekommen ist theskunk.cc. Gestern habe ich die ALPHA veröffentlicht und ich bin schon ein bisschen zufrieden damit.

Wichtig für so ein Tool sind natürlich die Daten. Soweit es geht versuche ich diese über öffentliche APIs zusammen zu sammeln (Danke Yahoo) aber an vieles kommt man dann doch nicht so einfach ran.

Anbieter von guten Finanzmarkt Daten lassen sich in der Regel fürstlich entlohnen .. und da ist man dann schnell bei ein paar tausend Euro für ein paar einfach API Calls.

Die feine Englische ..

Was macht man also wenn man sich nicht weiterhelfen kann .. man scraped die Daten aus seinen Lieblingsseiten knallhart heraus.

Das ist nicht die feine Art (darum wohl auch The Skunk) .. aber oft die einzige Möglichkeit. Scrapen bedeutet, daß ich die Seiten wie ein normaler Browser lade und mir dann die Infos die ich haben möchte herauskratze.

Das ist natürlich alles andere als wirklich zuverlässig. Aber die Idee hinter Skunk ist einen generischen Scraper zu entwickeln der sich selbst meldet wenn er an Daten nicht mehr herankommt. Idealerweise hat man dann höchstens eine kleine Anpassung im Selector zu machen um die Daten wieder zu sehen.

Das steckt jetzt alles noch in den Kinderschuhen. Aber da ich mich scrapetechnisch mit dem Endgegner (Google) schon angelegt habe .. und dementsprechend weiß was da alles an Hürden auf mich zukommen kann .. wir das sicher ganz lustig.

Außerdem brauche ich ein leichtgewichtiges Projektchen .. SEORCH ist mittlerweile so umfangreich das ich mir schon 2-3 Stunden Zeit nehmen muss wenn ich was anpassen möchte.

The Skunk soll klein, schnell und flexibel bleiben ..

Regular Expressions Cheat Sheet

Ich habe oder eher hatte meine liebe Not mit Regular Expressions .. aber zwei Dinge haben mir geholfen .. da wäre einmal dieses Tool um RegEx zu testen.

Damit lernt man es allerdings nur unzureichend .. es eignet sich einfach dafür um seine Pattern zu testen. Was mir echt auf die Sprünge geholfen hat war eigentlich ein ganz simples Cheat Sheet von Dave Child. Hier ist das RegEx PDF.

Die ganzen riesigen RegEx Websites die in langen Sätzen und noch viel mehr Worten versuchen die Materie zu erklären sind an mir (oder ich an ihnen) gescheitert.

NPM – der Node Package Manager

NPM ist (die) eine Paketverwaltung von Node.js. JavaScript bringt ja von Haus aus wenige Standard Objekte mit .. wenn ihr also einen DOM parsen wollt oder Templating verwenden wollt könnt ihr das aufwendig selbst entwickeln und dabei jede Menge lernen oder ihr greift auf vorhandene Libraries zurück die Node.js erweitern.

Ich spiele gerade mit haml.js herum um Templates anzulegen und diese dann in mein Node Programm einzubinden. Ich habe also wenig Lust oder Zeit mich mit Templating selbst zu beschäftigen .. nehme ein vorhandenes Modul und nutze das.

Die vorhandenen Libraries installiert man am besten mit NPM .. so könnt ihr sicher sein das alle Abhängigkeiten usw. sauber gesetzt sind und ihr mit der Library oder dem Modul arbeiten könnt.

Hier findet ihr eine Auflistung aller Node.js Module. Ob Datenbankanbindung, Middleware, XML Erweiterungen, Parser etc. es sind Stand 2011 mehrere hundert Module die sich in Node.js einbinden lassen.

Den Node Package Manager -> NPM installieren

git clone http://github.com/isaacs/npm.git
cd npm
sudo make install
  • am besten natürlich in eurem Node Folder auf der gleichen Ebene wie node.js selbst
  • jetzt steht euch die Welt der Node Module offen

Ein Node Modul installieren z.b. HAML

npm install hamljs
  • NPM regelt nun alles für euch .. download, Einbindung etc.

Das Modul in euer Programm einbinden

var haml = require("hamljs");
  • an der gleichen Stelle wie z.b. var http = require(‘http’);
  • das wars auch schon .. nun könnt ihr auf die HAML Objekte zugreifen