Einen SEO Spider bauen

SEO Spider? -> Ein Tool mit dem man ne komplette Website nach gängigen SEO Faktoren analysieren kann, Fehler findet und Verbesserungspotential aufdeckt.

Eigentlich hatte ich damit schon Ende letzten Jahres angefangen. Das Herzstück eines SEO Spiders ist der Crawler oder Spider. Eine Software mit der man alle internen Seiten einer Domain anhand von Links findet. Möglichst auch die, die besonders gut versteckt sind.

Jede Suchmaschine setzt so eine Software ein um alle Seiten einer Domain zu finden. So ganz einfach ist das nicht da es viele verschiedene Arten von URLs gibt (GET Parameter), viele verschiedene Arten intern zu verlinken (relativ, absolut), Subdomains und dann noch so lustige Sachen wie den BASE Tag oder relative Verzeichnissprünge. Ich schätze mal das ist ein Grund warum Google es jedem Website Betreiber ermöglicht XML Sitemaps einzureichen. Man crawlt immer ein bisschen gegen Unbekannt!

Natürlich hätte ich meinen Spider auch um einen fertigen OpenSource Crawler bauen können .. aber wo ist denn da der Spass?

Features

So ein SEO Spider muss einige Dinge können:

  • fehlende Title Tags und Meta Descriptions finden
  • doppelte Title Tags und Meta Descriptions finden
  • HTTP Response Codes auslesen
  • fehlende Headlines finden
  • Meta Robots und den Canonical Tag auslesen

daneben wäre es aber auch noch cool wenn er

  • 301ern und 302ern folgt und anzeigt
  • man bestimmte GET Parameter während des Crawls entfernen lassen kann
  • nur bestimmte Verzeichnisse gecrawlt werden
  • Antwortzeiten der der Website ermittelt
  • Cluster und Verzeichnisse zeigt
  • Levels und Ebenen zeigt
  • Dateigrößen
  • usw.

Ist ja toll ..

Seit einigen Wochen sitze ich an so einem Tool .. das Herzstück .. also der Crawler selbst ist mit 500 Zeilen Code sehr schlank geblieben wie ich finde. Der ist nun auch fertig und ich habe ihn schon ziemlich ausführlich getestet. Aktuell baue ich nun die Analyse und Auswertung und bin gerade etwas im Featurewahn.

Darum habe ich beschlossen heute einfach mal eine Alpha Version zu veröffentlichen: http://www.seorch.de/seo-spider.html um zu sehen ob das Errorlog volläuft und vor allem um vielleicht etwas Feedback zu bekommen.

Diverse Features fehlen noch, Bugs sind sicher auch zu finden und die Crawls sind auf max. 250 Seiten beschränkt (abhängig davon wie schnell der gecrawlte Server antwortet).

Credits an racing_fool mit dem die Urversion des Crawlers entstanden ist und an SenSEO der mich mit seinem Crawler wieder angespitzt hat 🙂

Hier könnt ihr den SEORCH SCANNER testen.

Leave a Reply

Your email address will not be published. Required fields are marked *