Home » SEO » SEO-Tools » Ein kleiner Blick hinter SEO-Tools: Probleme, Datenverarbeitung, Kosten & mehr

Ein kleiner Blick hinter SEO-Tools: Probleme, Datenverarbeitung, Kosten & mehr

by Christian Schmidt on 8. September 2011

Mit diesem Blogpost möchte ich einen kleinen Blick hinter SEO-Tools wagen und zeigen, dass sie nicht nur nützliche Helfer sind, sondern das in sie auch viel Zeit, Technik und Geld gesteckt wird, um den täglichen Betrieb zu gewährleisten.

Wer ein umfangreiches SEO-Tool entwickelt muss zwangsweise über ein gewisses Knowhow im SEO und Entwicklungsbereich verfügen. Verteilte Abfragen, um einen IP Bann seitens der Suchmaschinen zu umgehen, und auch ein optimiertes Datenbanklayout und –system sollten zum Grundwissen vorhanden sein.

IP Limits, das große Problem bei SEO-Tools

Auch kleine Tools, bei denen man auf dem ersten Blick nicht vermutet, dass viel technischer Aufwand dahinter steckt, überraschen einen doch, wenn man mal etwas hinter die Kulissen / den Quellcode schaut. So nutzt beispielsweise der beliebte x4d Backlinkchecker mehrere Hostingpakete um darüber die Abfragen von Pagerank, Google & Yahoo Backlinks zu verteilen und so die nervigen IP Limits zu umgehen.

Wer noch ein paar Tipps braucht, wie man einfach an ein paar IPs kommt der sollte sich mal meinen älteren Blogpost “Woher? IP Adressen für das Scrapen von Inhalten” ansehen.

Solch eine Verteilung ist gerade für kleinere Projekte sehr sinnvoll und relativ kostengünstig (Man benötigt nur einige Hostingpakete bei unterschiedlichen Webhostern). Für größere Toolboxen oder Tools die Geld kosten lohnt sich dies nicht mehr, so dass man hier beispielsweise auf eigene IP-Netze zurückgreifen muss um einen reibungslosen Ablauf zu gewährleisten.

Eigene IP-Netze hat man vor Jahren noch (mehr oder weniger) ohne Probleme bekommen, heute gestaltet sich die Sache jedoch etwas anders, da durch die „IPv4 Knappheit“ viele Provider etwas umsichtiger mit der Vergabe geworden sind. Hier muss man einfach Verhandlungsgeschick beweisen, sich gut mit dem Provider verstehen oder einfach etwas Geld in die Hand nehmen.

Oft werde ich auch gefragt wie viele Abfragen man pro IP und Tag machen kann. Pauschal kann man dies nicht beantworten, da es auch immer davon abhängt wie die Abfragen durchgeführt werden. Von daher muss jeder Toolbox Betreiber hier eigenen Erfahrungen sammeln und Anfangs auch mal einen zeitlichen Google Bann in Kauf nehmen. Wichtig ist, dass ein jedes Tool nicht einfach weiter abfragt sondern im Falle des Falles stoppt und evtl. die Captchas (siehe Screenshot) zur Entsperrung eingibt (Hallo Captcha Breaker).

Um nochmal auf einen älteren Post zu verweisen, hier gibt es 7 Tipps zum scrapen der Google Suchergebnisse ;-).

Falls ein Tool nicht mehr funktionieren sollte kann man aber auch auf Unterstützung der Community hoffen. So wurde beispielsweise das Long Tail Keyword Tool vom SeoKai zeitweise eingestellt, da er immer wieder Probleme mit dem IP Bann hatte. Derzeit unterstütze ich Ihm bei dem Tool etwas, indem ich ihm einen Webproxy mit verschiedenen IPs für die Abfragen zur Verfügung stelle.

Datenaquise und Verarbeitung

Die wichtigste Aufgabe von SEO-Tools besteht neben der Auswertung und Anzeige von Daten natürlich vorrangig in der Aquise von Daten solcher. Um möglichst viele Daten in einem bestimmten Zeitraum ermitteln zu können (welcher Kunde möchte schon Stundenlang auf die Pagerank oder Positions Werte warten) ist es nötig, dass man möglichst viele Abfragejobs parallel laufen lässt.

Beispiele:

  • Bei SEOlytics sieht das dann so aus, dass dort rund um die Uhr 500 autonome Nodes die Positionen, Backlinks, Pagerank etc. ermitteln. Die Verarbeitung von Daten sowie die Berechnung des SEOlytics Visibility Rank (SVR) wird nochmals auf weiteren 30 Nodes ausgeführt.
  • Mein (kleiner) KeywordMonitor kommt mit etwas weniger aus. Hier laufen auf derzeit 5 Maschinen verschiedene „Worker“ Prozesse die über eine Gearman Queue Aufgaben, wie (hauptsächlich) die Ranking Ermittlung, zugeteilt bekommen. Die Anzahl der Prozesse variiert bei mir je nachdem wie viele Keywords abgefragt werden müssen. Ziel dieser Anpassung ist, dass möglichst alle Keywords in der Nacht abgefragt werden, so dass die Benutzer am Morgen die frischen Zahlen vorliegen haben.

Wenn man im speziellen darauf aus ist die Google Rankings abzufragen steht man irgendwann immer vor dem Problem, dass Google kleine Änderungen am Layout durch- oder neue Boxen einführt. Wer hier möglichst viele und genaue Informationen ermitteln möchte empfehle ich nicht auf reguläre Ausdrücke zu vertrauen, sondern auch andere Techniken zum auslesen von Informationen zu verwenden. Als Beispiel möchte ich hier XPath erwähnen (Besonders die Reg Ex Hasser werden XPath aufgrund seiner Einfachheit lieben).

Hardware und Software

Die technische Seite eines SEO Tools hat noch mehr zu bieten als nur die IP Problematik.

Mit einer steigenden Datenanzahl wachsen auch die Ansprüche an eine Datenbank und das eventuell vorhandene Datenbanklayout. Sofern der Entwickler sauber und durchdacht gearbeitet hat, lassen sich auch größere Datenmengen problemlos analysieren. Doch es kann trotzdem zu dem Punkt kommen, wo beispielsweise MySQL an seine Grenzen kommt und ein Server einfach nicht mehr reicht.

Hier muss man dann weiter an der Hardware arbeiten, in dem man weitere Server oder beispielsweise auch RAM „nachsteckt“. Alternativ kann man auch die vorhandene Datenbank Struktur überarbeiten oder wie zuletzt beispielsweise bei der Xovi Toolbox eine Portierung einiger Daten auf ein komplett anderes Datenbank System (hier MongoDB) durchführen. Glücklicherweise leben wir mittlerweile in einer Zeit in der Hardware immer günstiger und die Systeme immer schneller werden. Außerdem lassen sich speziell auch durch Virtualisierung (Server in der Wolke “Cloud”) viele kleinere Server aufsetzten, die für einen Arbeiten übernehmen.

Wie man die Performance steigert ist hier sicherlich jedem selbst überlassen, durch neue Lösungen und weitere Ansätze wie NoSQL kann sich ein Entwickler hier reichlich austoben. Und durch sehr günstige VServer Angebote kann sich ein Entwickler auch schon im kleinen Rahmen austoben und ein kleines Tool zusammenbauen.

Wer sich hier ein wenig austoben und mal weg von MySQL hinzu etwas Neuem möchte, dem kann ich empfehlen mal einen Blick auf MongoDB zu werfen. Gerade in Sachen der Erweiterung und Verteilung von Lasten hat es mir MongoDB angetan (Auch wenn es im Vergleich zu MySQL mehr Platz verbraucht – aber Festplatten kostet heute ja nix mehr). Als Buchtipp für Umsteiger empfehle ich „MongoDB: Sag Ja zu NoSQL“ (mit etwas Humor geschrieben).

Vorhandene SEO-Tools im (unfairen) Vergleich

Anhand der Daten, die mir freundlicherweise von einigen lieben Toolbox Kollegen zur Verfügung gestellt wurden und den Daten, die ich selbst ermitteln bzw. aus dem Internet entnehmen konnte, möchte ich hier einmal einen Hardware & Software Überblick wagen.

SISTRIXSEOlyticsKeywordMonitorXoviOpenseodata
BetriebssystemDebian**UbuntuDebianCentOS-
WebserverApacheApache/2.2.14ApacheApache/2.2.3Apache-Coyote/1.1
Scriptsprache(n)k.A.Java und Ruby on RailsPHP, Python & JavaPHPJava / JSP
Datenbankk.A.MySQL & NoSQL DatenbankMySQL + Memcached & MongoDBMySQL (und MongoDB)MySQL
Server>100k.A.k.A.k.A.1
RAM> 1TBk.A.>128GBk.A.64GB

Wie man in der Tabelle sieht, sind die meisten Tools nicht nur mit Standardmitteln wie PHP & MySQL programmiert, sondern benutzen noch weitere Technologien und Datenbanken zur Speicherung und Ausgabe der Daten. Trotz der teilweise großen Unterschiede zwischen den Tools, sollte man diese natürlich nicht untereinander vergleichen. Einerseits habe ich verständlicherweise nicht den genauen Überblick über die Systeme, andererseits gibt es, je nach Toolbox, andere Technologien und Speicherlösungen die auch ein anderes „Computer-Netzwerk“ rechtfertigen.

Ausblick

Der Bedarf an guten SEO Tools ist da und ich denke, dass auch verschiedene Tools auf dem Markt existieren können. Ich würde mich freuen, wenn zukünftig noch weitere Tools entstehen, die auch eher auf den SEO Anfänger ausgelegt sind und natürlich das die vorhandenen weiter ausgebaut werden.

Außerdem freue ich mich natürlich auch über offene  Tools und Datensammlungen  wie z.B. openseodata vom Fabian Rossbacher oder zuletzt die große Long Tail Keyword Liste vom Kai Spriestersbach.

Fragen und Antworten

Noch Fragen? nutzt bitte die Kommentar Funktion oder schreibt mir einfach eine Email :)

VN:F [1.9.14_1148]
Rating: 0.0/5 (0 votes cast)

{ 9 comments }

1 Julian September 8, 2011 um 15:57

Top Beitrag, denke vielen der SEOs sind die Dimensionen gar nicht bekannt. Wenn man dann liest dass 100,- für ein Tool zuviel sind weiß man es genau dass derjenige 1. keine Ahnung vom Aufwand und 2. keine Ahnung hat wie er die Daten nutzen kann. Ist schade, aber so trennt sich die Spreu vom Weizen wie man so schön sagt.

2 crilla September 8, 2011 um 16:26

Genau so ist es :)

3 Alex September 8, 2011 um 22:31

Sehr schönes Thema, das viel zu viele Leute unterschätzen!

4 Abro September 9, 2011 um 05:03

Der Sistrix Crawler war nach eigener Aussage mal in Java geschrieben,
ob das immernoch zutrifft bleibt natürlich fraglich.
http://www.sistrix.de/news/810-sistrix-toolbox.html#20

SeoDiver:
Server Apache/2.2.12 (Ubuntu)
X-Powered-By PHP/5.2.10-2ubuntu6.10
Benutzt im Frontend PHP und sehr viel JS/jQuery

Wise:
Server Apache/2.2.17 (Win32)
X-Powered-By PHP/5.3.5
usw. …

majestic seo:
da trifft man auf apache / unix , c# und windows

opensiteexplorer:
Server Apache/2.2.17 (Ubuntu)
X-Powered-By Phusion Passenger (mod_rails/mod_rack) 3.0.7

5 Marco September 9, 2011 um 09:22

Ich denke es ist eine sichere Wette, dass alle Tools auch Hadoop im Einsatz haben…

6 Cyb September 9, 2011 um 11:36

FrontEnd Server != BackEnd Server … (außer vielleicht bei openseodata) .. vergleichen macht also in der Beziehung keinen Sinn ;-)

7 Seowebdesigns September 11, 2011 um 00:35

Super Interessanter Beitrag der wirklich verständlich geschrieben wurde :) Selbst wenn man nicht so viel Ahnung hat, kann man sich auf jedenfall eine bessere Vorstellung von den Dimensionen machen.

8 Patrick September 11, 2011 um 15:52

Toller und ausführlicher Artikel über ein interessantes Thema. Die Problematik mit der IP Sperre kenne ich nur zu gute. Mit meinem kleinen Google Scraper erfasse ich zwar nur knapp 8000 Keywords täglich, allerdings kommt man da mit einer IP Adresse nicht weit. Webproxies sind natürlich eine gute Möglichkeit, allerdings hat man oft Probleme damit, das die Seite nicht so rüberkommt wie sie soll, da die meisten Proxies Manipulationen vornehmen (Werbung,andere nervige Änderungen).

Hoffen wir mal das wir IPv4 Adressen schnellstmöglich loswerden und man bei jedem billigen Server 200 IPv6 Adressen dazubekommt.

9 crilla September 11, 2011 um 16:13

Es wird wohl darauf hinaus laufen, dass wir bei jedem Server kleine IPv6 Netze bekommen (jetzt hat man ja wieder nahezu unendlich viele IP-Adressen).

Es bleibt nur abzuwarten wie schnell die Sperren bei IPv6 im Vergleich zu IPv4 greifen werden. Vielleicht sollte man da mal ein kleines Experiment wagen :)

Previous post:

Next post: