Home » SEO » Scrapen » Woher? IP Adressen für das Scrapen von Inhalten

Woher? IP Adressen für das Scrapen von Inhalten

by Christian Schmidt on 27. August 2010

In meinem vorherigen Blogpost habe ich Tipps zum Scrapen der Google Suchergebnisse gegeben und dabei geschrieben das ich empfehle verschiedene IP Adressen zu verwenden. In diesem Blogpost möchte ich auf das Thema jetzt noch etwas genauer eingehen.

Verschiedene IP Adressen durch Web Proxies

Viele Firmen, Schulen und öffentliche Einrichtungen verbieten den Zugriff auf bestimmte Webseiten weshalb sich irgendwann findige Leute Webproxies ausgedacht haben.

Um mehr IP Adressen zum Abfragen zu haben kann man deshalb Webproxies hernehmen und die Google Abfrage URL dadrüber laden. Beachten sollte man dabei aber das manche Proxy Dienste Änderungen am HTML Code vornehmen und damit wiederum Anpassungen an unserem Abfrage Script notwenig sind.

Warum Webproxy, es gibt doch auch normale Proxies

Ja die gibt es und es sind auch nicht gerade wenige. Leider sind die öffentlichen Proxies in der Regel nicht gerade die Geschwindigkeitswunder und bezahlte Proxies lohnen sich meiner Meinung nach auch kaum (außer man nutzt sie kurze Zeit für irgendwelche Black Hat Aktionen). Wer nur kleine Mengen scrapen will kann sich aber trotzdem dran versuchen.

Abfragen über eigenen „Webproxy“ auf Webhosting Paketen

Jeder SEO sammelt mit der Zeit verschiedene Hostingpakete bei unterschiedlichen Providern und besitzt damit auch die Möglichkeit die IP Adresse dieser Server für seine Abfragen zu nutzen. Für unsere Abfragen können wir uns selbst einen einfaches Webproxy Script basteln welches eine URL lädt und ausgibt. Wer hier ein wenig Traffic sparen will kann natürlich auch schon das Script zum verarbeiten der Suchergebnisse mit auf den selben Server legen.

<?
$url = $_GET['url']; // Url die abgefragt werden soll
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url); // URL
$content = curl_exec($ch);
curl_close ($ch );
?>

Vorteil im Gegensatz zu öffentlichen Web Proxies ist natürlich das wir immer die volle Kontrolle haben und keine Änderungen am HTML Code vorgenommen werden.

Wem die Hostingpakete zu teuer sind, der kann auch mal bei den kostenlosen Webhostern nachschauen. Jedoch sei hier von mir gesagt, das viele Anbieter bereits ausgehende Verbindungen gesperrt haben wodurch keine Nutzung als Webproxy möglich ist.

Keine Lust auf Webhosting? Auch bei Google kann man einen Web Proxy hosten! :)

Es klingt komisch, aber mit Hilfe der Google App Engine könnt ihr auch bei Google selbst einen Web Proxy hosten. Das Hosting des Proxies ist dabei bis zur einer gewissen Anzahl an Serveranfragen sogar kostenlos.

Im Internet und auf den Seiten von Appspot / App Enginge selbst finden sich ein paar fertige Lösungen, die gering angepasst werden und dann mittels eines eigenen Programms bei Google hochgeladen werden müssen. Das ganze dauert je nachdem ob man bereits Python auf seinem Computer installiert hat und man sich an die Readme hält keine 5 Minuten.

Mehrere IP Adressen auf einem Server nutzen

Wenn man irgendwann Erwachsen geworden ist muss natürlich ein Server her und am besten mit mehreren IP Adressen. Auch wenn die IPv4 Adressen mittlerweile recht knapp geworden sind ist es immer noch möglich mehr als nur eine IP Adresse pro Server zu bekommen.

Auch für kleinere VServern bekommt man teilweise 2 IP Adressen mitgeliefert. Wer noch mehr braucht, weil er größere Abfragen starten möchte oder weil er einfach nur viele IPs besitzen will, der muss sich einen guten Grund einfallen lassen und sich an den Hoster seines Vertrauens wenden um dort unter Umständen ein eigenen IP Netz zu bekommen.

Wenn wir unseren Server eingerichtet und die IP Adressen konfiguriert haben können wir zum Beispiel mit Hilfe von CURL ganz einfach die Ausgehende IP Adresse bestimmen und so über verschiedene IP Adressen die Abfragen starten.

<?
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.wieistmeineip.de'); // URL
curl_setopt($ch, CURLOPT_INTERFACE, '127.0.0.1'); // Ausgehende IP Adresse
$content = curl_exec($ch);
curl_close ($ch );
?>
VN:F [1.9.14_1148]
Rating: 0.0/5 (0 votes cast)

{ 1 comment }

1 fiacyberz September 1, 2010 um 16:27

Netter Post, schön zusammen gestellt.
Aber ganz ehrlich, ich würde niemals meine Webhosting Pakete zum Scrapen von Google nutzen. Klar Google weiss nicht welche der Domains hier nun derjenige ist, aber das Risiko wäre mir hier zu groß.

Previous post:

Next post: