Eine Spider trap (wörtlich „Spinnen-Falle“) ist eine Web-Struktur, die unerwünschte Webcrawler erkennen und optional an der Erfassung der Inhalte einer Website hindern soll.
Das Ziel ist, unerwünschte Webcrawler, die Spam verbreiten oder Sicherheitslücken ausfindig machen sollen, von der Erfassung eines Internetinhalts auszuschließen, während erwünschte Crawler, wie die Bots von Suchmaschinen, in ihrer Arbeit nicht beeinträchtigt werden und menschliche Besucher in ihrem Erlebnis nicht beeinträchtigt werden.
Die Spider Trap nutzt den Umstand, dass sich erwünschte Bots an die von ihm definierte Regeln (z. B. in einer robots.txt-Datei) halten und somit bestimmte Inhalte einer Website ignorieren. Unerwünschte Crawler halten sich in der Regel nicht an derartige Vorschriften. Daher ist es dem Entwickler möglich, einen für den Benutzer unsichtbaren und für einen erwünschten Crawler gesperrten Link zu platzieren, der zur Sperrung der durch den unerwünschten Crawler verwendeten IP-Adresse führt.
Für den Fall, dass sich ein Besucher auf diese Sperrseite verirrt, kann die Möglichkeit geboten werden, durch ein CAPTCHA die Sperrung aufzuheben.
Weblinks
- Spider Trap, Open-Source-Implementierung einer Spider-Falle unter Mozilla Public License (in PHP)
- Heise Artikel zur Erfassung von Webcrawlern