Wer eine Webseite betreibt, möchte i.d.R. auch, dass die entsprechenden Inhalte auch über die Google Suche gefunden werden können. Damit URLs im Google Suchindex auftauchen, gibt es zwei Möglichkeiten. Entweder über die Verlinkung der eigenen Webseite über fremde Webseiten, oder über eine Sitemap.xml-Datei, welche in die URLs enthält, die durch Google indiziert werden sollen.

    Es kann jedoch auch passieren, dass URLs in der Suche auftauchen, die dort garnicht hin sollten. Um diese URLs wieder zu entfernen, gibt es drei Möglichkeiten:

    1. Webmaster Tools

    Die Google Webmaster Tools sind, wie der Name schon sagt, für den Betreiber einer Webseite gedacht. Nachdem man nachgewiesen hat, dass einem die Webseite gehört, kann ma dort verschiedene Informationen zur eigenen Seite finden. Unter anderem gibt es dort die Möglichkeit, HTTP-URLs aus dem Google Suchindex sowie dem Google Cache entfernen zu lassen.

    webmastert_tools_remove_url

    Dies erfolgt i.d.R. innerhalb von 12 Stunden. Damit dies entsprechende URL jedoch nicht nach 90 Tage wieder im Index auftaucht, muss sichergestellt sein, dass entweder durch eine robots.txt die Seite für die erneute Indexierung ausgeschlossen wird, oder der Google-Suchbot die Seite nicht mehr aufrufen kann, wie im Beispiel von "Seite nicht gefunden 404 – .htaccess"

    2. robots.txt

    Die Datei robots.txt ist eine Konfigurationsdatei für Such-Robots von Webseiten, in der angegeben werden kann, welche Such-Roboter (Agents) welche Adressen nicht indexieren dürfen. Wobei hierbei zu beachten ist, dass dies nur eine "Empfehlung" ist. Daran halten MUSS sich keine Suchmaschine, machen aber dennoch die meißten. Um z.B. die Idexierung der URL http://domain.tld/downloads/zu unterbinden, muss die Datei robots.txt, welche im Root-Verzeichnis der Domäne liegen muss, folgenden Inhalten haben:

    User-agent: *
    Disallow: /downloads/

    3. Seite nicht gefunden 404 – .htaccess

    Eine weitere Möglichkeit Webseiten aus einer Suchmaschine zu verbannen ist es, den Zugriff auf die Webseite zu unterbinden und statt dessen den Fehler 404 auszugeben. 404 bedeutet, dass es diese Webseite nicht mehr gibt. Somit wird die URL auch beim erneuten Crawlen durch die Suchmaschine entfernt. Diesen Effekt kann man erzielen, indem man im Root-Verzeichnis der Domäne eine .htaccess Datei erstelle über welche diese Filterung erfolgt. Im Nachfolgenden Beispiel, werden Zugriffe durch Google, Yahoo, MSN und Bing folgende URLS blockiert:

    • http://domain.tld/downloads/…
    • http://domain.tld/test123.php
    • http://domain.tld/20…
    • http://domain.tld/?feed…
    • http://domain.tld/<irgendeinzeichen>s=…

    Zu bachten sind bei diesen Regeln die [OR] Verknüpfung. Von allen mir [OR] Verknüpften Regeln muss nur eine zutreffen. Stehen zwei Regel ohne [OR] hintereinander, ist dies eine AND-Verknüpfung und beide Bedingungen müssen erfüllt sein. Dies ist in der Zeile vor HTTP_User_Agent zu sehen.

    <IfModule mod_rewrite.c>
    RewriteEngine On
    RewriteBase /
    RewriteCond %{REQUEST_URI} ^/downloads/(.*)$ [OR]
    RewriteCond %{REQUEST_URI} ^/test123.php [OR]
    RewriteCond %{QUERY_STRING} ^/?feed.*$ [OR]
    RewriteCond %{QUERY_STRING} ^/*s=.* [OR]
    RewriteCond %{REQUEST_URI} ^/20(.*)$
    RewriteCond %{HTTP_USER_AGENT} (googlebot|yahoo|msnbot|bingbot) [NC]
    RewriteRule .* - [R=404,L,NC]
    </IfModule>

    Um zu testen, ob die .htaccess Datei wie gewünscht funkioniert, gibt es eine Firefox-Add-On names User Agent Switcher, mit dessen Hilfe man sich beim Aufruf einer Webseite als Suchmaschine ausgeben kann. Greift eine Regel wie gewünscht, müsste in so einem Fall der Fehler 404 angezeigt werden.

    HTTPs URLs

    Anscheinend kann man über die Google Webmaster Tools keine HTTPS URLs aus dem Index entfernen lassen. Es bleibt also nur, diese ebenfalls vor der Indizierung zu schützen. Dazu muss man lediglich in der .htaccess-Datei eine Rewrite-Regel erstellen, über die bei HTTPs-Zugriffen eine andere robots.txt ausgeliefert wird als bei HTTP-Zugriffen:

    RewriteEngine on
    RewriteCond %{SERVER_PORT} ^443$
    RewriteRule ^robots.txt$ robots_ssl.txt [L]

    Die robots_ssl.txt müsste dann den folgenden Inhalt haben:

    User-agent: *
    Disallow: /

    Es bietet sich evtl ebenfalls an, für Such-Robots bei HTTPs Zugriffen ebenfalls den Fehlercode 404 ausgeben zu lassen. Dazu braucht man die oben angegebene .htaccess Datei nur um die nachfolgende mittlere Zeile ergänzen:

    [...]
    RewriteCond %{REQUEST_URI} ^/20(.*)$ [OR]
    RewriteCond %{SERVER_PORT} ^443
    RewriteCond %{HTTP_USER_AGENT} (googlebot|yahoo|msnbot|bingbot) [NC]

     

     

    Leave A Reply