Springen Sie direkt zu: Indizierte Inhalte mit der Searchmetrics Suite ermitteln.
Wenn in Bezug auf das Web vom „Index“ gesprochen wird, bezieht sich die Bezeichnung meist konkret auf den Index einer Suchmaschine und dabei meist auf den Index von Google. Der Index ist in diesem Fall eine gewaltige Menge an Daten, die eine Suchmaschine zu Milliarden von URLs auf eigenen Servern gespeichert hat, um daraus passende Suchergebnisse zu generieren.
Wie kommt eine Website in den Index?
Zu Beginn des Internets waren Backlinks die wichtigste Möglichkeit – und obendrein eine unter recht wenigen, um andere Websites zu entdecken und zu besuchen. Aus diesem Grund entstanden schnell vielseitige Linkverzeichnisse, um Usern eine Übersicht über Websites zu allen möglichen Themen zu geben.
Eines der bekanntesten Verzeichnisse war DMOZ. Doch mit der zunehmenden Bedeutung von Suchmaschinen, allen voran Google, wurden Linkverzeichnisse immer unbedeutender. Wichtig war es dann, seine Website in den verschiedenen Indizes der Suchmaschinen anzumelden, um bei Suchanfragen berücksichtigt zu werden. War die Website angemeldet, erhielt der sogenannte Robot der Suchmaschine den Auftrag, diese Website zu crawlen, d.h. nach Inhalten zu durchsuchen.
Keine Anmeldung (mehr) erforderlich – der Bot kommt von selbst
Daten wie das Layout, ein Screenshot sowie Angaben zur Aktualität wurden dann schließlich auf dem Server der entsprechenden Suchmaschinen gespeichert. Um die Aktualität der Ergebnisse zu gewährleisten, besuchte der Robot die Website in regelmäßigen Abständen. Das ist auch heute noch so.
Heute jedoch ist die Aktivität der Suchmaschinenrobots so groß, dass es in der Regel ausreicht, eine Website online zu schalten oder zum Beispiel in einem sozialen Netzwerk einen Link darauf zu setzen, damit sie von Suchmaschinen indiziert wird.
So hat Google z. B. die Indizierungsgeschwindigkeit zusätzlich im Jahr 2003 durch das sogenannte „Fritz-Update“ zum ersten Mal so verändert, dass der Index täglich angepasst wurde. Durch weitere Updates wie das Freshness-Update und die wieder eingestellte Real-Time-Search hat Google die Kompetenz, den Suchindex je nach Bedarf sogar nahezu „live“ anzupassen.
Welche Seiten / Inhalte / Medien landen im Index?
Durch die verschiedenen Typen der vertikalen Suche werden auch unterschiedliche Indizes von verschiedenen Bots angelegt. Google hat z. B. eigene Crawler für News, Bilder oder mobile Inhalte. Neben textlichen Inhalten finden auch Bilder, Videos, URLs oder Tonaufnahmen den Weg in die Suchmaschinenindizes.
Die Aufgabe der Algorithmen
Wenn man sich den Index einer Suchmaschine als gigantischen Berg an Terrabyte Daten vorstellt, wird bewusst, welche enorme Aufgabe der Technik zum Sortieren dieser Datenmassen zukommt. Bei Suchmaschinen übernehmen Algorithmen die Sortieraufgabe. Sie bestimmten, welche Inhalte zu welcher Suchanfrage ausgegeben werden. Man geht davon aus, dass die Algorithmen die Relevanz einer Website zu einer Suchanfrage anhand von mittlerweile mehr als 300 verschiedenen Faktoren (unter den wichtigsten darunter immer noch: Backlinks) ermitteln. Die Daten im Index liefern die Grundlage dafür.
Eine Website von der Indizierung ausschließen
Wer nicht möchte, dass seine Webinhalte von Suchmaschinen indiziert werden, kann das Meta Tag in den -Bereich der betreffenden Seite integrieren. Ebenso können auch gezielt die Indizierung durch Crawler bestimmter Suchmaschinen verhindert werden. Möchte man z. B. den Googlebot an der Indizierung hindern, wird diese Meta-Angabe verwendet:
Zusätzlich besteht die Möglichkeit, dass der Crawler die Seite nicht indiziert, den Links darauf aber dennoch folgt. Dann wird diese Meta-Angabe eingefügt:
follow“>
Darüber hinaus bieten die Webmastertools von Google die Möglichkeit, einzelne Seiten einer Website aus dem Index zu entfernen. Voraussetzung hierfür ist ein gültiges Google-Konto und eine verifizierte Website.
Wann Noindex sinnoll
Die Suchtiefe und die leichtere Indizierung beeinflussen
Die Voraussetzung für die Indizierung einer Website ist, dass sie gecrawlt werden kann. Folglich müssen Webmaster dafür sorgen, dass alle Inhalte, die auch indiziert werden sollen, leicht für Robots zugänglich bleiben. Flash-Inhalte oder Java-Scripte sind deshalb für eine leichte Indizierung nicht geeignet.
Es empfiehlt sich zudem, die Menüstruktur bzw. die Seitenhierarchie möglichst flach zu halten, damit ein Bot die Zeit, die er für das Crawlen einer Website zur Verfügung hat, optimal nutzen kann. Ein Faktor, der die Crawldauer und –tiefe mitbestimmt, ist der von Google eingeführt PageRank. Es ist davon auszugehen, dass die Crawltiefe und -dauer von der Höhe des PageRanks abhängen. Je höher der Rank, desto besser.
Indizierte Inhalte mit der Searchmetrics Suite ermitteln
Wer wissen möchte, wie viele URLs seiner Domain von Suchmaschinen indiziert wurden, kann dies bei Google oder Bing über die Webmastertools erfahren. Hierfür wird je nach Anbieter ein Google- oder Microsoft-Konto benötigt. Eine schnelle Lösung ist auch die sogenannte Site-Abfrage, die jeder durchführen kann. Hierbei wird in die Suchleiste der Suchmaschine Google oder Bing das Wort „site“ mit Doppelpunkt vor die URL gestellt.
Ein Beispiel: „site:beispielseite.de“
Als Ergebnisse werden dann die zu dieser URL indizierten Webseiten angezeigt.
Alternativ bietet auch die Site Experience in der Searchmetrcis Suite die Möglichkeit, die Zahl der indizierten Webseiten einer URL abzufragen. Unter Index vs Noindex findet sich eine Übersicht aller gecrawlter URLs und deren Index und Follow Status.
Die Searchmetrics Suite unterscheidet dabei 4 Kategorien:
- Index-Follow: Diese Seiten sind im Index der jeweiligen Suchmaschine und der Crawler wird angewiesen allen auf der Seite befindlichen Links zu folgen. Dies ist die standardmäßige Einstellung, auch ohne dass es im Code angegeben werden muss.
- Index-Nofollow: Diese Seiten befinden sich im Index. Der Crawler wird jedoch darüber informiert, den auf der Seite befindlichen Links nicht zu folgen. Beispielhaft kann für die Anwendung dieses Attributs ein Blog-Artikel genannt werden, der zwar im Index auftauchen, dessen Links in den Blogkommentaren jedoch nicht gefolgt werden soll, um so das Ranking nicht zu beeinflussen.
- Noindex-Follow: Diese Seiten wurden von der Indizierung ausgeschlossen. Der Crawler wird dennoch angewiesen den Links auf der Seite zu folgen. Sinnvoll ist der Einsatz zum Beispiel bei redundanten Kategorieseiten, die nicht in den Index aufgenommen werden sollen, aber dessen Inhalten die Suchmaschine trotzdem folgen soll.
- Noindex-Nofollow: Diese Seiten wurden von der Indizierung ausgeschlossen und der Crawler wird angewiesen keinen Links auf der Seite zu folgen. Diese Anweisung ist beispielsweise bei Seiten mit User Generated Content sinnvoll.
Dem Übersichtschart folgt auf der unteren Hälfte der Seite eine Tabelle, die die einzelnen gecrawlten Pages auflistet und detailgenaue Informationen über die Indexierung und den Followstatus gibt. Es können sich zudem Infos über die Anzahl der ausgehenden/eingehenden Links, sowie über den SPS und Chei-Rank angezeigt werden lassen.