Was ist der Suchmaschinenindex?

Im Suchmaschinenindex oder auch Google Index genannt, befinden sich die Seiten, die durch das Crawling der Bots gesammelt wurden und zur Bewertung der Algorithmen vorliegen. Eine Website, die nicht indexiert wurde, kommt somit auch nicht in den Index und demzufolge erscheint diese nicht in den Google SERPs.

Wie funktioniert der Google Index?

Der Google Index ist nicht statisch aufgebaut, vergleichbar damals einem Inhaltsverzeichnis oder Webkatalog wie Yahoo oder Web.de, er befüllt sich automatisiert und erzeugt dynamische Ergebnisse, je nach Suchintention des Nutzers. Hierzu wir das Internet durch Bots oder Crawler durchsucht und die jeweiligen Daten gesammelt. Diese Daten werden wiederum durch die Algorithmen selektiert, bereinigt und in den Index geschrieben.

Die Webcrawler erfüllen unterschiedliche Aufgaben, sei es das Sammeln von Bildern, News, Videos oder de Inhalte im Web. Das Auffinden der jeweiligen Inhalte geschieht durch die Verlinkungen im Web, auch Links oder Backlinks genannt. Diese Inhalte werden gespeichert und durch die sogenannten Rankingfaktoren aufbereitet. Somit wird eine dynamische Darstellung der Suchergebnisse für den Nutzer ermöglicht.

Neben dem hier benannten organischen Index gibt es noch im Bereich der Google ADs einen „Paid Index“, in dem die Webmaster Ihre bezahlten Anzeigen mit Keywords verknüpfen und in den Suchergebnissen ausspielen lassen. Auch dieser Index unterliegt einem Algorithmus, ersichtlich für den Nutzer als errechneter Qualitätsfaktor innerhalb der Kampagnen.

Welche Bedeutung hat das Crawling Budget?

Da auch Google keine unbegrenzten Kapazitäten besitzt, erhält eine Webseite ein sogenanntes Crawling Budget, anhand von Seiten die indexiert werden können bzw. der Dauer, die sich der Webcrawler auf Ihrer Seite befindet. Die Bedeutung der Seite und deren Aktualisierungsfrequenz nehmen hier eine wichtige Bewertung ein. Seiten, die neu oder unbedeutend für Google sind, werden weniger besucht als ein nationales Portal wie Spiegel oder Ebay. Je mehr Besuche Ihre Webseite erhält, je mehr Verlinkungen, Socialmedia Erwähnungen u.v.m., desto mehr Aufmerksamkeit erhält diese. Es ist innerhalb der Suchmaschinenoptimierung (SEO) daher wichtig, das Crawling der Bots so effektiv wie möglich zu gestalten.

Wieviele Seiten hat Google indexiert?

Mittels zwei Möglichkeiten ist es für Sie möglich zu prüfen, ob Google eine einzelne für Sie relevante Seite (URL) indexiert hat oder wie viele Seiten generell im Index aufgenommen wurden.

site-Abfrage:

Durch den Suchoperator „site:“ ist es möglich, sich die indexierten Seiten anzeigen zu lassen, bzw. eine einzelne URL auf ihre Indexierung zu prüfen:

  • site:ihredomain.de → Prüfung aller indexierten Seiten

    Google Ergebnis Site Abfrage

    Abbildung 1: Anzahl der indexierten Seiten

  • site:ihredomain.de/verzeichnis/ → Prüfung der indexierten Seiten im Unterverzeichnis

    Ergebnis Site Abfrage für ein Verzeichnis

    Abbildung 2: Site Abfrage auf ein Verzeichnis

Weitere Möglichkeiten der Site-Abfrage:

  • site:https://www.ihredomain.de/impressum
    → exakte Prüfung ob URL im Index

  • site:ihredomain.de Keyword
    → Ihnen werden alle Seiten ausgegeben, die relevant zu diesem Suchbegriff sind

  • site:ihredomain.de inurl:Keyword
    → Anzeige aller URLs Ihrer Seite, die gewünschten Begriff enthalten

  • site:ihredomain.de intitle:Keyword
    → Alle indexierten Seiten, die den Begriff im Title Tag besitzen

  • site:ihredomain.de filetype:pdf
    → Alle indexierten PDF Seiten, hier ist es möglich auch nach anderen Dateitypen wie doc, xls, usw. zu suchen

  • site:ihredomain.de -site:subdomain.ihredomain.de
    → Prüfung Ihrer Domain, wobei eine Subdomain ausgeschlossen wird

Die Google Search Console zur Prüfung der Indexierung

Innerhalb der Google Search Console können Sie den Verlauf des Indexierungsstatus und etwaige Probleme im Bereich „Abdeckung“ prüfen.

Abdeckung in der Google Search Console

Abbildung 3: Google Search Console Abdeckung

  • Fehler: hier aufgeführte Seiten sollten mit hoher Aufmerksamkeit geprüft werden

  • Gültig mit Warnung: Seiten die geprüft werden sollten, diese befinden sich noch im Index

  • Gültig: alles in Ordnung

  • Ausgeschlossen: Seiten, die nicht indexiert weil ausgeschlossen (robots.txt), Duplikat, Canonical u.v.m

Wie Seite von Google indexieren lassen?

Das Anmelden einer Seite in Suchmaschinen ist nicht notwendig! Folgende Möglichkeiten besitzen Sie, um Ihre Seite in Google indexieren zu lassen:

  • Verlinkung: Durch eine interne oder auch externe Verlinkung, welcher der Bot folgt, wird Ihre Seite in den Google Index aufgenommen. Externe Links, z.b. ein Eintrag in einem Verzeichnis, einer Erwähnung in den sozialen Medien. Wichtig ist hier zu erwähnen, dass der Linkgeber, z.b. das genannte Verzeichnis oder z.b ein Twitter Account sich selbst ebenfalls im Google Index befindet. Die Dauer kann bis zu einige Tage benötigen, bis der erneute Crawl der linkgebenden Seite stattfindet.

  • Sitemap: Durch das Einreichen einer Sitemap Ihrer Homepage in der Google Search Console, ist eine erneute Indexierung möglich, die Dauer kann einige Stunden bis Tage benötigen.

  • Einzelne Seite indexieren: Durch die URL Prüfung innerhalb der Search Console, sendet man den Bot gezielt auf eine URL. Weiterhin haben Sie die Möglichkeit, nach SEO Maßnahme einer URL, die erneute Indexierung in der Search Console zu beantragen.

    Indexierung bei Google beantragen

    Abbildung 4: Indexierung in Search Console beantragen

Diese Maßnahme trägt zur Beschleunigung der Indexierung bei. Die Dauer dieser kann wenige Minuten bis wenige Stunden betragen.

Wie eine Indexierung verhindern?

Es kann verschiedene Gründe haben, warum eine Indexierung von Dokumenten verhindert werden soll, z.b.:

  • Relaunch einer Website, die bis zur Onlinestellung noch nicht auffindbar sein soll.
  • Einzelne Inhalte oder Verzeichnisse sollen gesperrt werden.
  • Steuerung der Indexierung (Crawl Budget).

robots.txt

Mittels der robots.txt lässt sich das Crawling steuern, z.b. das Ausschließen der Indexierung der gesamten Website erfolgt mittels dieses Eintrags:

User-Agent: Googlebot

Disallow: /

Verzeichnisse oder einzelne Dateien lassen sich wie folgt von der Indexierung ausschließen:

User-Agent: Googlebot

Disallow: /verzeichnis/

Disallow: /verzeichnis/dateiname.pdf

http Header

Im Header einer Website haben Sie die Möglichkeit die URL von der Indexierung zu verhindern. In den Meta-Tags ist folgender Eintrag dazu nötig:

<meta name=“robots“ content=“noindex“/>

Soll den auf der Webseite befindlichen Links dennoch gefolgt werden:

<meta name=“robots“ content=“noindex,follow“/>

Soll weder eine Indexierung noch ein Folgen der Links stattfinden:

<meta name=“robots“ content=“noindex,nofollow“/>

Seite aus Google Index entfernen

Sollte es beispielsweise aus rechtlichen Gründen notwendig sein, eine einzelne Seite aus dem Google Index zu entfernen, so haben Sie hierzu verschiedene Möglichkeiten:

Search Console:

Innerhalb der Google Search Console klicken Sie links auf „Entfernen“ und haben so die Möglichkeit einen Antrag zur Entfernung aus dem Index einzureichen. Beachten Sie, dass es sich um eine „vorübergehende Entfernung“ ODER „die im Cache gespeicherte URL löschen“ handeln kann. Je nach Anwendungsfall ist hier die Auswahl zu treffen:

URL aus Google Index entfernen

Abbildung 5: Seite aus Google Index mittels Search Console entfernen

Statuscode:

Je nach Situation ist es möglich Google mitzuteilen wie die Suchmaschine im speziellen Fall mit einer URL umgehen soll:

  • 301 Statuscode: Ist die besagte URL umgezogen, so können Sie hier eine endgültige Weiterleitung mittels 301 einrichten.
  • 410 Statuscode: Ist die URL nicht mehr verfügbar, so können Sie diese mittels 410 als diesen Status deklarieren.

Häufige Probleme bei der Indexierung

Im Folgendem haben wir die häufigen Probleme bei der Indexierung Ihrer Website im Google Index zusammengeführt:

Anzahl indexierter Seiten stimmt nicht:

Zu wenig indexierte Seiten kann folgende Ursachen haben:

  • Seite noch neu, besitzt keine interne oder externe Verlinkung bzw. besitzt zu wenig Crawl Budget
  • URL oder Verzeichnis ist mittels robots.txt gesperrt
  • URL besitzt eine Meta Angabe „noindex“
  • der Statuscode der URL ist fehlerhaft
  • Ausschluss durch Duplicate Content

Besitzt Ihre Seite zu viele indexierte Seiten im Google Index:

  • Klarer Fall von Duplicate Content
  • verwaiste Seiten besitzen einen falschen Statuscode
  • Indexierung von Seiten die durch das CMS oder Shopsystem automatisch generiert werden, z.b. Filtermöglichkeiten, Session Ids

Seite ist verlinkt wird aber nicht indexiert?

Prüfen Sie hierzu ob die linkgebende Seite, die exakte URL, sich ebenfalls im Index befindet! Sollte sich diese nicht im Index befinden, ist der Quellcode der Seite zu prüfen. Besitzt dieser den Tag „noindex,nofollow“ so ist diese URL von der Indexierung ausgeschlossen und Verlinkungen soll nicht verfolgt werden.

Handelt es sich um ein internes Problem, sollten Sie prüfen ob ggf. das Verzeichnis der URL (die indexiert werden soll) innerhalb der robots.txt ausgeschlossen wurde.

Prüfen Sie den Statuscode der zu indexierenden Seite, dieser sollte den Code „200“ ausgeben.

Die Bedeutung der Indexierung für die Suchmaschinenoptimierung

Für die SEO ist die Prüfung der eigenen Seite im Google Index ein wichtiger Bestandteil der Onpage Optimierung. Es gilt hierbei technische globale Probleme zu erkennen und zu beheben. Duplicate Content führt zur Indexierung von irrelevanten Seiten im Suchmaschinenindex und mindert das Crawling wichtiger Seiten. Durch technische Probleme wie den falschen Statuscode oder der Ausschluss von Seiten zur Indexierung mittels robots.txt oder den Meta-Angaben, kann eine Optimierung der Seite nicht zum gewünschten Ziel führen. Halten Sie daher innerhalb der SEO die Entwicklung Ihrer Seite im Suchmaschinenindex im Auge.

Website an Google Index senden: https://webmaster-de.googleblog.com/2012/11/an-den-index-senden-webmaster-tools.html

Informationen zur Indexabdeckung in der Google Search Console: https://support.google.com/webmasters/answer/7440203?hl=de