Diese Skalenpunkte können Sie verwenden

Bei folgender Ratingskala, welche mit dem Fragebogentool Sphinx-Survey erstellt wurde, sind alle Skalenpunkte verbal benannt:

Dies ist vorteilhaft, da die Befragten die einzelnen Skalenpunkte nicht interpretieren müssen. Eine Verbalisierung der Ratingskala sollten Sie insbesondere dann nutzen, wenn die Befragten keine großen Erfahrungen mit Fragebögen haben oder wenn Personen mit niedrigem Bildungsniveau oder Kinder befragt werden.

Nachteilig wirkt sich eine solche Benennung aller Skalenpunkte dann aus, wenn die Anzahl der Skalenpunkte größer als fünf ist: In diesem Fall muss man sich oftmals sehr verkünsteln, um passende Skalenbenennungen zu finden: Haben Sie beispielsweise eine Skala mit 9 Skalenpunkten und benennen den positivsten Skalenpunkt mit „Sehr zufrieden“, wie benennen Sie dann die folgenden Skalenpunkte? In diesem Fall könnte eine Skala sinnvoller sein, bei der nur der Anfang und das Ende der Skala benannt ist.

Allerdings müssen die Befragten die Skalenpunkte in diesem Fall interpretieren: Letztendlich werden die Probanden geistig genau die Verbalisierung vollführen müssen, die Sie nicht geschafft haben. Man könnte also überlegen, ob nicht einfach die Anzahl der Skalenpunkte zu groß ist.

Die Frage, ob alle Skalenpunkte verbalisiert werden sollen hängt aber auch von der Befragungsmethode ab: Menschen können sich Zahlen besser merken. Bei auditiv vorgetragenen Interviews wie z.B. Telefonbefragungen könnte es daher sinnvoller sein, nur die Endpunkte zu benennen.

Es lässt sich also nicht einfach sagen, ob die Skalenpunkte alle verbalisiert werden sollen oder nur die Endpunkte. Eine recht gute Zusammenfassung zum Stand der Umfrageforschung finden Sie in Faulbaum/Prüfer/Rexroth 2009.

Die visuelle Darstellung von Skalenpunkten

Die Skalenpunkte von Ratingskalen müssen nicht zwangsläufig nur durch Nummern oder Verbalisierung benannt werden, sondern können auch symbolisch z.B. mit Hilfe von Gesichtern voneinander differenziert werden. Der Einsatz solcher Kunin-Gesichter (Kunin erfand diese Darstellung 1955) oder Smileys wird zwar manchmal als „unseriös“ betrachtet, kann aber zwei Vorteile haben: Erstens kann durch ein ansprechendes Layout des Fragebogens die Motivation zum Ausfüllen erhöht werden. Aus diesem Grund findet man solche Darstellungen auch häufig bei ausgelegten Fragebögen. Zweitens können sich durch die Auswahl der Symbole an Stelle von Wörtern Personen differenziert ausdrücken, welche es sonst nicht so gut könnten. Dies ist insbesondere bei diagnostischen Fragebögen bei Kindern (z.B. damit Kinder ihr Schmerzempfinden beschreiben können) der Fall.

In der Tat gibt es verschiedene Studien die nachweisen, dass die Darstellung von Skalenpunkten mit Gesichtern, welche unterschiedliche Mundwinkel haben, zu sinnvoll interpretierbaren Ergebnissen führt. Jäger gibt in Ihrer Studie die Quantifizierung der Intensität erlebter Zufriedenheit, die emotionale Bewertung von Ereignissen, die Zustimmung von Statements oder die Beschreibung der globalen Befindlichkeit als mögliche Anwendungsfelder für Smilies an. (Jäger 2004)

Die Anzahl der Skalenpunkte von Ratingskalen

Damit Sie den Befragten genug Freiraum für die Meinungsäußerung geben sollten Sie mindestens 4 Skalenpunkte wählen. Wenn man die Optionen der statistischen Datenanalyse mit einbezieht (z.B. wenn man die Ratingskala als intervallskaliert betrachtet), so sind 4 Skalenpunkte eigentlich zu wenig. Es muss ebenso verhindert werden, dass Ceiling-Effekte oder Floor-Effekte auftreten, d.h. es die Befragten können sich an den Extrempunkten nicht mehr differenziert genug äußern. (Krosnick/Fabrigar 1997) Auf diese Problematik wird später beim Erstellen von Fragebögen für Mitarbeiterbefragungen oder beim Erstellen von Fragebögen für Kundenbefragungen eingegangen.

Nach oben hin ist die Grenze der Skalenpunkte theoretisch offen: Kontinuierliche Ratingskalen gehen sogar soweit, dass unendlich viele Skalenpunkte möglich sind. Neben Auswertungsproblemen solcher Skalen haben psychologische Tests haben allerdings gezeigt, dass mehr als 10 Skalenpunkte nicht mehr sinnvoll interpretiert werden. In der Praxis kommen daher vornehmlich Ratingskalen mit 5 bis 7 Skalenpunkten zum Einsatz. Porst empfiehlt in seinem Buch „Fragebogen“ bei verbalisierten Skalen 4 bis 6 Skalenpunkte und bei Endpunktbenannten Skalen 5 bis 9 Skalenpunkte (Porst 2008).

Eine empirische Studie unter Studierenden von Preston/Colman bezüglich der optimalen Anzahl an Skalenpunkten hat gezeigt, dass eine 5er Skala bezüglich der Nutzungseinfachheit besser bewertet wurde als 7er oder 9er Skalen. 7er oder 9er Skalen wurden aber im Vergleich zu einer 5er Skala besser bewertet, was die Möglichkeit angeht, sich adäquat auszudrücken. (Preston/Colman 2000) Man könnte also eine 7er oder 9er Skala empfehlen, muss aber berücksichtigen, dass es sich bei der Stichprobe vornehmlich um Studierende handelt. Eine Studie von Rohrmann, welcher eine Stichprobe mit weniger gebildeten Probanden zog empfiehlt jedoch eine 5er Skala.

Bei der Festlegung der Anzahl der Skalenpunkte muss also die Abstraktionsfähigkeit der Stichprobe mit berücksichtigt werden.

Gerade oder ungerade Anzahl an Skalenpunkten

Viele Personen, welche sich etwas, aber nicht intensiv mit Fragebögen beschäftigen, haben von der „Mittelfalle“ gelesen und sind daher der Meinung, dass unter keinen Umständen eine ungerade Anzahl an Skalenpunkten gewählt werden darf. Was steckt hinter der Mittelfalle?

Sieht man sich eine Skala an, so sind beispielsweise auf der linken Seite die negativen Ausprägungen und auf der rechten Seite die positiven Ausprägungen. Somit wird die Mitte der Skala als Nullpunkt oder neutraler Punkt interpretiert. Können oder wollen die Befragten sich nicht für die positive oder negative Seite entscheiden, so flüchten sie sich in die mittlere Kategorie. Lässt man also diese mittlere Kategorie weg, so müssen sich die Befragten für eine Seite entscheiden. Dies kann in der Tat sinnvoll sein, wenn man Techniken wie zum Beispiel ein Polaritätenprofil anwendet, bei dem gegensätzliche Begriffe (arm-reich, hässlich-schön) dargestellt sind und die Befragten sich eindeutig entscheiden sollen.

Nachteilig wirkt sich das Weglassen der mittleren Antwortkategorie aber aus, da man dem Befragten die Möglichkeit nimmt, sich neutral zu äußern. Was soll ein Kunde bei einer Kundenbefragung ankreuzen, wenn er teilweise zufrieden ist und teilweise unzufrieden? Zudem wird das Problem der Mittelfalle häufig überschätzt: Wenn man beispielsweise bei einer Kundenbefragung eine durchschnittliche Kundenzufriedenheit von „teilweise zufrieden“ hat (weil u.a. die Kunden die mittlere Kategorie angekreuzt haben), so ist dies eindeutig eine schlechte Bewertung und keine neutrale! Ähnliches gilt – bis auf wenige Ausnahmen – für Mitarbeiterbefragungen, Vorgesetztenbewertungen oder Seminarevaluationen. Man hat es bei einem Fragebogen für Kundenbefragungen, bei Fragebögen für Mitarbeiterbefragungen oder bei Fragebögen für Seminarevaluationen eher mit einem positiven Bias, also einer Verzerrung hin in den positiven Antwortbereich zu tun. (Siehe hierzu die soeben Ceiling-Effekte oder Floor-Effekte)

Zudem hat das Weglassen der mittleren Kategorie Auswirkungen bei der Datenanalyse: Die Abstände zwischen den Skalenpunkten sind nicht mehr gleich, d.h. der Abstand zwischen „Sehr zufrieden“ und „Zufrieden“ ist kleiner wie zwischen „Eher zufrieden“ und „Eher unzufrieden“. Weist man diesen Skalenpunkten nun numerische Werte zu muss man diesen Umstand beachten:

Zum Beispiel könnte man auf einer Schulnotenskala dem Skalenpunkt „Sehr zufrieden“ den Wert „1“ zuweisen, dem Skalenpunkt „Zufrieden“ den Wert „2“. Man kann nun argumentieren, dass der nicht aufgeführte Skalenpunkt „Teils/teils“ den Wert „3“ hätte und somit der Skalenpunkt „Eher unzufrieden“ mit „4“ gewichtet wird. Dies wäre korrekt, wenn die Hälfte der teilweise zufriedenen Kunden „Eher zufrieden“ angekreuzt hat und die andere Hälfte der teilweise zufriedenen Kunden „Eher unzufrieden“ angekreuzt hat. Dies ist aber nicht zwangsläufig der Fall:

Ein teilweise zufriedener Kunden könnte sich denken, dass das Unternehmen ihn als König perfekt zu bedienen hat. Gibt es also teilweise negative Aspekte, so kreuzt der teilweise zufriedene Kunde die Kategorie „Eher unzufrieden“ an. Ein anderer teilweise zufriedener Kunde könnte interpretieren, dass es ja immer irgendwelche Schwachpunkte gibt, die normal sind. Er sieht also das halbvolle Glas und kreuzt die Antwortkategorie „Eher zufrieden“ an. Sie sehen also, dass das Weglassen der mittleren Kategorie nicht unproblematisch ist. Auf die Möglichkeit, eine Fluchtkategorie „Keine Angabe“ oder „Weiß nicht“ anzubieten gehen wir später ein.

Hier noch der Hinweis, dass – genauso wie das Weglassen einer Kategorie – auch das Hinzufügen einer Kategorie die gleichen Probleme mit sich bringt: Wie schon angesprochen kommt es bei Kundenbefragungen, Seminarevaluationen oder auch bei Mitarbeiterbefragungen häufig zu einer Verzerrung zu der positiven Seite, einem positiven Bias. Dies hat zur Folge, dass bei der statistischen Datenanalyse die Differenzierung beispielsweise der Zufriedenheitsmittelwerte nicht mehr sehr groß ist:

Ist bei einer Vorgesetztenbewertung zum Beispiel die Gesamtzufriedenheit aller Vorgesetzten mit 1,6 bewertet worden und hat ein Vorgesetzter die Bewertung 1,9, kann dies bei einer solchen positiven Verzerrung eine schlechte Bewertung sein. Der Vorgesetzte wird aber sicher argumentieren, dass seine Vorgesetztenbewertung nur unbedeutend schlechter ist als die Bewertung aller Vorgesetzten. Um die Differenzierung zu erhöhen (und um damit Ceiling-Effekte oder Floor-Effekte zu eliminieren) fügen einige Ersteller von Fragebögen eine Kategorie vor die beste Kategorie ein, sozusagen für die Personen, die zufriedener als sehr zufrieden sind.

Die Skala lautet dann z.B. „vollkommen zufrieden, sehr zufrieden, zufrieden, eher unzufrieden, unzufrieden“ oder „perfekt, sehr gut, gut, befriedigend, ausreichend, mangelhaft“. Weist man diesen Skalenpunkten dann bei der Fragebogenauswertung numerische Werte zu, so kommt man bei der Datenanalyse zu der gleichen Problematik wie beim Weglassen einer Kategorie: Die Abstände der Skalen sind nicht unbedingt gleich groß.

Im Laufe meiner über zehnjährigen Praxis im Fragebogenerstellen habe ich trotz der Problematik der Datenanalyse Unternehmen geraten, eine Kategorie vor die beste Kategorie zu setzen: Der Grund ist, dass man durch Mitarbeiterbefragungen, Vorgesetztenbeurteilungen, Kundenfragebögen oder Seminarevaluationen Schwachstellen erkennen möchte; man möchte Handlungsempfehlungen definieren und diese sollen umgesetzt werden. Bei anschließenden Mitarbeiterbefragungen, Vorgesetztenbeurteilungen oder Kundenbefragungen soll dann überprüft werden, ob diese Handlungsempfehlungen die Zufriedenheit der Mitarbeiter oder Kunden erhöht haben.

Formuliert man dann die Handlungsempfehlung: „Herr Abteilungsleiter Müller, Ihre Bewertung im Bereich Personalgespräch ist mit einer Note von 1,9 deutlich schlechter als die Bewertung aller Vorgesetzten mit 1,6! Besuchen Sie ein Seminar ‚Wie führe ich Personalgespräche‘!“, dann wird der Vorgesetzte Müller vermutlich denken, was das denn soll, die Bewertung ist doch besser als gut und ungefähr so wie die Bewertung aller Vorgesetzten. Der Vorgesetzte wird dann nicht oder nur widerwillig der Handlungsempfehlung, welche durch die Vorgesetztenbewertung formuliert wurde, folgen und das Seminar besuchen. Dies ist der erste Schritt zum Misserfolg einer Vorgesetztenevaluation.