Ist die Studie valide?
Ist Niedrigenergie-Laser eine effektive Behandlung lateraler Epicondylitis? Verhindern Dehnprogramme die Entwicklung von Kontrakturen nach Schlaganfall? Verringert die Anwendung des Flutters das Risiko postoperativer respiratorischer Komplikationen? Klare Antworten auf diese Fragen können nur durch gründlich geplante und “sauber” durchgeführte klinische Studien gegeben werden. Bedauerlicherweise besteht die Literatur sowohl aus nach den Regeln der Kunst durchgeführten Studien, die valide Schlussfolgerungen aufweisen, als auch aus schlecht durchgeführten Studien mit nicht validen Schlussfolgerungen. Leser der Fachliteratur müssen in der Lage sein, zwischen beiden zu unterscheiden. Dieser Schnellkurs beschreibt Schlüsselmerkmale (oder “methodologische Filter”) von klinischen Studien, die auf Validität schließen lassen.
Manche Studien, die vorgeben, die Effektivität von Physiotherapie zu belegen, stellen einfach eine Gruppe von Probanden mit einer bestimmten gesundheitlichen Störung oder Erkrankung zusammen, und messen dann die Schwere der Störung bzw. der Erkrankung vor und nach der Behandlung. Wenn die Probanden sich im Laufe der Behandlung verbessert haben, wird die Behandlung als wirksam eingeschätzt. Studien, die diese Methode anwenden, bieten kaum befriedigende Evidenz für die Wirksamkeit der Behandlungen; denn es ist selten sicher, dass die beobachteten Verbesserungen auf die Behandlung zurückzuführen sind, und nicht etwa auf unbeobachtete oder “Störvariablen”, wie z.B. den natürlichen Heilungsverlauf, “Regression zur Mitte” (der Ausdruck bezeichnet das statistische Phänomen, dass extreme Werte bei einer Messung in der Folgemessung zu einer weniger extremen Ausprägung neigen; mithin Verbesserungen gerade bei “schlechten” Patienten oftmals auf natürliche Schwankungen einer gesundheitlichen Störung zurückzuführen sind), ferner Placebo – oder “Hawthorne” Effekte (hierbei verbessern sich die Ergebnisse, weil die Probanden wissen, dass sie an einer Studie teilnehmen). Die einzige befriedigende Methode, mit solchen Bedrohungen der Validität einer Studie umzugehen, besteht darin, mit einer Kontrollgruppe zu arbeiten. Dann werden die Ergebnisse der Probanden, die die Behandlung bekommen haben, mit denen der Probanden, die die zu evaluierende Behandlung nicht bekommen haben, verglichen.
Die Logik kontrollierter Studien besteht darin, dass sich nicht erfasste bzw nicht erwünschte Variablen (also nicht erfasste oder erwünschte Einflüsse auf die Ergebnisse) auf Behandlungsgruppe und Kontrollgruppe ungefähr gleich auswirken, so dass Unterschiede zwischen den Gruppen, die am Ende der Studie festzustellen sind, auf die Behandlung zurückzuführen sind. Beispielsweise ist weithin bekannt, dass in den meisten Fällen akute lumbale Beschwerden schnell und spontan auch dann weg gehen, wenn keinerlei Behandlung stattfindet. Dies zeigt auf sehr einleuchtende Weise, warum es kein Beleg für die Wirksamkeit von Behandlungen ist, wenn die Symptomatik beiPprobanden mit akuten Lumbalbeschwerden im Verlauf der Behandlung nachlässt. Eine kontrollierte Studie, die zeigen würde, dass die behandelten Probanden (in der Experimentalgruppe) bessere Ergebnisse erzielen als die Unbehandelten in der Kontrollgruppe, würde stärkere Evidenz dafür erbringen, dass die Unterschiede in der Verbesserung auf die Behandlung zurückzuführen sind. Zwar würde man in beiden Gruppen Besserung erwarten, aber die Beobachtung, dass die behandelten Personen bessere Ergebnisse aufweisen, legt nahe, dass hier etwas geschehen ist, was über den spontanen Heilungsprozess hinaus ging. Zu beachten ist, dass die Probanden in der Kontrollgruppe nicht unbedingt gar keine Behandlung bekommen müssen. In kontrollierten Studien wird oft eine Kontrollgruppe, die eine herkömmliche (Routine-) Therapie erhält, verglichen mit einer Experimentalgruppe, die die konventionelle Therapie und zusätzlich eine weitere Behandlung erhält. Andere Studien vergleichen die Ergebnisse einer Kontrollgruppe, die die herkömmliche Behandlung erhält, mit den Ergebnissen einer Experimentalgruppe, die eine neue Therapie erhält.
Es ist wichtig zu wissen, dass Kontrollgruppen vor dem verfälschenden Effekt von nicht erfassten Einflüssen (nicht erfassten Variablen) nur insoweit Schutz bieten, wie die Kontroll- und die Experimentalgruppe einander gleichen. Nur wenn die Experimental- und die Kontrollgruppe in Bezug auf jeden die Ergebnisse (mit-)bestimmenden Faktor gleich sind (außer in bezug auf die zu evaluierende Behandlung, die natürlich nur die Experimentalgruppe bekommt), kann der Forscher sicher sein, dass Unterschiede in den Ergebnissen zwischen den Gruppen zum Ende der Studie ihre Ursache in der Behandlung haben. Man spricht in diesem Zusammenhang von der “Vergleichbarkeit der Gruppen”. In der Praxis wird diese Vergleichbarkeit der Gruppen erreicht, indem die zur Verfügung stehenden Probanden nach dem Zufallsprinzip entweder der Kontroll- oder der Experimentalgruppe zugeordnet werden. Diesen Vorgang nennt man Randomisierung oder randomisierte Zuordnung. Diese Methode stellt sicher, dass nicht erfasste Faktoren (Variablen, Einflüsse) wie z.B. das Ausmaß der spontanen Erholung auf die Experimental- und auf die Kontrollgruppe in etwa den gleichen Effekt haben. Wenn eine randomisierte Zuordnung der Probanden auf Kontroll- und Experimentalgruppe stattgefunden hat, können Unterschiede zwischen den Gruppen tatsächlich entweder nur auf den Zufall oder auf die Behandlung zurückgeführt werden. Und es ist möglich, den Zufall als Verursacher der Unterschiede mit hinreichender Sicherheit auszuschließen, wenn die Unterschiede zwischen den Gruppen groß genug sind. Hierfür verwendet man statistische Tests. Beachten sie, dass dies praktisch die einzige Möglichkeit ist, um die Vergleichbarkeit zwischen den Gruppen herzustellen. Es gibt keine wirklich befriedigende Alternative zur randomisierten Zuordnung.
Sogar wenn die Probanden randomisiert zugeteilt wurden, ist es erforderlich sicher zu stellen, dass die Wirksamkeit (oder die Unwirksamkeit) einer Behandlung nicht durch den Beobachter verzerrt wird (man spricht dann von einem Beobachter-Bias; bias = verzerrung). Gemeint ist die Möglichkeit, dass des Forschers Glauben in die Wirksamkeit der Behandlung unbewusst seine Messung der Behandlungsergebnisse beeinflusst. Der beste Schutz hiervor ist die Blindung der Untersucher – also dafür zu sorgen, dass die Person, die die Behandlungsergebnisse misst, nicht weiß, ob der Proband in der Kontroll- oder der Experimentalgruppe war. Es ist allgemein wünschenswert, dass auch die Probanden (die Patienten) und die Therapeuten geblindet sind. Wenn die Patienten geblindet waren, kann man sagen, dass die offensichtliche Wirkung der Therapie kein Placebo- oder Hawthorneeffekt war. Blindung von Therapeuten oder Patienten ist oft schwierig oder unmöglich, aber bei Studien, in denen die Therapeuten geblindet waren (z.B. in Studien mit Niedrig-Energie-Lasern als Therapeutikum, bei denen die Geräte entweder Laser oder nur farbiges Licht emittierten, der Therapeut aber nicht wusste, welches Gerät er gerade benutzte), kann man davon ausgehen, dass die Wirkungen nicht durch die Begeisterung des Therapeuten für die Therapie, sondern durch die Therapie selbst bewirkt wurden.
Es ist auch wichtig, dass nur wenige Probanden aus der Studie ausscheiden (dass also der “drop-out” gering bleibt). Eine zu hohe Quote von “Aussteigern” kann die Studienergebnisse entscheidend verzerren. Ein tatsächlicher Behandlungseffekt kann verborgen bleiben, wenn Probanden der Kontrollgruppe, deren zustand sich während der Studie verschlechtert, aus der Studie ausscheiden, um eine (andere) Behandlung in Anspruch zu nehmen. Hierdurch werden die Ergebnisse der Eontrollgruppe im Durchschnitt besser, als sie es geworden wären, wenn alle Probanden in der Kontrollgruppe geblieben wären. Umgekehrt würde die zu evaluierende Behandlung, also die Experimentalgruppe, bessere Ergebnisse erzielen als der Realität entspräche, wenn sich unter der Behandlung der Zustand von Probanden verschlechterte und infolgedessen diese Probanden aus der Studie ausschieden. Aus diesen Gründen verursachen “drop-outs” immer Unsicherheit bezüglich der Validität einer klinischen Studie. Natürlich wird diese Unsicherheit größer, je mehr Probanden aussteigen. Eine Faustregel lautet, dass eine Studie ernsthafte Mängel haben kann, wenn mehr als 15% der Probanden die Studie vorzeitig verlassen. Einige Veröffentlichungen geben die Aussteigerquote einfach nicht an. Im Einklang mit dem bewährten wissenschaftlichen Prinzips des “schuldig, bis die Unschuld bewiesen ist”, sollten diese Studien als potenziell nicht valide angesehen werden.
Zusammengefasst kann man sagen, dass valide klinische Studien:
- Probanden randomisiert den Kontroll- und Behandlungsgruppen zuordnen
- geblindete Untersucher, und idealerweise auch geblindete Probanden und Therapeuten sowie
- nur wenige Studienabbrecher haben.
Wenn Sie das nächste mal eine Veröffentlichung über eine klinische Studie zu einer physiotherapeutischen Behandlung lesen, fragen sie sich, ob die Studie diesen Kriterien gerecht wird. Als allgemeine Regel gilt, dass Studien, die diese Kriterien nicht erfüllen, nicht valide sein könnten und deshalb nicht als starke Evidenz für die Wirksamkeit (oder Unwirksamkeit) einer Behandlung angesehen werden können. Diejenigen Studien, die diese Kriterien aber erfüllen, sollte man sorgfältig lesen und ihre Ergebnisse in Erinnerung behalten.
Wenn sie vertiefende Literatur zur Beurteilung der Validität von Studien lesen möchten, hier eine Empfehlung:
Guyatt GH, Sackett DL, Cook DJ (1993). User’s guide to the medical literature: II. How to use an article about therapy or prevention: A. Are the results of this study valid? JAMA 270:2598-2601.



