Dieser Blogbeitrag ist eine Replik auf einen Beitrag der Zeitschrift Spektrum: Die Denkfehler der Homöopathie. Während ich mit vielen Kritikpunkten einverstanden bin, möchte ich die forschungsmethodischen Denkfehler der Schulmedizin aufzeigen.
Wissenschaftler sind sich der meisten dieser „Denkfehler“, oder besser gesagt „Limitationen“ bewusst. Es schadet hingegen nicht, auch Volksvertretern, eifrigen Skeptikern, Eintscheidungsträgern im Gesundheitswesen und Lobbyisten mal einige Probleme aufzuzeigen.
RCT – der methodische Goldstandard
Der Goldstandard der klinischen Forschung ist die randomisiert kontrollierte Studie (Englisch: RCT, randomized clinical trial), bei der Patienten zufällig in die Interventionsgruppe oder die Kontrollgruppe (manchmal auch mehrere) zugewiesen werden und im besten Fall mehrfache Verblindung vorherrscht, das heisst Patient, Arzt und manchmal sogar Statistiker wissen nicht, wer in welcher Versuchsbedingung ist.
Damit eine Behandlung oder ein Medikament zugelassen wird, muss sie u.A. den Wirksamkeitsnachweis erbringen. Dieser wird im besten Fall durch RCTs erbracht, die einen signifikanten Unterschied in der Wirkung zwischen der Interventionsgruppe und der Kontrollgruppe aufzeigen. Die Kontrollgruppe besteht häufig aus einer Plazebo-Gruppe, die eine Scheinbehandlung bekommt.
Dieses Vorgehen birgt einige Probleme, die im Folgenden erläutert werden.
Die Probleme des Goldstandards
Man muss sich bewusst sein, dass eine RCT eine künstliche Situation ist, die in der Gesundheitsversorgung so nicht vorkommt. Im Normalfall weiss ein Arzt welche Behandlung er anwendet. Ein Patient weiss, welche Behandlung er bekommt (Der Arzt muss ihn aufklären). Ein Arzt entscheidet nicht zufällig, sondern wohlüberlegt und individuell.
Wieso bestimmt dann die Wirksamkeit in einer künstlichen Situation darüber, was in der alltäglichen Situation zugelassen und empfohlen werden sollte?
Der Grund ist, dass man in der künstlichen Situation diejenigen Effekte methodisch herausfiltern will, die nicht zur Behandlung gehören. Doch da beginnt bereits das Problem. Was gehört zur Behandlung?

Für die Pharmazie gehört nur der Wirkstoff der Pille zur Behandlung und der Rest wird zum Plazebo-Effekt und weiteren methodischen Effekten (Regression zur Mitte, Messfehler, etc.) erklärt. Die sogenannte spezifische Wirksamkeit (efficacy) ist der Unterschied im Behandlungserfolg zwischen Interventionsgruppe und Plazebogruppe. Der Behandlungserfolg seinerseits (in der Graphik 1 die Y-Achse) ist der Unterschied in einem Gesundheitsindikator (z.B. Schmerzempfinden, Depressionswerte, Todesfälle, etc.) zwischen Anfang und Ende der Behandlung. Der restliche Anteil des Behandlungserfolgs kann dank einer dritten Versuchsgruppe, die keine Behandlung bekommt (Warteliste), weiter aufgeteilt werden in den Plazebo-Anteil und den methodischen Anteil, den ich in der Graphik 1 „Heilung über Zeit“ genannt habe.
Für die Homöopathie gehört nun weit mehr als nur der Wirkstoff des Globulis zum Behandlungs-Effekt. Das verwundert nicht weiter, denn so müssen wir zugeben, dass dieser inexistent ist. Homöopathie kann in RCTs keine spezifische Wirksamkeit nachweisen. Sollte man deshalb von ihr abraten? Bringt sie keine Heilung? Ist die RCT für alle Behandlungsmethoden ein angemessenes Beurteilungsverfahren?
Kommen wir zu den Denkfehlern des aktuellen Goldstandards.
Die Idee, dass allein die spezifische Wirksamkeit als Wirksamkeitsnachweis dienen soll, scheint doch nur unter der Annahme legitim, dass sich der Allgemeine Heilungseffekt und seine Aufteilung in spezifische Wirksamkeit, Plazebo-Anteile und methodische Anteile aus der RCT auf den medizinischen Alltag übertragen lässt. Diese Annahmen werden im folgenden als Denkfehler aufgelistet.
Der Plazebo-Effekt – ein ungebetener Gast
Denkfehler 1: Der Plazeboeffekt in verblindeten RCTs ist vergleichbar mit dem Plazeboeffekt im unverblindeten medizinischen Alltag

In der Graphik 2 sehen wir die Ergebnisse einer fiktiven Studie, bei der verblindete und offene Versuchsgruppen gebildet wurden. In der verblindeten Situation gab es keinen signifikanten Unterschied zwischen Behandlung und Plazebo-Behandlung, hingegen in der offenen Situation schon. Wenn der Patient weiss, dass er ein magisches Globuli bekommt, dann kann sein Glaube daran Wirkung zeigen, ansonsten nicht. Ich hab dazu keine Studie, aber wenn der Leser mir wohlgesinnt ist, scheint dies plausibel.
In der Forschung ist es bekannt, dass die Wirksamkeit in RCTs und dem Alltag unterschiedlich sein können. Im Englischen wird hier auch unterschieden zwischen effectiveness (medizinischer Alltag) und efficacy (klinische kontrolliert). Trotzdem herrscht die Idee vor, dass Verblindung zur Qualität beiträgt und bei Entscheidungen im Gesundheitswesen mehr gewichtet werden sollten.
Das Wirksamkeitsparadoxon
Die folgende Graphik zeigt das sogenannte Wirksamkeitsparadoxon (abgewandelt nach Walach, 2001) und wird im folgenden erklärt:

In Graphik 3 zeigt sich bei Behandlung B ein signifikanter Unterschied zwischen Intervention und Plazebo-Gruppe. Sie ist also wirksam im Sinne des Wirksamkeitsnachweises. Im Gegensatz dazu zeigt die Behandlung A scheinbar keine Wirksamkeit, da sie sich zu wenig von ihrer Plazebo-Version unterscheidet. Entsprechend würde man Behandlung A nicht zulassen, aber Behandlung B schon.
Denkfehler 2: Die spezifische Wirksamkeit ist das entscheidende Kriterium für eine Behandlungsempfehlung
Wenn wir aber den gesamten allgemeinen Heilungseffekt anschauen, dann sehen wir, dass es den Patienten aus der Behandlung A viel besser geht. Also müsste doch Behandlung A empfohlen werden, obschon sie eine geringere spezifische Wirksamkeit hat.
Denkfehler 3: Der Plazeboeffekt ist bei verschiedenen Behandlungsmethoden gleich gross (anzunehmen).
Das Paradox ist dadurch entstanden, dass ich für Behandlung A einen viel grösseren Plazebo-Effekt angedacht habe, als bei der Behandlung B. Ein Gedanke, der eine der Annahmen aufzeigt, auf der die Legitimität des Plazebo-Vergleich basieren will: Dass der Plazebo-Effekt von verschiedenen Behandlungsmethoden vergleichbar gleich gross ist. Das mag für simple pharmazeutische Behandlungsmethoden tatsächlich stimmen: Ob ich ein Diuretikum gegen hohen Blutdruck nehme oder einen Beta-Blocker, wird kaum einen Unterschied im Plazebo-Effekt machen, wenn beides weisse Pillen sind. Wenn hingegen die eine Behandlung ein mehrstündiges Auswahl- und Herstellungsverfahren beinhaltet, während die andere aus einer simplen Rezeptausschreibung besteht, wird der Plazebo-Effekt unterschiedlich sein. Doch wer vergleicht schon Äpfel mit Birnen.
Denkfehler 4: Der Plazeboeffekt ist bei der gleichen Behandlungsmethode gleich gross (anzunehmen).
Aber selbst in der gleichen Behandlungsmethode gibt es Unterschiede. Bei der pharmazeutischen Behandlungsmethode wirken z.b. grosse und farbige Pillen besser als weisse Dragées. Eine Einnahme 4 mal am Tag wirkt besser als zwei mal am Tag. Teure Pillen besser als günstige. Pillen mit eingraviertem Markennahmen besser als blanke. Obschon man diese Einflüsse kennt, wird das Plazebo-Potenzial von Farbe und Form von Präparaten nicht genutzt, um den Heilungseffekt zu verbessern. Warum nicht? Liegt womöglich der Fokus zu stark auf der spezifischen Wirksamkeit (für die Medikamentenzulassung) anstatt der Gesamtwirksamkeit (für das Patientenwohl)? Einen weniger verschwörerischen Grund sehen wir im Folgenden Abschnitt:
Denkfehler 5: Der spezifische Effekt ist bei der gleichen Behandlungsmethode konstant (anzunehmen).

Es kommt noch dicker. Nicht nur der Plazebo-Effekt kann innerhalb der gleichen Behandlungsmethode unterschiedlich sein, sondern sogar die spezifische Wirksamkeit. Dies geht aus einer Studie hervor, bei der die Wirksamkeit von Schmerzmitteln der letzten Jahrzehnte verglichen wurde. Man stellte fest, dass der Plazebo-Anteil immer grösser wurde und der spezifische Effekt immer kleiner. Dies stellt die bisherige Annahme, dass spezifische und unspezifische Effekte sich additiv verhalten in Frage. Graphik 4 veranschaulicht das Problem als fiktive Studie. Die ersten zwei Balken zeigen das Ausmass der spezifischen Wirksamkeit und des Plazebo-Effekts einer Behandlung D. In einem zweiten Experiment wird versucht, den Plazebo-Effekt zu erhöhen, durch mehr Zuwendung, längere Betreuung, etc. (dritter Balken). Zu erwarten wäre, dass er sich zur spezifischen Wirksamkeit hinzuaddiert (vierter Balken). Jedoch scheint es eher, dass er mit ihr konkurriert (letzter Balken). Eine mögliche Erklärung ist, dass „Placebo und Pharmakon am Ende um die gleichen Strukturen und Funktionen im Nervensystem konkurrieren“.
Dies wäre ein weiterer Grund, warum man den Plazebo-Effekt nicht boosten will. Die Pharmaindustrie würde sich ins eigene Knie schiessen. Wenn sich die beiden Effekte nämlich nicht addieren, sondern konkurrieren, führt die Nutzbarmachung von Plazebo-Effekten zu einer Schmälerung der spezifischen Wirksamkeit, also grösseren Schwierigkeiten beim Wirksamkeitsnachweis, ergo der Medikamentenzulassung, ergo dem gewinnbringenden Verkauf.
Ein Ausweg aus dem Dilemma zwischen Maximierung des Wirksamkeitsnachweises und Maximierung des Patientenwohls, wäre eine Änderung im Zulassungsverfahren und dem Primat der spezifischen Wirksamkeit – besonders für Krankheitsfelder von denen bekannt ist, dass sie gut auf Plazebo-Effekte anspringen.
Zwischenfazit
Da alle Graphiken nur konstruierte Beispiele sind, könnte die Frage auftauchen, ob das Problem denn nicht nur denkbar ist, sondern auch praktisch wahrscheinlich ist. Zum Abschluss ein reales Beispiel für das Wirksamkeitsparadoxon.
Es ist ein reales Problem.
In den sogenannten GERAC-Studien hat man Patienten mit chronischen Rückenschmerzen behandelt. Dabei zeigte sich dass die Akupunktur (Response-Rate 47.6%) gegenüber Sham-Akupunktur (44.2%) keinen Vorteile hat.
Eine klassische RCT wäre hier zu Ende und würde das Fazit ziehen: Akupunktur zeigt keine Wirkung über den Plazebo-Effekt hinaus, also können wir sie nicht empfehlen.
Aber die Studie hatte zum Glück nicht nur eine Behandlungsmethode untersucht, sondern sie mit einer zweiten verglichen, der klassischen Behandlung bei Rückenschmerzen (Physio- & Pharmakotherapie). Diese hatte ihrerseits nur eine Response-Rate von 27.4%, war also knapp halb so effektiv. Sie ist aber zugelassen, weil sie sich gegenüber ihrer Plazebo-Gruppe signifikant unterscheidet.
Fairerweise muss man sagen, dass die Akupunktur die Zulassung in Deutschland dank dieser Studien bekommen hat.
Wie bitte? Die unwirksame Akupunktur heilt besser als die wirksame Pharmazie?
Auch wenn an den GERAC-Studien berechtigte Kritik geübt werden kann, verdeutlichen sie doch, dass das Wirksamkeitsparadoxon ein ernst zu nehmendes Problem ist. Sich lediglich auf klassische Plazebo-Studien zu stützen, kann dazu führen, dass eine schlechtere Behandlung gegenüber einer besseren empfohlen wird. Die Problematik ist schwierig zu erkennen, wenn die einen Studien nur Äpfel mit Plazebo-Äpfel und die anderen nur Birnen mit Plazebo-Birnen vergleichen, aber selten Äpfel mit Birnen!
Die dunkle Seite der Verblindung
Die Verblindung ist zweckmässig um die spezifische (physiologische) Wirksamkeit von pharmazeutischen Stoffen zu bestimmen. Aber Heilung ist kein Prozess der ausschliesslich biophysiologisch angestossen wird. Alternative Verfahren beruhen auf Mechanismen, die durch eine Verblindung entkräftet werden können und dadurch ihr Potenzial nicht mehr zum Tragen kommt.
Für die Wissenschaft ist wichtig, was physiologisch am besten wirkt. Für den Menschen ist wichtig, was ihn am besten heilt. Der Denkfehler der Schulmedizin besteht darin, anzunehmen, dass dies das gleiche ist.
