健康

ランダム化比較試験(Randomized Trial)

この記事をご覧いただき、ありがとうございます。この記事は病気の原因を調べるための研究分野である「疫学研究」の基礎を知ることを目的に書きました。疫学研究の基礎を知ることで目指すゴールは、疫学論文を読んで理解するための最低限の知識を得ることです。疫学という言葉をはじめて言葉を聞くような方に向けて書いているので、専門家やご自身の研究で必要な情報を探しているという方にとっては物足りないかもしれませんが、ご了承ください。

この記事を書いている私のプロフィールはこちらにのっています。記事の信頼性などの参考にしてください。

この記事では、臨床研究の中のゴールドスタンダードとなっている研究デザインであるランダム化比較試験(Randomized Trial)について紹介をします。

ランダム化比較試験の概要

ランダム化比較試験というのは、臨床研究の参加者を無作為に介入群とコントロール群に割付けて効果を比較する研究です。

介入群とコントロール群と書きましたが、介入にもコントロールにも様々なパターンがあります。例えば介入の例としては、開発中の医薬品、食品、治療方法などですがここではまとめて介入群と表現しました。試験群みたいな言い方をすることもあります。

これだけ聞くとめちゃくちゃ普通じゃん!と思うかもしれませんが、臨床研究は様々な制約の中で行われます。さらに、研究参加者には人権があります。研究のためとはいえできること、できないことが当然あります。

ですので、ランダム化比較試験というのは実際に実施するのはとても大変です。それでは、次にランダム化比較試験のポイントを説明していきたいと思います。

コントロール群があることの重要性

ランダム化比較試験の重要ポイントの1つめはコントロール群があるということです。

科学の基本は定量と比較ですので、臨床研究でも比較する対照が当然必要です。ですから、比較対照となるコントロール群が必要というのはとても当たり前のことだと思います。

ところが、実際には私たちはすごく当たり前のようにこのコントロール群がない試験を信用してしまいます。たとえば下記の文章を読んでみてください、

【方法】
トマトに含まれるリコピンは、血中のコレステロールを下げる効果が期待されます。そこで、コレステロールが高めの男性90人を集め、1日に1個、トマトを2週間食べてもらいました。

【結果】
60人の参加者ではコレステロールが下がり、30人の参加者では変化がありませんでした。

【結論】
結果を見て3分の2の人がコレステロールが下がったため、トマトに含まれるリコピンにはコレステロールを下げる効果があることが分かりました。

上の文章を見ると、3分の2の人がトマトを食べてコレステロールが下がっています。研究の規模も割と大きいので信頼できるデータのようにも感じます。

でもこの研究ではコントロール群がありません。コントロール群がないということは、この変化というのが、季節の影響や、研究に参加したことで起こった意識の変化、トマトを食べるためのサラダやスープに含まれる他の食材の影響など、様々な要因が考えられます。

コントロール群は、望ましくは、介入(トマトを食べるということ)以外は全く同じ生活をしているような集団にして比較しなければ、上の例で見られたコレステロールの低下がトマトによるものとは言い切れないのです。

このように介入の前と後の比較を行うことをヒストリカルコントロールと呼びます。プレテストとして、臨床試験を行う人数を確認したい場合やコントロールを置くまでもなく、効果が明らかな場合などではヒストリカルコントロールは、有効に働きますが、多くの場合には、先ほど述べたように、季節の変化、ライフスタイルの変化など、他の要因を排除できないため、有効性の評価には向いていません。

ですが、実際にはコントロール群を設定するということが、難しいことも多いです。先ほど記載したトマトの試験で考えられる例としては、トマトをサラダに入れた介入群を設定して、トマトが入っていないサラダをコントロール群にするなどがあります。ただ、この場合でも盲検化できないという別の問題は残ってしまいます。

ランダム化の重要性

ランダム化比較試験の超重要ポイントの2番目はランダム化です。ランダム化がランダム化比較試験の肝と言えるでしょう。

ランダム化というのは、研究の参加者を設定した介入群とコントロール群にランダム(無作為)に割付けることを言います。無作為というのがとても大事なポイントです。

例えば、今度は下記のような試験を考えてみましょう、

【方法】
インフルエンザの予防効果が期待されるヨーグルトAを田舎小学校の生徒30人に、ふつうのヨーグルトBを都会小学校の生徒30人に1ヵ月間食べてもらいました。

【結果】
ヨーグルトAを食べた生徒でインフルエンザにかかった生徒は2人でしたが、ヨーグルトBでは15人でした。

【結論】
この試験から、ヨーグルトAの予防効果を確認することができました。

どうでしょうか?この試験結果をみると、先ほどと違ってふつうのヨーグルトを食べたというコントロール群があります。つまり、介入群とコントロール群にわけて解析できます。

でも、おそらく多くの方が感じたと思いますが、この試験では、食べたヨーグルトの違いなのか、都会と田舎という地域の違いなのかが分からないです。これがランダム化していない試験の例です。つまりランダム化をしないと、介入の効果ではなく、二つの集団の特徴を比較している可能性があるのです。

田舎小学校と都会小学校の両方でヨーグルトAを食べる人、ヨーグルトBを食べる人が半分ずつになるように無作為に割付けることができれば、地域の違いの影響を取り除くことができますね。

このように、ランダム化が適切におこなわれると、試験に影響する参加者の特徴が介入群とコントロール群で均一になります。ここで非常に重要な点としては、ランダム化をすることの強みは、年齢、性別などのように測定できるような因子を均等に割付けることができるだけでなく、その試験では考慮していなかったような因子(例えば親の学歴や食生活の違いなど)までも、理論上ではすべて均一にすることができるという点です。

これは他の研究デザインでは実施できない、ランダム化比較試験の最大の強みであり、ゴールドスタンダードと言われる理由になります。

もちろん、そうは言ってもバラつき自体は残ってしまいますが、バラつきは参加者が多くなるほど小さくなっていくのに加え、基本的には、一番重要な結果(メインアウトカム)のバラつきは前もって推定して、試験参加者数を決めるので、バラつきは残っていても致し方ないものとして対応することができます。

ブラインド化の重要性

次にブラインド化(盲検化)について説明をしたいと思います。ブラインド化というのは、ランダム化比較試験で行われた割付を試験参加者や試験実施者が分からないように隠す操作を言います。ランダム化比較試験においてランダム化が非常に重要であることは書いた通りですが、ランダム化を行った後、問題となるバイアスとしてまず考えられるのがこのブラインド化になります。

介入群のほうが効果があると期待されている試験を行っていて、コントロール群で参加している人に割付がバレバレだった場合には、やっぱりモチベーションが下がってしまいます。例えば下記のTwitterで紹介されている記事などがそのよい例です。

上の記事はJ&JのCOVID-19のワクチンの臨床試験に参加している人について紹介がされていますが、抗体検査をして自分がプラセボ(偽薬)群に割付けられていることを知ったようです。そしてファイザー、モデルナ、アストラゼネカとワクチン開発が順調に進んでいるニュースを聞き、臨床研究を離脱して他社のワクチンを受けたいと話しています。

もちろんこのように良好なワクチンが有りながら、プラセボを投与するということ自体に倫理的問題があるのですが、それとは別に、この臨床試験では参加した人にプラセボ群であることがバレていることが辞退に繋がる可能性があるというのが試験の中で大きな問題です。

他には、コントロール群に割付けれた人たちが、介入群に比べて治療効果が期待できないために、普段の生活を大幅に変えてしまったりすることが考えられます。食品の試験では、サプリメントなどは別ですが、基本的には味や見た目で介入群とコントロール群のどちらに割付けられているのか分かってしまうので、このようなことが良くあります。

このように自分がどちらに割り付けられているかを隠すために行うのがブラインド化で、プラセボは代表的な方法になります。ですが、どうしてもプラセボを設定できない試験も沢山あります。

これらは参加者に割付がバレてしまっているパターンですが、一方で研究者側に対してもブラインドを行うことが本来は望ましいです。例えば医師側が割付を知っていると、問診の際に誘導尋問を行ってしまう可能性がありますし、統計解析担当者や検体の分岐担当者が知っていると、仮説通りの結果にならないと再解析をしたりします。

このように解析担当者や研究者にブラインドをかけるためには、試験とは独立して研究のコーディネイトを行う人が必要になります。大きい研究機関では常識になりつつありますが、初めてランダム化比較試験を行う方は手弁当の試験を行うことも多いと思いますので、なかなかここまでの試験体制を作って研究するのは難しいというのが現実ではないかと思います。

試験デザインを書くときには、参加者だけしかブラインドをかけない場合にはシングルブラインド(単盲検)、参加者も試験実施者にもブラインドをかける場合をダブルブラインド(二重盲検)などと呼びます

解析の作法、ITT、PPS、FASとはなにか?

次に解析のお作法として有名なITTなどについて話をしていきたいと思いますが、その前に、臨床試験で起こるトラブルの中で、大きい分類違い(誤分類)について話をしたいと思います。

例えば臨床試験で新薬と従来薬の比較を行ったとします。新薬のグループに割り付けられたら新薬を、従来薬に割り付けられたら従来薬を飲まなければいけませんが、新薬のグループだった人が、試験開始後、なんか効果が悪そうだな―と思って従来薬を途中から飲み始めたとします。

こういったコンプライアンス違反が無いように、事前にちゃんと研究のプロトコルの説明などは行いますが、参加者によってはこういったコンプライアンス違反をしてしまうことは少なくないです。では、こういう場合にはその人はどちらのグループで解析をするの?というのがITTとPPSです。

ITTとはintention to treatのことで、割付重視の原則などと言われます。一方でPPSとはper protocol setのことで、プロトコル重視の解析となります。他にもFAS(full analysis set)というのもあり、これは、試験薬を飲んでいない、データの欠損があるなどのコンプライアンス違反者のみを除外して解析するパターンです。

ITT、PPS、FASにはそれぞれ問題がありますが、基本的にはITTが解析の原則にはなります。詳しく一つ一つの解析を解説したいと思います。

ITT(Intention To Treat)

ITTが行われるのは、試験群とコントロール群が入れ替わることがあり得る試験の場合です。先ほど説明したように割付けられた治療群とは異なる治療薬を摂取するなどの場合です。

ですが、ランダム化比較試験で行われる介入には入れ替わることができないものもあります、例えば看護師が薬を注射などで投与する場合には基本的に参加者の意思によってグループが入れ替わってしまうことはあり得ません。

でも、万が一このようなコンプライアンス違反が起こったときには、本来は試験群だったはずの人が実質はコントロール群になっているなどの誤分類となってしまいます。誤分類というのは非常に厄介な問題で、必ず差なしの方向に結果がゆがめられます

ではなぜ結果がゆがめられるのにITTが重要なのか。それは大きく3つの理由があります、

1. 誤分類によってランダム化比較試験の最も大きな強みであるランダム割付を維持するため
2. 疫学研究ではバイアスがかかった場合には過大評価となるよりは、過小評価となるほうがよいとされているため
3. 参加者が自ら介入を拒んだということ自体が、その介入の効果と考えられるため

という感じです。最も重要なことは1のランダム割り付けの維持だと思います。2については、過大評価よりも過小評価となるデザインを選ぶのが疫学研究の基本です。なぜなら、新薬の開発、新しいバイオマーカーの検討など新しい仮説を証明するときには、より慎重に吟味する必要があるからです

また、3の考え方としては、医療行為は患者の利益に貢献しなければいけません。そこで参加者のコンプライアンス違反が大量に発生してしまう介入というのはいくら効果が高くても、リアルワールドでは受け入れられないという結論になってしまうので、試験の段階からそこまで考慮した解析がされるということです。

FAS(Full Analysis Set)

FASについては、教科書に載っていないこともありますが、一応説明をしておきます。FASが記載していない教科書ではITTの中にFASも含まれているのかもしれませんが、FASは割付は従来割付けたランダム割付けのまま解析しますが、重大なプロトコル違反を行った参加者やデータ欠損があった場合は解析から除外する場合を言います

例えば試験薬を飲まなかったなど介入を受けていない場合や、割付けた後のデータが欠損しているなどです。試験薬を飲まなかった場合というのも、よくあるのは、計画書に試験薬の飲み忘れが20%以上とか30%以上の場合には解析から除外するなどと言ったことを書いたりします。

病院に来なかったためにデータがない場合には流石に解析の使用がありませんので、こういう場合にはFASで解析するのは致し方ないと思います。

PPS(Per Protocol Set)

では次にPPSについて詳しく説明します。繰り返しになりますが、PPSは割付とは違う介入を行った場合に、実際に行われた介入方法に従って解析することを言います。ですが、ランダム化比較試験の原則であるランダム化を崩してまで介入した結果にこだわるというのは基本的には行われません。

さきほども記載しましたがITTで起こりうる誤分類というのは、基本的に差がない方向に結果がゆがめられます。過小評価という言い方もできます。過大評価よりも過小評価となるデザインを選ぶのが疫学研究の基本です。なぜなら、新薬の開発、新しいバイオマーカーの検討など新しい仮説を証明するときには、より慎重に吟味する必要があるからです。

では、PPSが特に有用となるのはどのような場合でしょうか、それは安全性試験などのように過小評価よりも過大評価のほうが望ましい場合などがそれに当たります。安全性試験の場合には、問題を見つけることが最優先のはずですので、分かりやすいですね。

クロスオーバーデザインの強みと仮定

最後に、ランダム化比較試験の方法として、様々なデザインがありますが、代表的なものとして、並行群間比較試験とクロスオーバーデザインを紹介します。

並行群間比較試験というのは、介入群とコントロール群に割付けて、その後、解析を行う方法です。一般的な研究デザインです。一方で、クロスオーバーデザインというのは、ウォッシュアウト期間を挟んで介入とコントロールの両方を受けるという方法です

例えば食後の血糖値の変化をみたいという試験を行うときに、1日は白米(コントロール)、もう1日は試験食を食べてもらうという試験になります。

並行群間比較試験で介入群とコントロール群に分けた場合に気になるのは、介入群で効果があった場合に、じゃあ、コントロール群に割付けられてた人が介入を受けたら、効果があるの?ということです。ランダムで割付けられていれば、バイアスはないはずですが、やっぱり介入群とコントロール群では違う人ですので、気になってしまいます。

クロスオーバーデザインの強みは、完全に同じ人で臨床試験をできるという点です。また、統計解析を行う上でも、個体差を取り除いた「対応のある検定」を行うことができます。基本的に対応のある検定ができる場合には、検出力が高まるため、試験実施に必要な参加者数も減らすことができます。こういった強みがクロスオーバーデザインにはあり、実施できる場合には有用なデザインです。

しかし、その一方でクロスオーバーデザインを行うためには、いくつか仮定が必要となります。

1. ウォッシュアウト期間をはさむことによって介入の効果が完全に消えること
2. 試験を行う時期によって効果が変わらないこと
3. 試験を行う順番によって効果が変わらないこと

などです。時期効果や順序効果は介入の順番をランダムに入れ替えますので一応バイアスとはならないのですが、時期効果、順序効果に埋もれてしまって、実際の効果が見えなくなってしまうと試験としては失敗になってしまいます。

また、ウォッシュアウト期間によって元に戻るかどうか(ウォッシュアウトできるかどうか)というのは実質、クロスオーバーでできるかどうかの一番の肝となります。例えば、介入によって完治した場合には、その後コントロールを行っても、何を評価しているのか分かりませんよね。ですので、クロスオーバーができる試験というのは、例えば頭痛薬や睡眠導入剤などのように効果が短時間のものに限るという訳です。

参考資料

Leon Gordis著、木原正博・木原雅子・加治正行訳、疫学 医学的研究と実践のサイエンス LINK

食品会社勤務の企業研究員。公衆衛生の講座に在籍する、社会人博士課程の大学院生でもあります。食の機能性研究、腸内細菌の研究に軸を置いています。興味関心は公衆衛生、疫学。統計の専門家に憧れます。興味のある研究について、Twitterやブログで発信しています。