ブログ

  1. TOP
  2. ブログ
  3. IRT(項目反応理論)とは?導入のメリットや注意点について解説

IRT(項目反応理論)とは?導入のメリットや注意点について解説

2026年02月19日
  • 試験開発支援サービス

従来の古典的テスト理論では実現できなかった、公平な測定を可能にするIRT(項目反応理論)が、資格試験やCBTの分野で普及が進んでいます。異なる問題セットを使用しても受験者の能力を同一尺度で比較できるようになるのが、IRTの特徴です。

この記事では、IRTと古典的テスト理論との違いやIRTのメリット、導入する際の注意点のほか、IRTが活用されている試験の事例について解説します。

IRT(項目反応理論)とは、問題(項目)への反応から受験者の能力を推定する理論

IRT(Item Response Theory、項目反応理論)とは、問題(項目)への反応から受験者の能力を推定する理論です。各問題には「難易度」「識別力」といったパラメータを付与し、受験者の正答パターンから能力値を統計的に推定することができます。

IRTは、問題の質と受験者の能力を切り離して測定でき、異なる問題のセットを使用しても能力値を比較できるのが特徴です。さらに、統計的な根拠にもとづいた客観的な評価が可能になり、測定誤差を定量化できます。これにより、合否判定の信頼性を数値で示すことができ、試験の透明性が高まります。

項目反応理論について詳しくは以下の記事をご覧ください。

第2回:CBTの特徴と良質な試験問題の作成について(全3回)|ブログ|CBT/IBT 世界水準の試験運営|プロメトリック

IRTが生まれた背景

IRTが生まれた背景には、従来の古典的テスト理論ではテストの難易度が変わると受験者の得点も変動し、公平な比較が困難だったことがあります。例えば、ある年度の試験が難しければ全体の平均点が下がり、翌年度が簡単であれば平均点が上がるという問題がありました。このような状況では、異なる時期の受験者の能力を正確に比較することが難しくなります。

1950年代以降になると、心理測定学の発展とともに、問題特性と能力を分離する必要性が認識されるようになります。また、コンピューターの発達により複雑な数理計算が可能になったことで、1980年代からIRTの実用化が進みました。現在では、IRTは国際的な資格試験や大規模テストのスタンダードとして確立しています。

古典的テスト理論との違い

では、IRTと古典的テスト理論とではどのような点が異なるのでしょうか。違いは主に下記の3点になります。

測定の考え方

IRTと古典的テスト理論とでは、能力を測定する考え方が根本的に異なります。

古典的テスト理論は「正答数÷総問題数」で得点を算出する単純な方法であり、問題の質は考慮されません。すべての問題が同じ重みを持つものとして扱われるため、難しい問題に正解しても簡単な問題に正解しても、得点への影響は同じです。

一方、IRTでは各問題の特性(難易度・識別力)を数値化し、どの問題に正答したかで能力値を推定します。同じ正答数でも、難しい問題に正解した受験者の方が能力値は高いとされます。例えば、2人の受験者の一方が難しい問題を多く正解し、もう一方は簡単な問題を多く正解していた場合、前者の方が能力値は高いということです。

さらに、IRTでは測定の標準誤差が能力レベルごとに異なることを考慮し、より精密な評価が可能になります。

問題の評価方法

問題の評価方法においても、IRTと古典的テスト理論には違いがあります。

古典的テスト理論では、問題の良し悪しを「正答率」や「得点との相関」で判断するため、正答率が高すぎる問題はやさしすぎる、正答率が低すぎる問題は難しすぎると評価されます。また、総得点との相関が低い問題は、受験者の能力を適切に測定できていないと判断されるのです。

IRTでは、ICC(Item Characteristic Curve、問題反応曲線)を用いて、各能力レベルでの正答率を可視化します。問題の識別力が低い場合などを統計的に検出できるため、質の低い問題を特定しやすくなるのが特徴です。識別力が低い問題は、試験全体の測定精度を下げる要因となるため、改善または除外の対象となります。

IRTを活用することで、アイテムバンク(問題バンク)の品質管理を科学的に行うことができ、長期的な試験品質の維持が可能になります。

テスト設計

テスト設計においても、IRTと古典的テスト理論のアプローチは異なります。

古典的テスト理論では全員が同じ問題を解く必要があり、難易度調整が困難です。試験の公平性を担保するためには、すべての受験者に同一の問題セットを出題しなければなりません。しかし、この方法では問題の漏洩リスクが高まったり、再試験の際にも新たな問題セットを一から作成したりする必要があります。

一方、IRTでは異なる問題セットでも能力値を共通尺度で測定できるため、複数フォームの作成が容易になります。さらに、受験者の能力に応じて出題する問題を変えるCAT(Computerized Adaptive Testing、適応型テスト)も実現可能です。CATでは、受験者の回答状況に応じてリアルタイムで次の問題が選択されるため、効率的な測定が実現します。

再試験時に異なる問題を出題しても公平性が保たれることは、試験運営において大きなメリットといえるでしょう。

IRTのメリット

IRTのメリットとして、公平で精密な測定ができるようになったり、アイテムバンクの品質管理が科学的に行えるようになったりするほか、CATの実現が可能になることが挙げられます。それぞれについて詳しく解説します。

公平で精密な測定

IRTを導入するメリットの1つは、公平で精密な測定が可能になることです。

受験者が異なる問題セットを解いても、能力値を同一尺度で比較できるため、試験日や試験会場が異なる場合でも、受験者間の公平な比較が可能です。

また、問題の難易度を考慮した評価により、単純な正答数では見えない真の能力が測定されます。難しい問題に正解した受験者には高い能力値が付与され、簡単な問題にしか正解できなかった受験者には低い能力値が付与されます。さらに、測定誤差を統計的に算出できるため、合否判定の信頼性が数値で示せる点もメリットといえるでしょう。

アイテムバンクの品質管理

IRTを導入することで、アイテムバンク(問題バンク)の品質管理が科学的に行えるようになります。

各問題の特性が数値化されるため、高品質な問題と改善が必要な問題を一目で把握でき、問題作成者へのフィードバックとしても活用が可能です。また、新規問題を追加する際、既存問題との難易度調整も可能になります。アイテムバンクに蓄積されたデータをもとに、新規問題の難易度を事前に推定し、既存問題とのバランスを考慮して出題できるようになるのです。

さらに、長期間の使用により蓄積されたデータから、問題の劣化や不備を早期発見できます。IRTの導入によって問題の機密保持と試験品質の両立が実現し、不正行為への対策も強化されます。

CATの実現

IRTのメリットとして、CATの実現が可能になることも挙げられます。

受験者の回答パターンに応じてリアルタイムで出題問題を最適化でき、受験者の能力レベルに最も適した問題が選択されるようになることで、全員が同じ問題数を解く必要がなくなり、効率的な測定が可能になります。能力の高い受験者も低い受験者も、それぞれの能力レベルに合った問題を解くことで、より少ない問題数で同等の測定精度を達成できるのです。

このように、受験時間の短縮と測定精度の向上が同時に達成されることは、試験運営者にとって大きなメリットです。受験者も自分のレベルに合った問題に集中でき、ストレスが軽減されるでしょう。

IRTを導入する際の注意点

IRTには多くのメリットがありますが、導入にあたっては注意しておきたい点がいくつかあります。注意点は以下のとおりです。

導入コスト

IRTを導入する際には、相応のコストと時間が必要になります。

IRTの実装には統計学や心理測定学の専門知識が必要であり、外部専門家の協力が不可欠です。社内にIRTの専門家がいない場合は、コンサルタントや研究機関と連携しなければなりません。専門家の知見なしにIRTを導入すると、誤った運用や解釈につながるリスクがあります。また、問題パラメータの推定には数百人規模のデータが必要になるため、初期段階での投資が大きくなります。

一方で、長期的には試験運営の効率化と品質向上により、投資対効果は十分に見込めるといえるでしょう。問題の再利用が容易になり、試験運営の省力化が進むことで、中長期的なコスト削減につながります。

問題数と受験者数の確保

IRTの精度を確保するためには、十分な問題数と受験者数が必要です。

正確なパラメータ推定には、1問あたり300~500人を目安とした受験データ※1が必要になり、この人数を下回ると、測定精度に影響を及ぼす可能性があります。小規模な試験や受験者数が少ない場合、IRTの精度が十分に発揮できなくなるかもしれません。

段階的導入として、まず一部の科目や問題でIRTを試行する方法が有効です。すべての試験に一度にIRTを導入するのではなく、受験者数の多い科目から順次導入していくアプローチが現実的だといえるでしょう。

そのため、継続的なデータ蓄積により、徐々に測定精度を向上させる長期計画が重要になります。


※1必要な受験者数は、採用するIRTモデルや問題数によって異なります。

既存システムとの整合性

IRTを導入する際には、従来の古典的テスト理論で運用していた評価基準との整合性を保つ必要があります。過去の合格者の能力水準とIRT導入後の合格基準が乖離しないようにしなければなりません。

過去の合格者との公平性を担保するため、移行期の基準設定には慎重な検討が求められます。移行期間中は、従来の基準とIRT基準の両方を併用するなどの対応が必要になることもあります。

そのため、IRT導入にあたっては、受験者や関係者への十分な説明と理解促進がカギとなります。また、段階的な移行プランを立て、検証期間を設けることでリスクを最小化するようなアプローチが望ましいでしょう。

IRTが活用されている試験

IRTは国内外のさまざまな試験で活用されています。TOEFLなどの国際的な試験では、早くからIRTが採用されてきました。日本でも基本情報技術者試験などでIRTが導入されています。

年度や会場が異なっても公平な評価が保証されることで、試験の社会的信頼性は向上するといえるでしょう。受験者は、いつどこで受験しても同じ基準で評価されるという安心感を持って試験に臨むことができるようになります。

IRTを導入したCBTで公平な試験の実施を

IRTは問題特性と受験者能力を分離して測定する理論であり、従来の古典的テスト理論と比べると多くのメリットがあります。導入には専門知識とコストが必要ですが、長期的には試験品質の向上と運営効率化につながります。専門知識を持つ会社に依頼することで、スムーズな導入と運用が期待できるでしょう。IRTを活用したCBT試験の導入については、試験開発の専門家チームを有するプロメトリックにご相談ください。

試験開発支援サービスについてのご質問、運用のご相談、料金についてなど
ご不明な点がございましたら、まずはお気軽にお問い合わせください。

LANGUAGE