言語テストの妥当性、信頼性、真正性、相互性、影響、実用性について

言語テストの有用性について

言語教育に携わっていると、何らかの言語テストを作成する必要が出てくることが多いと思います。

ただ、テストを作成したとしてもそれが有用かどうか、判断に迷うことも多いです。

 

Bachman and Palmer (1996)は以下の本でテストの有用性(test usefulness)を判断するための基準を提示しています。

  • Bachman, Lyle F., and Adrian S. Palmer. Language testing in practice: Designing and developing useful language tests. Vol. 1. Oxford University Press, 1996.

↑有名な本で、言語テストの論文ではよく引用されています。

実践 言語テスト作成法」という題で和訳も出ています。

 

テストの有用性モデル

Bachman and Palmer (1996)はテストが役に立つかどうかを考えるために、以下の6つの特性(qualities)を挙げています。

  • 信頼性(reliability)
  • 構成概念妥当性(construct validity)
  • 真正性(authenticity)
  • 相互性(interactiveness)
  • 影響(impact)
  • 実用性(practicality)

 

この6つについて簡単に説明します。

 

信頼性(reliability)

信頼性とは、テスト結果が一貫しているかということです。

例えば、評価者によって点数が大きく変わるものなどは信頼性が低いと考えられます。

信頼性のあるテストというのは、誰が採点したとしても、受験者がいつどこで受験したとしても、同じような結果がでるものです。

100%信頼性のあるテストというのはないですが、テスト作成者は一貫性が保てるよう工夫する必要があります。

 

構成概念妥当性(construct validity)

構成概念妥当性とは、テストで測りたいと思っていた能力(構成概念)を測れているかということです。

例えば、言語能力を測りたいのに、教科書を丸暗記すれば答えられるような問題を作ってしまった場合、測っているものは、言語能力でなくて暗記力になってしまうかもしれません。

 

真正性(authenticity)

真正性とは、テストが実生活で受験者が直面する課題を反映しているということです。

現実の世界で行われないような、不自然な会話のテストをした場合は、真正性がないテストになってしまいます。

 

相互性(interactiveness)

相互性とは、受験者がテストをするときに、どの程度(またどのタイプの)個人的な特性を動員できるかということです。

個人の特性というのは、受験者の言語能力や、トピックに関する知識、情意的要素(モチベーションが高いかどうか、緊張感があるかどうか)などです。

例えば、シンプルな語彙テスト(語彙の意味を4択の中から選ぶなど)をした場合、語彙知識は使えるかもしれませんが、それ以外の言語能力(会話能力・読解能力)やトピックに関する知識は動員できず、相互性は低いと考えられます。

自分の専門分野について5分で話すというテストの場合は、言語能力のみならず、トピックに関する知識も必要になり、情意面でも緊張感がある可能性も高いので、シンプルな語彙テストより、相互性は高いと考えられます。

 

影響力(impact)

影響は、テストがその社会・教育機関・個人にどのような影響を与えるかということです。

テストを受けることで、個人の学習がさらに促進されるようだったら、正の影響のあるテストといえるでしょう。

テストの波及効果(washback effect)もこの影響力に関係するものです。

 

実用性(practicality)

テストがどれだけ実用的であるかということです。

例えば、テスト時間が極端に長かったり、お金が法外に高かったり、テストの受験地が限られている場合は、そもそもテスト自体が実施ができないかもしれません。こういうテストは実用性が低いと言えます。

 

まとめ

Bachman and Palmer (1996)のテストの有用性モデルについて紹介しました。

この6つの特性のバランスをどうとるかは各テスト実施の状況によって考える必要がありますが、これらの特性は、テストの作成をする際のヒントになるのではと思います。