本文へスキップします。

フリーワード検索 検索

【全】ヘッタリンク
【全・SP】バーガーリンク
がぞう

せつめい

「インターネット調査の品質向上のために」(2025.07.25)Q&A


「インターネット調査の品質向上のために」のセミナーにお寄せいただいた質問に、講師の東洋大学社会学部山田一成教授からご回答をいただきました。セミナーと同様に、こちらの回答も現場で調査設計・運用に携わる多くの人にとって、深く学びのある内容です。ぜひ参考になさってください。

インターネット調査品質委員会


この度は本セミナーをご聴講いただき、誠にありがとうございました。予想を超えて非常に多くの方々がご聴講くださったこと、大変幸甚に存じます。なお、セミナー終了後、ご聴講下さった方々からご質問が多数寄せられましたので、事務局とご相談し、当日の講演内容に直接関係すると思われるものに限り、回答させていただくことにいたしました。その点、ご了承のほど、よろしくお願い申し上げます。


ほんぶん

質問 1.回答者モチベーションと設問設計

  • モチベーションの公式における「回答コスト」はどのように数値化・指標化することができますか。一般的な回答コストとしての計算ロジックがあって、それをクライアントに提示できるとすれば、悪い設計に対する抑止力として使えるのではないかと感じました。
  • 協力価値を強調すると、特定カテゴリーに関心のある人に回答が偏り、購入意向などの結果にバイアスがかかる可能性があります。どうすればこのバイアスを軽減できるでしょうか。
  • 以前別の場所で、「アメリカ人は世の中をよくするために調査に『参加』する、日本人は請われているから『協力』する」と聞いたことがあります。どうすれば日本人がもっと調査に協力することを自分事化するようになるでしょうか。調査依頼文にモチベーションを高めるような文章を盛り込むとすれば、どういう文章にすればよいと思われますか。

回答

まず、モチベーションの公式ですが、講演では基本的な考え方を共有するための「概念図」として提示いたしました。数値による指標化は不可能ではないかもしれませんが、回答者心理の取り扱いが難しいこともあり、実際には極めて困難であるように思われます。また、「数値指標を抑止力にする」というアイデアについては、期待したい気持ちもありますが、同時に、「指標さえクリアすればいい」といった本来的でない設計思想を助長してしまうかもしれませんので、慎重に考えたほうがよいように思われます。

次に、協力価値の強調についてですが、バイアスを減らす方法を考える前に、実際にバイアスが生じるのかどうか、検証する必要があるように思われます。また、バイアスを少なくする努力は必要ですが、一方で、行き過ぎた努力は「ゼロバイアス幻想」(「完璧調査幻想」)の助長につながるかもしれません。公募型ウェブ調査は自らパネルに応募してきた人たちが回答者ですし、高学歴者の比率も高いので、むしろ、バイアスがあることを前提に「バイアスのあるデータから、どのように価値のある情報を取り出すか」を考えて、分析の仕方を工夫する必要もあるように思われます(ここから先は総論ではなく、ケースごとの各論となります)。

最後に、依頼文についてですが、私は「依頼文さえ上手く作文すれば、問題が全て解決する」と考えているわけではありません。問題の根はもっと深い所にあり、公募型Web調査の「自分事」については、パネル募集時にどのように参加を呼びかけるのかが問われているように思われます。


質問 2.MA(複数回答)とFC(強制選択)の設計比較

  • FC(「重視する/しない」で明示)とMA(「重視するものだけ選ばせる」)では、回答者の質問の理解が異なるのではないかと思っています。FCだと「重視してない」わけではないので「重視している」と回答してしまい、実際にはそれほど「重視している」わけではないものも選択されているのではないかと思いましたが、いかがでしょうか。
  • FCとMAで、選択肢の順位には差が生じたのでしょうか。(結果を見る時に、%はあまり気にせず、どの選択肢が上位に選ばれたかを重視してみることが多いため)
  • MAについては、MA→SAへの絞り込みにして、SAの回答を重視したり、MAの回答を3つまでに制限する(Limited MA)ことがありますが、これらは有効でしょうか。
    ※MAは回答者によって選択数に差がありつつも、負荷が少なく情報量が多いため、実務では多用しがちです。

回答

ご指摘の回答方法については、そうした方法で回答している回答者もいると思われます。ただ、それが回答差の主な原因かどうかについては、判断材料を持ち合わせておりませんので、残念ながらコメントできません。また、ご指摘の点に関して言えば、MAには、FCのような個々の項目への絶対判断と、全項目を見渡した相対判断とが混在している可能性が高いように思われますが、それらの割合についても、はっきりしたことがわかっているわけではありません。しかし、いずれにせよ、MAとFCでは測定結果の意味が大きく異なりうる、ということは認めざるを得ません。また、そうした点も踏まえ、私自身は「原則として、MA(LMA)は使うべきではない」という立場を取っています。

なお、選択肢の順位については、よくご質問いただくのですが、それについては下記の書籍の2章と3章に数表が掲載されていますので、そちらをご参照いただくのが早いように思われます(ただし、選択肢が非常に多いケースとなります)。

山田一成編著 (2023). ウェブ調査の基礎:実例で考える設計と管理     誠信書房


質問 3.ゲーミフィケーションと調査設計への影響

  • ゲーミフィケーションが「ノイズになる」とのことですが、これは設問内容への影響でしょうか。調査画面ではなく、アンケートサイト自体にゲーム的要素があっても問題にならないと考えてよいでしょうか。
  • 回答報酬の魅力づけとして、ゲーミフィケーション要素を取り入れることは有効ですか。協力価値を重視する回答者には逆効果となる可能性もあるでしょうか。

回答

ご質問の点ですが、本講演では「ノイズ」という言葉を「心理測定における測定誤差」という文脈で使っておりましたので、「設問内容への影響」と受け止めていただいてかまいません。また、サイトについては判断材料を入手できておりませんので、回答は控えさせていただきます。なお、以下は補足コメントとなります。

ご存知のように、ゲーミフィケーションとは「ゲーム的要素を取り入れる」ことであり、既にひとつの重要な研究領域となっています。具体的な研究テーマは多岐にわたりますが、特に「教育」に関わる領域では研究が盛んであるように見受けられます。

なお、Web調査についてもゲーム的要素を取り入れることが検討されていますが、そこで重要となるのは、具体的にどのような工夫を想定しているのか、ということです。広く考えれば、ポイント報酬システムにも実装可能ですし、狭く考えると、回答画面のUIをフレンドリーにすることにも関わります(プログレスバーもゲーミフィケーションとして解釈可能かもしれません)。また、ゲーミフィケーションの目的を、「不快を軽減すること」とするか、「楽しみを追加すること」とするかによっても、ノイズや効果の基準が変わってくる可能性があります。

そうしたこともあり、このテーマについては今後日本での研究が増えることが期待されています。また、協力価値との関係も、今後検討されるべきテーマのなかに含まれていると思われます。


質問 4.属性への配慮

  • 回答の質に、属性が関係していることも考えられます。例えば心理尺度開発過程で、高齢者の信頼性(α係数)が低くなるということがしばしばあるようです。不誠実回答の判定基準も属性ごとに設定する方が良いでしょうか。多様化が進む中で、万人に共通の意味で理解される質問を作成するのも難しくなってきていると感じており、特定の属性の回答を過剰に不誠実回答として扱ってしまうリスクがあるのではと懸念しています。

回答

ご心配、非常によくわかります。良質な回答を求めるが故のご質問かと存じますが、その点について回答する前に、用語について認識の共有があったほうがよいように思われました。ご質問のなかに「不誠実回答」とありますが、私はその言葉を使ったことはありません。というのも「誠実」の定義を求められても、上手く答えられないからです。

私は講演のなかでは「不正回答」と「不良回答」という言葉を使っています。そこで言う不正回答とは、代理回答、虚偽報告、質問内容と無関係な機械的回答、といったものを指します。一方、不良回答とは、頻繁なDKNA、大雑把な数値回答、分散が非常に小さい回答群など、虚偽回答ではないけれども、精度は著しく低いように思われる回答を指します。

もちろん、両者をまとめて「不誠実回答」と呼ぶことはできますが、不良回答が不誠実回答かというと、そこには議論の余地が生じます。論点は複数ありますが、例えば、質問数が非常に多い調査において、回答者の方が回答を拒否せず、できる範囲で努力して回答してくださったような場合には、それを「不誠実」とするのは調査する側の「驕り」ということになるかもしれません。

そのような検討を経たうえで、ご質問の最後にある「過剰に不誠実回答として扱ってしまうリスク」という部分を拝見いたしますと、ご質問された方も、以上のような議論を十分理解されたうえでご質問されたように思われます。そして、そのような議論を共有したうえで、私から回答できるのは以下の2点となります。

まず、α係数が不良回答・不正回答の指標かどうかについては、今一度、検討する必要があるように思われます。もちろん、回答内容の一貫性が理論的・普遍的に仮定できる場合は、不良回答・不正回答のひとつの指標として扱ってよいのかもしれません。しかし、性差や年齢差が理論的・経験的にありうるのであれば、α係数の低下は観察されて当然のもの、ということになります(余談になりますが、日本でも10年ほど前からα係数の見直しが進み、今では使用に批判的な意見も少なくないようです。ご参考まで)。

次に、不良回答・不正回答の指標を属性ごとに設けるかどうかですが、これについては「検討中」という回答になります。目下、私自身は回答時間パラデータについて検討中ですが、回答時間については、一般に、若い層ほど短くなることがわかっています。また、そのため、不正回答である超短時間回答の基準を考える場合、精密に行おうとすると、対数化回答時間の平均と標準偏差を年代ごとに求めることになりますが、それはとても煩雑な作業となりますし、それによってどの程度の改善が期待できるかも明確ではありません。

そう考えてくると、「完璧調査幻想」に捕らわれて、不良回答の除去に注力するよりも、データに誤差が含まれていることを前提に、ノイズの多いデータから価値のある情報を取り出す方法を工夫することを考えたほうがよいようにも思われます(大変な努力によって高質なデータが得られたとしても、集計・分析によって得られた知見が「既にわかっていること」や「当たり前のこと」ばかりだったとしたら、費用対効果に再考の余地があることになるかもしれません)。


東洋大学 社会学部 山田一成教授にご回答いただきました。御礼申し上げます。

2025.08.28掲載

開催報告