昨日、出口調査のことを書きましたが、昨日の参院選の選挙結果も出ましたので、もう少し詳しく掘り下げたいと思います。
昨日、私が出口調査に協力したのは、朝日新聞の調査でした。
昨晩のテレビ朝日選挙番組を見ていたところ、自民の予想38議席に対して、結果は37議席でした。恐らく出口調査の結果に基づいていると思われますが、かなり正確な予測であると思います。
本日の朝刊を見たところ、朝日新聞の出口調査は全国3,630箇所で実施し、有効回答185,000人だったそうです。1拠点当り平均51名ということですね。
ちなみに、日本経済新聞も出口調査を行っており、こちらは調査対象74,000人だったそうです。
さて、この出口調査でどの程度投票結果を正確に予測できるのでしょうか?
選挙結果予測を考察するには、選挙区毎に候補者の得票率を評価することが必要になります。
幸い、朝日新聞の東京版では、東京選挙区の出口調査のサンプル数と各候補者の得票数を掲載していたので、計算してみました。
まず、東京選挙区における朝日新聞の出口調査は、180箇所で行われ、7,987名の有効回答を得ています。
一方で、開票率99%の時点で、得票率は以下の通りでした。
当選:大河原氏 18.47%、山口氏 13.48%、鈴木氏 13.26%、丸川氏 11.70%、川田氏 11.60%、
落選:保坂氏 11.04%、田村氏 9.40%……
さて、7,987名のサンプル数をもって、各候補の得票数はどの程度の信頼度で予測できるのでしょうか?
ここで、得票率11.70%の丸川氏と、同13.26%の鈴木氏を例にとって、どちらの得票率が上と予測できるか、考えてみましょう。
実際の出口調査の生データは私達は知り得ませんが、どの程度の信頼度で予測できるかを検証することが目的ですので、ここでは出口調査の結果、丸川氏の得票率が11.70%、鈴木氏の得票率が13.26%と予測されたと仮定し、この数字がどの程度の信頼度を持つかを考えてみます。
まず、両者の得票率の差の期待値は
0.1326-0.1170 = 0.0156 (1.56%)
という予想になります。分散は
((0.1326 x (1 – 0.1326)) / 7,987) + ((0.1170 x (1 – 0.1170)) / 7,987) = 0.00002732
標準誤差はその平方根をとって
0.00523 (0.523%)
と予想されます。
この場合、信頼度95.4%の信頼区間は、
0.0156 – 2 x 0.00523 から 0.0156 + 2 x 0.00523
つまり、
0 < 0.00512 から 0.02603
ということで、鈴木氏の得票率は丸川氏の得票率よりも95.4%の信頼度をもって高いと予測できることになります。
鈴木氏と丸川氏は得票率に1.56%の開きがありましたが、より僅差の場合はどうでしょうか?
得票率11.60%の川田氏と、11.04%の保坂氏を例に考えてみましょう。わずか0.54%という僅差で明暗を分けた結果となりました。
上記と同様の計算を行うと、信頼度95.4%の信頼区間は、
0.0056 – 2 x 0.00501 から 0.0056 + 2 x 0.00501
つまり、
0 > -0.00444 から 0.01561
になってしまい、川田氏の得票率は保坂氏の得票率よりも95.4%の信頼度をもって高いと予測できない、ということになってしまいます。
つまり、0.56%という僅差の場合は、このサンプル数では不十分ということですね。
計算は省略しますが、信頼度95.4%の信頼度をもってこのような接戦の結果を予測するためには、26,000名程度のサンプル数が必要ということになります。
つまり、3倍以上のサンプル数が必要になります。恐らく出口調査のコストはサンプル数に比例すると思われますので、コストも3倍以上かかるということになります。
ということで、現在の出口調査のサンプル数では、ある程度の得票差は予測可能である一方で、僅差の場合の予測はちょっと難しい、ということのようです。
ところで、東京都のサンプル数合計が約8,000件、拠点当りのサンプル数が約51件というのは、思ったよりも小さい数字ですね。
この程度であれば、昨日書いたように、各拠点の出口調査担当の方は自分で喫茶店で入力してメールで送信できる範囲のデータ量ですし、東京都レベルの調査であればExcelで十分に分析可能ということになりますね。(さすがに全国185,000人のデータは無理ですが)
実際のところ、どのような作業なのか、興味があるところです。
PS. もし計算間違い等がありましたら、ご指摘願えれば幸いです。
だれに投票するかというのはランダムではなく、地盤の強い・弱いもありますから、正確な予想のためには、単なる統計学(+多くの母数)だけでなく、「どこで出口調査をするか」というのもメディアのノウハウとしてありそうですね。
ところで、Excel 2007 では100万行まで扱えます 🙂
mohnoさん、
コメントありがとうございました。
都内180箇所でどの程度ランダムサンプリングできるか、でしょうね。
ところで、Excel2007は100万行まで扱えるのですね。私のExcel2002は6万余行までなので…。とりあえず取り扱えるデータ量以外は、現行バージョンで満足しております。(^^;
朝日は知りませんが、とある放送局系列では、出口調査結果をその場で携帯から入力してDBに登録しています。
mohnoさんも書かれているように、サンプリングを都市部と農村部とか、その中でも過去の実績から投票傾向の違う所を選ぶ、投票傾向の似ている地域はどこかで代表させるなど色々工夫しているので、計算上の信頼度よりは精度の高い結果になるようです。
過去の投票傾向から大きく変わってしまうと外れたりしますが:-)
はじめまして!
朝日新聞の出口調査をそのまま使ってるテレ朝で伝えられた
東京選挙区の出口調査の数字を置いておきます。
大河原 21.7
鈴木 13.5
山口 12.8
川田 11.3
丸川 10.6
保坂 10.4
田村 9.7
杉浦 3.5
せっちゃんさん、
コメント&情報ありがとうございました。なるほど、確かにケータイで入力する時代ですね。パソコンで入力して送信すると思っていた私は、既に旧人類なのでしょうか? (^^;
ご指摘の通り、サンプリングはカギですね。ただ、その予測も、候補者全部の傾向が同一かどうかは保障できないので、過去の実績を見ても一筋縄ではいかないような気がします。工夫のしどころでしょうね。
通りすがりさん、
詳しいデータをお教えいただき、ありがとうございます。
トップ5名の当選候補者名は一致していますが、実際の数字は結構バラつきがありますね。
ううむ、統計の信頼性を考える上で、大変参考になります。