標本調査とは
標本調査と全数調査
標本調査
標本調査とは、ある集団(母集団)の中から無作為に一部を取り出して(無作為抽出して)調査し,その結果をもとに全体の状態を統計的に推定する方法のことで,サンプル調査と呼ばれることもあります。
ある箱の中に青色の玉と赤色の玉が合計1000個入っているとします。
箱の中の青色の玉と赤色の玉の個数を知りたいとき,1000個の玉すべてを調べるのは時間がかかります。
このとき,標本として50個の玉を無作為に取り出し、青色の玉と赤色の玉の個数を数えることで,
箱の中の青色の玉と赤色の玉の個数を推定することができます。
標本調査の例
【テレビの視聴率調査】
視聴率調査の主な方法としては,日本全国を32の地区に分け,それぞれの地区で無作為に選ばれた家庭に調査用機材を設置し,テレビの視聴状況を記録しています。
この場合,母集団は「調査地区内のすべての家庭」になります。
【水質調査】
調査対象となる地点(施設)からビーカーやバケツで調査用の水を採取し,検査を実施します。
量も多く,常に流れている水を全量せき止め、検査をすることは現実的ではありません。
【工場の品質検査】
特に工業用製品においては,十分な強度が保たれているか検査するためにサンプル品を実際に破壊して検査しています。
これを全数調査にしてしまうと,販売できる製品がなくなってしまいます。
【世論調査】
新聞社や自治体等が行う世論調査も一部の人だけを対象に実施されています。
政策に対する賛否・政党支持率などの国民の意見についておよその傾向がつかめればいいので,
標本調査により実施されています。
全数調査
標本調査に対し、全数調査という方法もあり,名前のとおり,集団に含まれる全てのもの(人)をもれなく調査する方法です。
全数調査の例
【国勢調査】
国勢調査は,効果的な政策を実施するためのベースになる資料をつくることを目的として
居住地や就業・就学状況等について調査されています。
そのため,正確な情報を得る必要があり,国内在住の全国民を対象として実施されています。
【学校・会社の健康診断】
学校で行われている健康診断は全員が受診しています。
健康状態に異常がある人は,もれなく発見し,治療してもらう必要があるからです。
【空港。イベントの手荷物検査】
凶器や爆発物等の持ち込みにより安全性を脅かされることを防ぐために実施されています。
安全の確保のためにはもれなく発見する必要がありますので,全員の荷物を検査する必要があります。
標本調査と全数調査の特徴
標本調査と全数調査には,次のような特徴があり,調査したいもの(こと)の性質や母集団の規模等により選択する必要があります。
標本調査を用いる
・ 母集団について正確な情報をもれなく知りたい場合には全数調査を用いる
標本調査の特徴
【誤差の有無】
標本調査では,母集団の中から一部を取り出して調査し推定するため,誤差が発生します。
そのため,確実性が重視されるものを調査することには不向きです。
【コストと手間】
標本調査では,母集団の中から一部を取り出して調査し推定するため,
実際に調査する数を少なくすることができ,コストと手間を節約することができます。
【注意点】
標本調査では,母集団の中から一部を取り出して調査し推定するため,
標本の選び方に偏りがある(無作為抽出できていない)と正しい結果が得られなくなります。
全数調査の特徴
【誤差の有無】
全数調査では,母集団すべてを調査するため,誤差が発生せず,正確なデータが得られます。
そのため,確実性が重視されるものを調査することに適しています。
【コストと手間】
全数調査では,母集団すべてを調査するため,母集団が大きくなるほど,コストと手間もかかります。
以上より,
知りたい内容や必要とする精度,コストのバランスを考えて標本調査と全数調査を選択する必要があります。
母集団の規模が大きい場合やざっくりとした傾向が知りたい場合にはコストや手間を節約できる標本調査を,
母集団について正確な情報をもれなく知りたい場合には全数調査を用いるのがいいと考えられます。
標本調査 | 全数調査 | |
母集団の規模 | 大きいときに適している | 小さいときに適している |
誤差の有無 | あり | なし |
コストと手間 | 抑えることができる | 大きくなる |
無作為抽出とは
無作為抽出とは、母集団(調査対象全体)から「公平に」標本を選ぶ方法です。
無作為抽出で選ばれた標本は,集団の全ての要素が同じ確率で抽出されたと考えることができます。
無作為抽出するためには、乱数表やさいころなどが利用されるほか,パソコンを使用する場合には,Excelのランダム関数(RAND関数)が利用されます。
無作為抽出の例
無作為抽出の例として,あるクラスの生徒35人(男子21人,女子14人)の中から,5人の生徒を無作為抽出する方法について考えてみましょう。
方法1.乱数表から10個の数を選び,選んだ番号と同じ出席番号の生徒を選ぶ
方法2.区間を区切ってその中から1人ずつ選ぶ
手順1.35人の中から,5人の生徒を選ぶので,出席番号順に7人ずつのグループをつくる。
手順2.1番から7番までの7人の中から,無作為に1人を選ぶ。
例として,2番を選んだ場合を示します。
手順3.手順2で選んだ番号からグループの人数(7人)ごとに1人を選ぶ。
(母集団の人数が大きく,20人ずつのグループになった場合は,20人ごとに1人を選ぶ。)
方法3.母集団の特徴別にグループ分けし,比例配分して選ぶ
手順1.35人を男女にグループ分けする。
手順2.方法1または方法2を用いて,男子から3人,女子から2人を選ぶ。
(男女比が 21:14=3:2のため)
乱数表の使い方
乱数表は,0から9までの数字が不規則に並んだ表のことで,縦,横,斜めのどの方向を見ても数字がバラバラに並んでいて,各数字の現れる確率が同じになっています。
(JISより一部抜粋)
乱数表の使い方は次のとおりです。
手順1.乱数表の中から1つの数字を選ぶ。
例:目をつぶって指をさした数字を選ぶ。
今日の日付から選ぶ。(2月6日→2行6列)
手順2.手順1で選んだ数字から上下左右いずれか好きな方向に必要な個数だけ数字を選ぶ。
(選んだ数字が重複した場合や母集団の数より大きい数の場合は無視して次の数を選ぶ)
乱数表による数字の選び方の例
例として,5つの1~35の中から5つの数字を選んでみます。
手順1.乱数表の中から1つの数字を選ぶ。
今回は2行6列の数「32」を選んだことにします。
手順2.手順1で選んだ数字から上下左右いずれか好きな方向に必要な個数だけ数字を選ぶ。
今回は下に選んでいくと,5,25,8,15が選ばれることになります。
なお,途中にある 47,89,67,73,72 は35より大きいので無視します。
無作為抽出できていない標本調査の結果は信用できない
標本調査の結果は,標本の抽出のしかた(無作為抽出したか)によって大きな影響を受けます。
無作為抽出できていない標本調査の結果から推定される内容は実態と異なることになります。
以下に,無作為抽出できていない標本調査の結果が実態と異なる例をあげます。
例1
ある中学校で全校生徒の自宅での学習時間を調べる場合,
3年生からだけ標本を抽出するのは無作為抽出ではありません。
3年生の多くは受験生であると考えられ,1年生,2年生よりは自宅での学習時間は長くなると考えられます。
つまり,3年生からだけ標本を抽出すると,実態より自宅での学習時間は長くなると考えられます。
例2
100人に実施したアンケート調査でカレーが好きと答えた人90人,嫌いと答えた人が10人であったとします。
このとき,10人分の回答を無作為抽出すると,好きと答えた回答が9人分,嫌いと答えた回答が1人分選ばれると考えられます。
しかし,好きと答えた回答を5人分,嫌いと答えた回答を5人分意図的に選んでしまうと,
標本調査の結果は「カレーが好きな人と嫌いな人の割合はほぼ同等である」となってしまいます。
標本調査と推定
母集団の中の比率(割合)と標本の中の比率(割合)は等しい
母集団に含まれる割合と標本に含まれる割合は等しいものとする
標本調査では,母集団に含まれる比率(割合)と抽出した標本に含まれる比率(割合)は等しくなると考えられます。
例として,ある工場で1日 \( 10000 \) 個の製品を製造し,その中から \( 100 \) 個を抽出して品質検査をした結果,\( 3 \) 個の不良品が見つかったという事例について,1日に発生した不良品の数を推定してみます。
抽出した標本 \( 100 \) 個の中に3個の割合で不良品が含まれているので,
母集団 \( 10000 \) 個の中にも \( 100 \) 個中3個の割合で不良品が含まれていると考えます。
母集団 ・・・ 1日に製造した製品数( \( 10000 \) 個)
標本 ・・・ 抽出した製品の数( \( 100 \) 個)
標本に含まれる調査したいものの数 ・・・ 標本の中の不良品の数( \( 3 \) 個)
なので,
母集団に含まれる調査したいものの数 ・・・ 母集団の中の不良品の数( \( x \) 個)
として数式で表すと,
\( 10000:x=100:3 \)
となり,これを解くと,\( x=300 \) なので,
1日に製造した製品の中には \( 300 \) 個の不良品が含まれていると推定されます。
母集団の中の構成比率と標本の中の構成比率は等しいものとする
同様に,母集団の中の「A」と「B」の比率(割合)と抽出した標本の中の「A」と「B」の比率(割合)は等しくなると考えられます。
例えば,箱の中に白の碁石と黒の碁石が多数入っていて,白の碁石は \( 360 \) 個入っていることだけがわかっているとします。箱の中から \( 30 \) 個を抽出して白の碁石と黒の碁石の数を数えた結果,白の碁石が \( 18 \) 個,黒の碁石が \( 12 \) 個であったとときの箱の中の黒の碁石の数を推定してみます,
抽出した標本 \( 30 \) 個の中の白の碁石と黒の碁石の比は \( 18:12 \) なので,
母集団の中の白の碁石と黒の碁石の比も \( 18:12 \) になっていると考えます。
母集団の中の「A」の数 ・・・ 箱の中の白の碁石の数( \( 360 \) 個)
標本の中の「A」の数 ・・・ 抽出した白の碁石の数( \( 18 \) 個)
標本の中の「B」の数 ・・・ 抽出した黒の碁石の数( \( 12 \) 個)
なので,
母集団の中の「B」の数 ・・・ 箱の中の黒の碁石の数( \( x \) 個)
とすると,
\( 360:x=18:12 \)
となり,これを解くと,\( x=240 \) なので,
箱の中に入っている黒の碁石は \( 240 \) 個であると推定されます。