情報Ⅰ ポイント整理(11)
情報Ⅰ ポイント整理(11)
この連載では、現在高校で使用されている「情報Ⅰ」の教材をもとに、重要なポイントを整理し、5分程度で読める内容にまとめています。
ITの基礎知識として身につけておきたい内容を幅広く取り上げるとともに、大学入学共通テストで出題されやすいポイントについても分かりやすく解説します。テスト対策にもぜひご活用ください。
第11回目 データ分析(前編)
実は、大学の共通テスト「情報I」で出は、高校「情報I」の情報分析に関係する内容が最も多く出題されています。
最後の大問は必ずデータ分析の問題になります。特に相関関係の応用は必須項目となります。
内容が多いので、2回に分けて、データ分析に関する内容について整理していきます。
今回は「データ収集」、「データ整理」と「基本統計量」を見てみましょう。
データ収集
データ分析はデータがないとできません。
そのため、まずはデータの収集方法を知ることが大切です。
一番よく使う方法は、アンケート調査です。
適切な調査対象を選んで、同じ質問を出して、多くの回答を集める方法です。このアンケート調査には、全数調査と標本調査があります。
全数調査:
すべての対象に対して調査する方法です。例えば、全校生徒に対する健康調査などです。全数調査では正確な結果を得ることが可能です。
標本調査:
すべての対象から一部のみを抽出して調査を行い、その結果から全対象の傾向を統計学的に推定する方法です。サンプリング調査とも言います。例えば、選挙時の支持政党の調査などです。標本調査では、理論的に誤差を避けることができません。
オープンデータとビッグデータ
現在、日常生活に関わる多くのデータが、毎日自動的に蓄積されています。これらのデータを個人が特定できないように加工し、国や企業が公開しています。オープンデータとは、国や自治体、教育機関、企業などが保有し公開しているデータです。インターネットから誰でも簡単に入手でき、自由に利用できるデータです。例えば、e-Statでは、政府や各府省が集計し発表している統計データが公表されています。
ビッグデータという言葉もよく耳にします。これは、大量かつたくさんの種類のデータの集合体のことです。例えば、ネットサーフィンの履歴、ネットショップでの買い物記録、GPSのデータ、ブログのコメント、IoTなどで収集されているデータ。文字であったり、画像であったり、動画であったり、いろんな種類のデータがあります。これらのデータの集合体をビッグデータといいます。
データ整理
データが集まりましたら、次はデータの整理をしなければなりません。このポイントに関しては、いくつかの言葉を覚えておく必要があります。
量的データ:
データ自体に意味があります。計算ができるデータです。例えば、長さ、重さ、温度などです。
質的データ:
分類や種類を区分するラベルとしてのデータです。計算されても意味がありません。例えば、出席番号や、等級などです。
外れ値:
データの中に、他の多数のデータから大きく外れた値のことです。この外れ値は共通テストの問題に出る可能性があります。例えば、データの散布図グラフを見て外れ値を見つけることができるかどうかテストされることがあります。
度数分布表:
データをいくつかの階級に区分し、それぞれの階級に属するデータの個数を記入する表です。ヒストグラムで可視化することができます。
では、度数分布表の作り方を例で説明します。
以下は、ある学校の50人の生徒の成績です。度数分布表を作ってみましょう。
【50人の成績】
| 67 | 58 | 75 | 89 | 46 | 62 | 56 | 79 | 60 | 30 |
| 76 | 64 | 52 | 66 | 42 | 81 | 63 | 59 | 65 | 77 |
| 38 | 86 | 64 | 70 | 50 | 93 | 78 | 76 | 57 | 68 |
| 98 | 64 | 55 | 66 | 53 | 82 | 62 | 73 | 60 | 51 |
| 49 | 67 | 56 | 75 | 85 | 61 | 58 | 44 | 79 | 65 |
【度数分布表】
| 階級 | 階級値 | 度数(個数) | 相対度数 |
| 30~39 | 35 | 2 | 0.04 |
| 40~49 | 45 | 4 | 0.08 |
| 50~59 | 55 | 11 | 0.22 |
| 60~69 | 65 | 16 | 0.32 |
| 70~79 | 75 | 10 | 0.20 |
| 80~89 | 85 | 5 | 0.10 |
| 90~100 | 95 | 2 | 0.04 |
| 計 | 50 | 1.00 |
データ分析のための基本統計量
データ分析では、まず、6つの基本統計量を覚えましょう。
【基本統計量】
1.平均値:
複数のデータをすべて足し合わせた結果をデータの個数で割った値。
外れ値に影響されることに要注意です。
2.中央値:
複数のデータを小さい順で並び替え、ちょうど真ん中にある値。
もしデータの数が偶数なら、真ん中の2つの値の平均値を取った値。
3.最頻値:
複数のデータの中、最も回数が多く出た値。
同数の最頻値があった場合、すべてが最頻値とします。
4.偏差:
それぞれの数値と平均値の差。
正の数も負の数もあります。
5.分散:
それぞれデータの偏差を2乗にした結果の平均値をとった値。
2乗にするのは、偏差の正数と負数が相殺されないためです。
分散は、データのバラツキの度合いを表す値です。
6.標準偏差:
分散の正の平方根をとった値。
分散の結果の単位は2乗になっているので、平方根をとることで、元の単位に戻します。
分散と同じく、データのバラツキの度合いを表す値です。
標準偏差が大きいほどデータのバラツキが大きいです。
基本統計量の計算
では、データ整理の例題を使って、6つの基本統計量を計算していきましょう。
【50人の成績】
| 67 | 58 | 75 | 89 | 46 | 62 | 56 | 79 | 60 | 30 |
| 76 | 64 | 52 | 66 | 42 | 81 | 63 | 59 | 65 | 77 |
| 38 | 86 | 64 | 70 | 50 | 93 | 78 | 76 | 57 | 68 |
| 98 | 64 | 55 | 66 | 53 | 82 | 62 | 73 | 60 | 51 |
| 49 | 67 | 56 | 75 | 85 | 61 | 58 | 44 | 79 | 65 |
1.平均値:
合計の計算 67 + 58 + 75 + … + 44 + 79 + 65 = 3250
平均値 = 3250 ÷ 50 = 65
2.中央値:
50個の成績データを小さい順で並び替えます。
| 30 | 38 | 42 | 44 | 46 | 49 | 50 | 51 | 52 | 53 |
| 55 | 56 | 56 | 57 | 58 | 58 | 59 | 60 | 60 | 61 |
| 62 | 62 | 63 | 64 | 64 | 64 | 65 | 65 | 66 | 66 |
| 67 | 67 | 68 | 70 | 73 | 75 | 75 | 76 | 76 | 77 |
| 78 | 79 | 79 | 81 | 82 | 85 | 86 | 89 | 93 | 98 |
今回は50個なので、偶数です。25番目と26番目のデータの平均値を計算
中央値 = (64 + 64) ÷ 2 = 64
3.最頻値:
最も出現回数が多い値を見つけ出します。
最頻値 = 64
4.偏差:
それぞれのデータから平均値を引きます。
| 2 | -7 | 10 | 24 | -19 | -3 | -9 | 14 | -5 | -35 |
| 11 | -1 | -13 | 1 | -23 | 16 | -2 | -6 | 0 | 12 |
| -27 | 21 | -1 | 5 | -15 | 28 | 13 | 11 | -8 | 3 |
| 33 | -1 | -10 | 1 | -12 | 17 | -3 | 8 | -5 | -14 |
| -16 | 2 | -9 | 10 | 20 | -4 | -7 | -21 | 14 | 0 |
5.分散:
上記の偏差の値を2乗にして、結果を合計し、平均値を計算します。
22 + (-7)2 + 102 + … + 142 + 02 = 9916
分散 = 9916 ÷ 50 = 198.32
6.標準偏差:
分散の値の平方根を計算します。
標準偏差 = √198.32 = 14.08
以上、6つの基本統計量の取得ができました。
共通テストでは、そのまま計算をテストするものではなく、これらの知識の応用ができるかがテストされます。
ですので、それぞれの統計量の意味をしっかり理解しておく必要があります。
今回は情報技術について説明をいたしました。
今回はデータ分析の前編です。「データ収集」、「データ整理」と「基本統計量」を説明しました。
次回後編は「グラフによる可視化」、「四分位数」、「回帰分析」を説明いたします。
統計の基礎をしっかり学ぶことで、問題を解くときの応用ができるようになります。
