システム大学入試「情報Ⅰ」

情報Ⅰ ポイント整理(12)

情報Ⅰ ポイント整理(12)

この連載では、現在高校で使用されている「情報Ⅰ」の教材をもとに、重要なポイントを整理し、5分程度で読める内容にまとめています。
ITの基礎知識として身につけておきたい内容を幅広く取り上げるとともに、大学入学共通テストで出題されやすいポイントについても分かりやすく解説します。テスト対策にもぜひご活用ください。


第12回目 データ分析(後編)

前回のコラムでは、データ分析をするためのデータ収集、データ整理と基本統計量について説明いたしました。
今回は、「グラフによる可視化」、「四分位数」、「相関関係」を説明していきます。

グラフによる可視化

データ分析の際、たくさんのデータが集まります。しかし、データだけだと、データから必要な情報が見えにくくなってしまいます。なぜなら、データはただの文字や数字の羅列に過ぎないからです。

データからの情報をいち早く取得するには、グラフによる可視化がよく使われます。ここでは、常用のグラフとその特徴を整理します。

①ヒストグラム

データの分布の様子や特徴を表す。
度数分布表を柱状のグラフで表す。例えば、テストの点数分布、顧客の来店時間帯など。

②折れ線グラフ

時系列によるデータの変化を表す。
例えば、1年間の気温の変化。10年間の人口変化など。

③棒グラフ

項目間のデータの大きさを比較する。
例えば、地域別の売上の比較、年齢別の購入者数など。

④円グラフ

各項目の値が全体に対する割合を表す。
例えば、アンケート結果の比較、予算の配分など。

⑤レーダーチャート

複数のデータ系列の値のバランスを表す。
例えば、各科目の成績、商品の性能比較など。

⑥散布図

2つのデータの関係性やばらつきの度合いを表す。
例えば、気温と売上の関係性、広告と売上の関係性など。

⑦箱ひげ図

データの最大値、最小値、中央値、四分位数などの指標を用いて、データの分布、ばらつき、外れ値を表す。

データを小さい順に並べた時、そのデータを4等分する位置の値を四分位数といいます。小さいほうから順に、第1四分位数、第2四分位数、第3四分位数といいます。例えば、各クラスのテストの点数、各店舗の年度売上の比較などで用います。

グラフによるデータの可視化は、膨大な数値データからトレンドやパターン、異常値などを瞬時に把握できるメリットがあります。直感的にデータから情報を読み取ることができます。

相関関係

相関関係の問題は共通テストでよく出題されています。
相関関係とは、2つのデータの関係性を表します。以下の3つの相関関係があります。

正の相関:
一方のデータが増加すると、もう一方のデータも増加する関係

負の相関:
一方のデータが増加すると、もう一方のデータが減少する関係

無相関:
2つのデータには関係性がない

相関係数とは、相関の有無または強さの強弱を表す指標です。-1〜1の範囲になります。0に近いほど関係性が弱いといえます。

相関関係を分析する際、気をつけないといけないのが、因果関係の有無です。
例えば、正の相関の場合、Aのデータが増えると、Bのデータも増えます。この場合、Bが増えた理由は、Aが増えたからという判断をしてはいけません。両者は必ずしも「原因と結果」の関係ではないことを覚えてください。

実際の例を使って、相関関係と相関係数を確認しましょう。前回説明した基本統計量の偏差、分散、標準偏差の計算もここで使います。

例:生徒10名の出席率とテスト正解数の関係を検証します。

生徒 ①出席率(%) ②正解数(30問中) ③出席率偏差 ④正解数偏差 ⑤出席率偏差² ⑥正解数偏差² ③×④
1 95 28 15.3 4.5 234.1 20.25 68.85
2 70 22 -9.7 -1.5 94.09 2.25 14.55
3 62 20 -17.7 -3.5 313.3 12.25 61.95
4 80 24 0.3 0.5 0.09 0.25 0.15
5 91 25 11.3 1.5 127.7 2.25 16.95
6 79 22 -0.7 -1.5 0.49 2.25 1.05
7 68 19 -11.7 -4.5 136.9 20.25 52.65
8 79 21 -0.7 -2.5 0.49 6.25 1.75
9 82 25 2.3 1.5 5.29 2.25 3.45
10 91 29 11.3 5.5 127.7 30.25 62.15
合計 797 235 1040 98.5 283.5
平均値 79.7 23.5 104 9.85 28.35
標準偏差 10.2 3.138
共分散 28.35

相関係数R
 = 共分散 ÷(出席率の標準偏差 × 正解数の標準偏差)
 = 28.35 ÷ (10.198 × 3.138) = 0.8859

今回の相関係数は0.8859なので、1に近くなります。
つまり、今回の出席率とテスト正解数の関係は「正の相関」という関係が見られます。

実際の散布図も出します。

横のX軸は出席数、縦のY軸はテスト正解数です。散布図からも、両データには正の相関関係があることがわかります。

共通テストの問題では、相関係数を計算させることは少ないのですが、散布図から両データの関係性を正確に読み取ることが非常に重要です。

回帰分析

近年、AIの活用が活発になり、新しいAI技術もどんどん生まれてきています。使いこなすには、時間と労力だけではなく、場合によって大学の数学、物理の知識も必要になります。

高校生の場合は、難しいAIの仕組みを理解できなくても大丈夫ですが、機械学習の基本原理を知ることが重要です。 この機械学習の中で、1つ重要な概念が「回帰分析」です。用意されたデータを学習し、そのデータからパターンを見つけ出し、そのパターンを使って分類や予測などを行います。

今後、共通テストでも、回帰分析についての問題が増えてくるのではないかと思います。回帰分析は少し難しいので、次回ゆっくりと説明いたします。


今回はデータ分析の後編として、「グラフによる可視化」、「四分位数」、「相関関係」を説明しました。

共通テストでは難しい問題も増えてくると思います。特に最後の大問は基本、散布図と相関関係に関する問題になります。データのばらつきやデータとデータの関係性を問われることが多いようです。
そのため、今回の内容をしっかり理解し、たくさん練習問題を解くことをおすすめします。

img_avater_nakayama

中山 涼一

こどもICT教育支援センター センター長

2014年に関西初のこども向けプログラミング教室「未来学校プログラミング教室」を創設。800名以上の指導実績を誇るプログラミング教育のスペシャリスト。

プロフィール