情報Ⅰ ポイント整理(13)
情報Ⅰ ポイント整理(13)
この連載では、現在高校で使用されている「情報Ⅰ」の教材をもとに、重要なポイントを整理し、5分程度で読める内容にまとめています。
ITの基礎知識として身につけておきたい内容を幅広く取り上げるとともに、大学入学共通テストで出題されやすいポイントについても分かりやすく解説します。テスト対策にもぜひご活用ください。
第13回目 回帰分析
回帰分析は機械学習の中で非常に重要な基礎概念の1つです。
簡単にいうと、用意されたデータからパターン(特徴)を見つけ出し、そのパターン(特徴)を使って新しいデータに対して分類や予測などを行うことです。
今回は実例を使ってわかりやすく説明します。
回帰とは
回帰とは、因果関係がある2つの変数間の関係を平面座標に置き換え表すことです。
前回の記事では「相関関係」を説明しました。相関関係は2つのデータの関係性を表すものです。
しかし、この2つのデータの間には必ずしも因果関係があるとは限りません。
例えば、給料の額と血圧の関係。「給料の額が高いほど高血圧の人が多い」という正の相関が見られる場合でも、給料の額が上がるから血圧が高くなることではありません。
正の相関が見られるのは、会社での勤務期間が長くなると給料が増え、会社での勤務期間が長くなると年齢が上がり、高血圧になる人が増えるからです。給料と血圧には因果関係がありません。
しかし、回帰分析の場合は、必ず2つのデータの間に因果関係があります。
そうでないと、その分析の意味がなくなります。
回帰式と回帰分析
回帰分析では、一体どのような分析をするのでしょうか?
まず、回帰式を説明します。
回帰式は、xとyで表される関係式です。ここのxは、原因となる数値です。機械学習では、説明変数ともいいます。ここのyは、結果となる数値です。目的変数ともいいます。
回帰分析は、この回帰式を求めることです。
この回帰式は、私たちが中学や高校で習った一次関数の可能性もあります。二次関数の可能性もあります。また、三次関数、四次関数の可能性もあります。実際の問題に合わせて、何次関数を求めるべきか調べる必要があります。
共通テストでは、一次関数の求め方を理解できれば十分です。
単回帰分析と最小二乗法
今回は、一次関数の求め方を見てみましょう。
学校で習った一次関数の公式は y=ax+b となります。aは傾き、bは切片です。これは最もシンプルな一次関数です。xは1つしかありません。
一次関数はグラフに描画すると、一本の直線です。例えば、y=2x+1の場合、以下のようなグラフが得られます。

学校で習った数学では、一次関数の式が提示されます。式の中のxに値を入れると、yを計算できます。
例えば、上記の例では、xが4の場合、yは9となります。学校ではこのような計算をたくさん勉強しました。
しかし、回帰分析の計算は、その逆の計算になります。
つまり、xとyの値が提示され、傾きのaと切片のbを求めることになります。
ここで、xは1つしかありませんので、「単回帰分析」といいます。xが複数がある場合は「重回帰分析」といいます。
今回は最も簡単な単回帰分析の考え方を説明します。使われている分析方法は「最小二乗法」です。
最小二乗法は、回帰直線式と実際のデータの間の誤差が最小になるような直線を求める方法です。
ここでいう誤差は、わかりやすく言うと、与えられたデータから最終的にできた直線までの直線距離の合計のことです。以下の図の中の緑の線のことです。
これらの緑の線の長さの合計が一番小さいとき、その直線が私たちが求めたい直線になります。

単回帰分析の例
前回の例題のデータを使って、単回帰分析をやってみましょう。
今回の回帰分析の計算に必要なデータはすでに前回計算済みです。
相関係数 = 0.8859
出席率の標準偏差 = 10.198
正解数の標準偏差 = 3.138
出席率の平均値 = 79.7
正解数の平均値 = 23.5
今回、求めたいのが y=ax+b のaとbです。xは出席率、yは正解数です。
では、まずaを計算します。計算式があります。
a = 相関係数 ×( yの標準偏差 ÷ xの標準偏差)
= 0.8859 ×(3.138 ÷ 10.198)≒ 0.2726
次に、bを計算します。計算式があります。
b = yの平均値 – xの平均値 ✕ a
= 23.5 – 79.7 × 0.2726 = 1.77378
これで、一次関数の単回帰式が出来上がります。
y = 0.2726x + 1.77378
グラフは以下のようになります。

この直線ができると、予測ができるようになります。
例えば、今までのデータの中になかった出席率を式に代入すれば、その人の成績の予測ができます。
これを会社に当てはめると、いままでの販売データから今後の販売予測がわかります。
回帰分析は多くの分野で活用されています。共通テストでは、データの相関関係からデータの予測まで出題できます。
実際の計算を求められることは少ないかもしれませんが、この回帰分析の考え方、またグラフの読み方をしっかり覚える必要があると思います。
次回は、データベースの重要ポイントを整理しましょう。
