2025-05-19
【AWSで始める機械学習】
回帰分析の基礎:単回帰、重回帰、多項式回帰とは?
予測分析の基本的な手法である回帰分析は、データ間の関係性をモデル化し、将来の値を予測するために広く活用されています。本記事では、回帰分析の中でも基本的な単回帰、重回帰、多項式回帰の3つの手法について、その概念、特徴、そしてAWSでこれらの回帰分析を実践する際に役立つサービスを紹介します。データ分析の基礎を固め、AWSの力を活用して予測モデルを構築しましょう。
回帰分析は、一つまたは複数の説明変数(独立変数)と目的変数(従属変数)の間の関係性をモデル化する統計的手法です。過去のデータに基づいて、将来の目的変数の値を予測したり、変数間の関連性の強さや方向性を理解したりするために用いられます。
単回帰分析は、一つの説明変数を用いて目的変数を予測する最もシンプルな回帰分析です。二つの変数の間に線形の関係性があると仮定し、その関係を最もよく表す直線をデータに当てはめます。
概念
目的変数は、切片と呼ばれる定数と、説明変数に回帰係数を掛けた値、そして誤差項の合計で表されます。回帰係数は、説明変数が1単位増加したときに目的変数がどれだけ変化するかを示します。
活用シーン
・広告費用と売上の関係分析
・気温とアイスクリームの売上の関係分析
・学習時間とテストの成績の関係分析
AWSでの活用
Amazon SageMaker Linear Learner
SageMakerに組み込まれた線形回帰アルゴリズムを利用して、簡単に単回帰モデルを構築・学習・デプロイできます。
データセットを投入するだけで、最適な単回帰モデルを自動的に探索・構築できます。
AWS Glue + Amazon Athena + Amazon SageMaker
Glueでデータの前処理を行い、Athenaで探索的な分析をした後、SageMakerでモデルを構築するワークフローも考えられます。
重回帰分析は、複数の説明変数を用いて目的変数を予測する回帰分析です。単回帰分析と同様に線形の関係性を仮定しますが、より多くの要因を考慮に入れることで、より複雑な現象をモデル化できます。
概念
目的変数は、切片と、各説明変数にそれぞれの回帰係数を掛けた値、そして誤差項の合計で表されます。各回帰係数は、他の説明変数が一定である場合に、その説明変数が1単位増加したときに目的変数がどれだけ変化するかを示します。
活用シーン
・住宅価格の予測(広さ、築年数、駅からの距離など)
・製品売上の予測(広告費用、季節要因、競合の動きなど)
・患者の入院期間の予測(年齢、病状、既往歴など)
AWSでの活用:
Amazon SageMaker Linear Learner
複数の特徴量を入力として、重回帰モデルを構築できます。
Amazon SageMaker Autopilot
複数の説明変数を含むデータセットから、最適な重回帰モデルを自動的に選択・構築できます。
Amazon SageMaker XGBoost
勾配ブースティングアルゴリズムであるXGBoostは、非線形な関係性も捉えることができ、重回帰分析においても高い性能を発揮します。
多項式回帰分析は、説明変数と目的変数の間に非線形な関係性がある場合に用いられる回帰分析です。説明変数を高次の項(2乗、3乗など)としてモデルに含めることで、曲線的な関係性を表現できます。
概念
目的変数は、切片と、説明変数の1次、2次、それ以上の項にそれぞれの回帰係数を掛けた値、そして誤差項の合計で表されます。これにより、説明変数の変化に対する目的変数の変化が直線的でない場合でも、データをより良くモデル化できます。
活用シーン
・化学反応における反応時間と生成物の量の関係
・ウェブサイトのアクセス数とサーバー負荷の関係
・製品の価格と販売量の関係(需要曲線)
AWSでの活用:
Amazon SageMaker Linear Learner
特徴量エンジニアリングによって説明変数の多項式特徴量を作成し、Linear Learnerに投入することで多項式回帰モデルを学習できます。例えば、元の特徴量に加えて、その2乗、3乗などを新たな特徴量として追加します。
Amazon SageMaker Autopilot
データセット内の関係性を自動的に分析し、多項式回帰が適切であると判断された場合には、そのモデルを候補として提示することがあります。
カスタムモデル
必要に応じて、TensorFlowやPyTorchなどの深層学習フレームワークをSageMaker上で利用し、より複雑な非線形回帰モデルを構築することも可能です。
本記事では、回帰分析の基本的な手法である単回帰、重回帰、多項式回帰の概念と活用シーン、そしてAWSでこれらの回帰分析を実践する際に役立つサービスを紹介しました。
AWSの機械学習サービスを活用することで、データの前処理からモデルの構築、デプロイメントまでを効率的に行うことができます。まずは、Amazon SageMakerの無料利用枠などを活用して、実際に手を動かしながら回帰分析を体験してみることをお勧めします。
Recommend Books