Probabilistic PCA (PPCA) の実装

Open Table of contents

概要
確率的主成分分析 (PPCA)
生成モデルの定式化
解析解による最尤推定
EM アルゴリズムによる最尤推定
- E-step
- M-step
数値シミュレーション

概要

PRML12章の確率的主成分分析 (Probabilistic PCA; PPCA) について解説・実装しました。

確率的主成分分析 (PPCA)

確率的主成分分析（PPCA）は、主成分分析（PCA）をガウス分布に基づく生成モデルとして再定義したものです。

通常のPCAは、データの分散を最大化する軸を求める手法であり、決定論的な手法です。これに対しPPCAは、観測されたデータが低次元の潜在変数の線形変換とガウスノイズによって生成されると仮定し、データから生成モデル（確率分布）のパラメータを推定します。

生成モデルとして定式化することで、尤度に基づくモデルの比較や欠損値の統計的な補完、さらに複数のPPCAを組み合わせた混合モデルへの拡張など、通常のPCAでは難しい拡張が可能になるという利点があります。

生成モデルの定式化

全体の流れを先に話すと、データと潜在変数とパラメータ集合を元に、とが陽に書き下せる状況を仮定します。この後に、潜在変数を積分消去して、パラメータ集合で条件付けられた確率分布を求めます。後は最尤推定法やEMアルゴリズムでパラメータ集合を推定します。

それでは定式化を始めます。観測された次元データが、次元の潜在変数から生成されると仮定します。ただし、は平均、分散（次元の単位行列）の正規分布に従う確率変数です。

具体的には、が以下の線形関係で記述されるとします。

ここで、重み行列はの行列、は次元ベクトル、は平均分散の次元正規分布に従うとします。パラメータ集合はとします。式を見て気づくとは思いますが、は PCA における主成分ベクトルを並べた行列と直交行列（回転）の積のイメージを持つと良いです（後でを最尤推定し、主成分ベクトルとの関係について言及します）。

式の分布からを一点サンプリングして固定したときの条件付き確率は以下のようになります。

次に、式からを積分消去（周辺化）しましょう。

これでが求まりました。次に、個のデータを並べた行列に対する同時確率分布の対数尤度関数を求めます。

解析解による最尤推定

をについて偏微分してが最大となる解を求めます。ここでの式展開のほとんどは The Matrix Cookbook¹ を参考にしました。

1) に関する偏微分

を解くと、

導出の詳細

とおくと、

なので、

かつは正則なので、から結果が得られます。

2) に関する偏微分

先程求めたを式に代入して、

が得られます。ただし、であり、式変形にとを用いました。

行列の微分を計算すると、

となります。

トレースの等式の証明

を示します。

なので成り立ちます。

に関する偏微分の成分計算

途中の式変形でと (参考文献 [2] の(124) 式) を用いました。

と同様にを満たすを求めます。

式を満たすには、である必要があります。この条件を満たす解を求めるために、以下の場合分けを行います：

の場合（自明な解）
、すなわちの場合
それ以外の場合（かつ）

2-1)

は自明な解の一つで、このときの対数尤度は

ここで、

固有値分解
- はの固有値を対角成分に並べた対角行列
- はの対角成分に対応する固有ベクトルを横に並べた行列

を用いました。

2-2)

のとき式は満たされます。このとき

の特異値分解をと書くことにします。ここではユニタリ行列, では対角行列, はユニタリ行列です。この特異値分解から

が得られます。２つの結果を比較すると、

となります。

2-3) かつ

特異値分解したを式に代入すると、

これはの固有値・固有ベクトルの式そのものなのでとなりが得られます。 PRML の式に合わせるようにとの次元を変えると最終的に

が得られます。ここではの固有値を個対角成分に並べた行列で、はの固有ベクトルを個横に並べた行列です。

3) に関する偏微分

とを代入してを解くと、

PPCAの最尤推定まとめ

PRML に書いてあることを整理しました。

全体の計算量は
潜在変数空間は回転不変性を持つ
のとき、の各列 (つまり共分散行列の固有ベクトル ) はでスケール(数値シミュレーションの重み行列の比較で確認)
- から明らか

EM アルゴリズムによる最尤推定

ここでは反復法で最尤推定解を求める方法を説明します。確率分布を導入してを書き直すと、

と書けます。EMアルゴリズムは後述するEステップとMステップを交互に反復することで式を最大化します。の初期値はとします。

式の導出

E-step

ステップ目においてとすると、式の KL 項は 0 になり、

計算する必要があるのはとで、これらは事後分布から求められます。

E-step の詳細な式展開

同時分布を展開すると、

式に代入して期待値を計算すると、

途中でおよびを用いました。

よって、

PRMLではでとしています（の最尤解は解析的にすぐ分かるので妥当だと思います）。

M-step

E-step ではとすることで式の KL 項を 0 にしました。

M-step では式のをについて最大化します。この最大化の過程で KL 項は 0 ではなくなりますが、より対数尤度は大きくなるので問題はありません。式をとについて偏微分すると、

が得られます。

数値シミュレーション

実装したコードは PPCA.ipynb にあります。データは Digits データセット² を使いました。

このデータセットは、データ数、特徴量（次元数）です。主成分の数はに設定して PPCA の最尤推定を行いました。

また、の特異値分解（SVD）を考えると、をと分解できますが、この（次元のユニタリ行列）は任意に選ぶことができます。今回は式をシンプルにするため、を単位行列とみなしました。

PCA と PPCA での潜在表現の比較

データを第一・第二主成分ベクトルに射影した結果を下図に示します。横軸は、縦軸はで、各色はデータのラベルに対応しています。

(a) : の平均を使ってをに変換して最初の2成分をプロット
(b) : を PCA の主成分ベクトルを並べた行列と思って各主成分ベクトルに射影し、最初の2成分をプロット
(c) : PRML通りに自分で実装した PCA を使って第二主成分までプロット
(d) : scipy.decomposition.PCA を使って第二主成分までプロット

(a) と (b) はほとんど同じように見えますが、値のレンジが大きく異なります。これは式を比較すると分かるようにからに変換するときに (a) は標準化されていて (b) はされていないからです。

(c) と (d) を比較すると、原点対称の関係にあることが分かります。これは scipy.decomposition.PCA の処理³の中で、左特異ベクトルを並べたと右特異ベクトルを並べたに対し絶対値が最大の列が常に正になるような符号変換を行うためだと考えられます。

PRMLでも説明されているように、PPCAは潜在空間の回転不変性があるため特に問題にはなりません。

PCA と PPCA での重み行列の比較

PCA の主成分ベクトルを並べた行列と PPCA の重みが対応するので、下図の (a) と (b) に各行列をプロットしました。(c) は縦ベクトルのノルムをプロットしたグラフです。

で計算したため、重み行列の各列ベクトルがでスケールされていることが確認できました。

EM アルゴリズムの解と解析解の比較

の条件下で EM アルゴリズムで得られる解と解析解について対数尤度の比較を行いました。下図は対数尤度の推移を表したグラフで、横軸が EMアルゴリズムの 1 step（E-step と M-step を 1 回実行）で、縦軸が対数尤度です。

EMアルゴリズムにより、の場合は対数尤度が解析解に収束することが確認できました。ただし、の場合は局所解にはまったためか、解析解の対数尤度に収束しない結果となりました。