Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

ベイズ学習: 基礎と応用
ベイズ学習: 基礎と応用
ベイズ学習: 基礎と応用
Ebook186 pages16 minutes

ベイズ学習: 基礎と応用

Rating: 0 out of 5 stars

()

Read preview

About this ebook

ベイジアン学習とは


統計の分野では、期待値最大化 (EM) アルゴリズムは、(局所的な) 最大尤度または事後確率の最大値を発見するための反復的なアプローチです。 (MAP) 統計モデルのパラメーターの推定。モデルは観測されていない潜在変数に依存します。 EM アルゴリズムは、最尤法または最大事後推定 (MAP) 推定としても知られています。 EM 反復の期待値 (E) ステップは、パラメーターの現在の推定値を使用して評価された対数尤度の期待値の関数を作成します。EM 反復の最大化 (M) ステップは、期待値を最大化することを目的としてパラメーターを計算します。 期待ステップで見つかった対数尤度。 これら 2 つのステップは、反復を通じて交互に実行されます。 これらのパラメータ推定値は、後続の E フェーズで利用され、潜在変数の分布を決定する目的で使用されます。


どのようなメリットがあるか


(I) 次のトピックに関する洞察と検証:


第 1 章: 期待値?最大化アルゴリズム


第 2 章: 尤度関数


第 3 章: 最大値 尤度推定


第 4 章: ロジスティック回帰


第 5 章: 指数族


第 6 章: フィッシャー情報


第 7 章: 一般化線形 モデル


第 8 章: 混合モデル


第 9 章: 変分ベイジアン法


第 10 章: EM アルゴリズムと GMM モデル


(II ) ベイズ学習に関する一般のよくある質問に答えます。


(III) 多くの分野でベイズ学習を使用する実際の例。


(IV) 17 の付録で簡単に説明します。 各業界の 266 の新興テクノロジーを取り上げ、ベイジアン学習テクノロジーを 360 度完全に理解できます。


本書の対象者


専門家、学部生、大学院生 学生、愛好家、趣味人、そしてあらゆる種類のベイズ学習について基本的な知識や情報を超えたいと考えている人。


 

Language日本語
Release dateJul 1, 2023
ベイズ学習: 基礎と応用

Read more from Fouad Sabry

Related to ベイズ学習

Titles in the series (100)

View More

Related ebooks

Related articles

Reviews for ベイズ学習

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    ベイズ学習 - Fouad Sabry

    第1章:期待値-最大化アルゴリズム

    観測されていない潜在変数に依存する統計モデル内のパラメータの(局所的な)最尤法または事後推定値(MAP)を見つけるために、統計学者はしばしば期待値最大化(EM)アルゴリズムに目を向けます。EM反復の期待値(E)ステップでは、パラメータの現在の推定値を用いて評価された対数尤度の期待値関数を構築し、最大化(M)ステップでは、期待される対数尤度を最大化するパラメータを計算する。Eステップでは、これらのパラメータ推定値を使用して、潜在変数がどのように分布しているかを調べます。

    1977年に発表された独創的な論文で、アーサー・デンプスター、ナン・レアード、ドナルド・ルービンはEMアルゴリズムについて説明し、名前を付けました。デンプスター、レアード、ルービンによる1977年の論文は、このアプローチを一般化し、より大きな一連の問題の収束分析をスケッチしました。デンプスター、レアード、ルービン(EM)による論文は、統計研究における重要な方法としての地位を固めました。Meng and van Dyk(1997)も考慮してください。

    1983年、C. F. Jeff Wuは正しい収束解析を発表し、デンプスター・レアード・ルービンアルゴリズムの収束解析に欠陥があることを示した。デンプスター・レアードは、EM法が収束するというルービンの主張が成り立ち、ウーは指数族の外でも収束するという証拠を提供した。

    統計モデルの方程式を直接解くことが不可能であることが判明した場合、(ローカル)最尤パラメータを決定するためにEMアルゴリズムが使用されます。これらのモデルには通常、潜在変数、非表示のパラメーター、観測データが含まれます。つまり、データ内の一部の値が欠落しているか、追加の観測されていないデータポイントが存在すると推定することでモデルをより簡潔に表現できます。各観測データ点が観測されていないデータ点または潜在変数に対応すると仮定すると、各データ点が属する混合成分を指定すると、混合モデルの説明が簡単になります。

    最尤解は通常、尤度関数とすべての未知の値、パラメータ、および潜在変数を含む連立方程式系を解くことによって求められます。これは通常、潜在変数を含む統計モデルでは不可能です。パラメータ解はしばしば潜在変数値を必要とし、その逆も同様です。しかし、潜在変数方程式をパラメータ方程式に代入してパラメータ方程式を解こうとすると、難解な連立方程式になります。

    これら2つの連立方程式が数値的に解けるという認識に基づいて、EMアルゴリズムが開発されます。2 つの未知数セットは、一方のセットのランダムな値を選択し、その推定値を使用してもう一方のセットの推定値を改善することで、推定値が同じ固定点に収束するまで個別に推定できます。これが効果的であることはすぐには明らかではありませんが、ここで実証することができます。また、尤度導関数がその点で(非常にほぼ)ゼロであり、それが極大値または鞍点のいずれかであることを示すこともできます。グローバル最大値が検出される保証はなく、複数の最大値が可能です。特異点、または非論理的な最大値は、特定の確率にも見られます。たとえば、混合モデルのEMは、1つの成分の分散がゼロで、同じ成分の平均パラメータがデータ点の1つに等しい解を見つけることができます。

    観測データのセット、観測されていない潜在データのセットまたは欠損値、 \mathbf {X} および未知のパラメータのベクトルを尤度 \mathbf {Z} 関数とともに {\boldsymbol {\theta }} 生成する統計モデルが与えられた {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})} 場合、可能な限り高いMLEで未知のパラメータを推定することは、データの限界尤度を最大化することを含む。

    {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }})p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} }

    しかし、この量は観察されず、達成する前にの分布 \mathbf {Z} が不明であるため \mathbf {Z} 、しばしば手に負えない {\boldsymbol {\theta }} 。

    EMアルゴリズムは、次の2つの手順を反復的に使用して、周辺尤度のMLEを決定します。

    期待値ステップ(Eステップ):与えられた {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})} パラメータの現在の条件付き分布と現在の推定値 {\boldsymbol {\theta }} に関して、 の \mathbf {Z} 対数尤度関数の期待値として \mathbf {X} 定義します \boldsymbol\theta^{(t)} 。

    {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \sim p(\cdot |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})\right]\,}

    これらのコントロールの最適値を見つけることは、最大化ステップ(Mステップ)を構成します。

    {\displaystyle {\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,}

    それは単一の方程式としてより簡単に表すことができます:

    {\displaystyle {\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\operatorname {E} _{\mathbf {Z} \sim p(\cdot |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})}\left[\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})\right]\,}

    EMが適用される典型的なモデルは \mathbf {Z} 、一連のグループの1つのメンバーシップを示す潜在変数として使用されます。

    観測されたデータポイントは \mathbf {X} 、離散(有限または可算無限セットの値を取る)または連続(数え切れないほど無限のセットで値を取る)です。

    各データポイントには、観測値のベクトルが付随している可能性があります。

    欠損値(別名潜在変数) \mathbf {Z} は離散的であり、所定の範囲から選択され、データポイントごとに1つの潜在変数のみが選択されます。

    連続パラメータには、すべてのデータポイントに適用されるパラメータと、潜在変数の単一の値にのみ適用されるパラメータ(つまり、対応する潜在変数がその値を持つすべてのデータポイントに関連付けられたパラメータ)の2種類があります。

    ただし、EMはさまざまなタイプのモデルで使用できます。

    その理由は次のとおりです。

    パラメータの値がわかっている場合 {\boldsymbol {\theta }} 、通常、潜在変数の値は、 \mathbf {Z} のすべての可能な値にわたって対数尤度を最大化することによって、 \mathbf {Z} または隠れマルコフモデルのためのビタビアルゴリズムなどのアルゴリズムを \mathbf {Z} 反復することによって見つけることができます。

    逆に、潜在変数の値を知っていれば、 \mathbf {Z} パラメータの推定値を {\boldsymbol {\theta }} かなり簡単に見つけることができます。 通常、これは、各カテゴリ内の値、パーセンテージに基づくメトリックではなく、対応する潜在変数の値に基づいて観測されたデータポイントの値をグループに平均することによって行われます。.

    これは、ループを持つアルゴリズムを指し、両方が不明な場合: {\boldsymbol {\theta }} \mathbf {Z}

    まず、パラメータを {\boldsymbol {\theta }} ランダムな値に初期化します。

    与えられた の \mathbf {Z} 可能な各値の確率を計算します {\boldsymbol {\theta }} 。

    次に、 を計算したばかりの値を使用して、 \mathbf {Z} パラメーターのより適切な推定値を計算します {\boldsymbol {\theta }} 。

    収束に達するまで、手順 2 と 3 を繰り返します。

    ここで説明したアルゴリズムは、コスト関数の最小値に単調に収束します。

    EM反復中に追加情報が収集されるが(すなわち、(限界尤度、シーケンスが必然的に最尤推定値に達するという保証はない。

    複数のモードを持つ分布の場合、 つまり、観測データの尤度関数は、EMアルゴリズムを使用すると、初期条件に関して極大値に収束する可能性があります。

    ランダムリスタート山登り(いくつかの異なるランダム初期推定値から開始)や、シミュレーテッドアニーリングなどの手法の使用 \boldsymbol\theta^{(t)} など、局所的な最大値から抜け出すためのさまざまなヒューリスティックおよびメタヒューリスティック戦略が存在します。

    EMとその応用の詳細については、Sundberg(2019、第8章)を参照してください。EMは、尤度が指数族に属する場合に優れています。

    元の論文では、デンプスター、レアード、ルービンはEM手法を採用して、ベイズ推定の最大事後推定値(MAP)を計算しました。

    最尤推定値を見つけるためのガウス-ニュートンアルゴリズムの代替案には、勾配降下法、共役勾配などがあります。EMとは対照的に、これらの手法では、尤度関数の一次導関数および/または二次導関数を計算する必要があることがよくあります。

    期待-最大化は、直接改善するのではなく、改善するように働きます {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})} {\displaystyle \log p(\mathbf {X} \mid {\boldsymbol {\theta }})} 。

    ここでは、前者を強化すると必然的に後者が向上することを示します。

    確率がゼロでない \mathbf {Z} ものに対して {\displaystyle p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})}

    Enjoying the preview?
    Page 1 of 1