Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

単純ベイズ分類器: 基礎と応用
単純ベイズ分類器: 基礎と応用
単純ベイズ分類器: 基礎と応用
Ebook142 pages11 minutes

単純ベイズ分類器: 基礎と応用

Rating: 0 out of 5 stars

()

Read preview

About this ebook

ナイーブ ベイズ分類器とは


統計の分野では、ナイーブ ベイズ分類器は、ベイズの定理の適用から導出される直接的な「確率的分類器」のファミリーです。 特徴間の独立性についての強力な (単純な) 仮定を使用します。 これらは最も単純なベイジアン ネットワーク モデルの 1 つですが、カーネル密度の推定と組み合わせると、優れたレベルの精度を達成できます。


メリット


(I) 次のトピックに関する洞察と検証:


第 1 章: 単純ベイズ分類器


第 2 章: 尤度関数


第 3: ベイズの定理


第 4 章: ベイズ推論


第 5 章: 多変量正規分布


第 6 章: 最尤推定


第 7 章: ベイジアン ネットワーク


第 8 章: 単純ベイズ スパム フィルタリング


第 9 章: 限界尤度


第 10 章: ディリクレ分布


(II) 単純ベイズ分類器に関する一般のよくある質問に答える。


(III) 多くの分野での単純ベイズ分類器の実際の使用例。


(IV) 17 の付録 単純ベイズ分類器のテクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明します。


この本の対象者


専門家、大学生、大学院生、愛好家、趣味人、そしてあらゆる種類の単純ベイズ分類器に関する基本的な知識や情報を超えたいと考えている人。


 

Language日本語
Release dateJun 23, 2023
単純ベイズ分類器: 基礎と応用

Read more from Fouad Sabry

Related to 単純ベイズ分類器

Titles in the series (100)

View More

Related ebooks

Reviews for 単純ベイズ分類器

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    単純ベイズ分類器 - Fouad Sabry

    第 1 章: 単純ベイズ分類器

    統計学における「素朴ベイズ分類器」として知られる単純な「確率的分類器」のファミリーは、特徴間の強い(素朴な)独立性の仮定を持つベイズの定理の適用に基づいています(ベイズ分類器を参照)。最も簡単なベイジアンネットワークモデルの1つはこれです、ナイーブベイズ分類器のスケーラビリティは優れており、変数(特徴/予測変数)の数が線形である学習タスクで多数のパラメータを必要とします。

    最尤トレーニングは、他の多くのタイプの分類器のようにコストのかかる反復近似を使用する代わりに、線形時間がかかる閉形式の式:718を評価することによって行うことができます。

    単純ベイズと独立ベイズは、統計学の文献に見られる素朴なベイズモデルの2つの名前です。

    単純ベイズは、分類子を構築するための簡単な方法です。これらのモデルは、特徴値のベクトルとして表される問題ケースにクラスラベルを割り当て、クラスラベルは有限集合から選択されます。このような分類子をトレーニングするために、単一の手法ではなく、クラス変数が与えられた場合、1つの特徴の値が他のすべての特徴値から独立していることを前提に構築されたアルゴリズムのファミリがあります。たとえば、果物が赤く、丸く、直径が約10 cmの場合、リンゴと見なすことができます。色、真円度、直径の変数間の潜在的な関係に関係なく、単純ベイズ分類器は、これらの特徴のそれぞれがこの果物がリンゴである可能性に独立して寄与すると仮定します。

    単純ベイズモデルのパラメータ推定では最尤法が頻繁に使用されるため、ベイズ確率を採用したり、ベイズ法を利用したりすることなく、単純ベイズモデルを操作できます。

    単純ベイズ分類器は、その単純な設計と表面上は過度に単純化された仮定にもかかわらず、さまざまな困難な現実世界の状況で見事に機能しました。2004年のベイズ分類問題の調査では、素朴ベイズ分類器の一見ありそうもない有効性が、優れた理論的正当性によって裏付けられていることが明らかになりました。

    抽象的には、単純ベイズは条件付き確率モデルです:いくつかの {\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})} n個の特徴(独立変数)をエンコードするベクトルで表される、分類される問題インスタンスが与えられた C_{k} K {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})} 個の可能な結果またはクラスのそれぞれに確率を割り当てます。

    前述の定式化の問題は、特徴の数 n が大きい場合、または特徴が広範囲の値を取ることができる場合、確率表に基づいてこのようなモデルを構築することは実用的ではないということです。モデルをより管理しやすくするには、モデルを再定式化する必要があります。条件付き確率は、ベイズの定理を使用して次のように分解できます。

    {\displaystyle p(C_{k}\mid \mathbf {x} )={\frac {p(C_{k})\ p(\mathbf {x} \mid C_{k})}{p(\mathbf {x} )}}\,}

    前述の式は、ベイズ確率の用語を簡単な英語で使用して次のように表すことができます。

    {\displaystyle {\text{posterior}}={\frac {{\text{prior}}\times {\text{likelihood}}}{\text{evidence}}}\,}

    実際には、 そのような分数の分子のみが対象です、分母は依存せず、 C 特徴の値が x_{i} 与えられるので、分母は実質的に一定のままです。

    結合確率モデルは分子と同等です。

    {\displaystyle p(C_{k},x_{1},\ldots ,x_{n})\,}

    したがって、条件付き確率の概念を繰り返し適用すると、次のように再定式化できます。

    {\displaystyle {\begin{aligned}p(C_{k},x_{1},\ldots ,x_{n})&=p(x_{1},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\ p(x_{3},\ldots ,x_{n},C_{k})\\&=\cdots \\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\cdots p(x_{n-1}\mid x_{n},C_{k})\ p(x_{n}\mid C_{k})\ p(C_{k})\\\end{aligned}}}

    ここで、「素朴な」条件付き独立性の仮定が作用します:のすべての機能が相互に独立していると仮定 \mathbf {x} し、カテゴリを条件とします C_{k} 。

    この仮定に基づいて、

    {\displaystyle p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,}

    .

    したがって、ジョイントモデルは次のように書くことができます。

    {\displaystyle {\begin{aligned}p(C_{k}\mid x_{1},\ldots ,x_{n})&\varpropto p(C_{k},x_{1},\ldots ,x_{n})\\&\varpropto p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\&\varpropto p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,,\end{aligned}}}

    ここで、 {\displaystyle \varpropto } は比例を示します。

    したがって、前述の独立性の仮定を考えると、クラス変数に対する条件付き分布 C は次のようになります。

    {\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})}

    ここで、証拠

    {\displaystyle Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})}

    は にのみ依存するスケーリング係数、 x_{1},\ldots ,x_{n} つまり特徴変数の値がわかっている場合は定数です。

    独立特徴モデルは、これまでの会話から、つまり確率の単純なベイズモデルから作成されました。

    このモデルと決定ルールは、単純ベイズ分類器によって結合されます。

    誤分類の可能性を減らすために、よくあるアプローチは、最も可能性の高い仮説を選択することです。事後決定規則、またはMAP決定規則の最大値は、これを指します。

    関連する分類子、ベイズを使用する分類器は、次のようにいくつかのkにクラスラベルを割り当てる関数です {\hat {y}}=C_{k} 。

    {\displaystyle {\hat {y}}={\underset {k\in \{1,\ldots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).}

    クラスの先行詞は、等確率クラスを仮定することによって、すなわち、 {\displaystyle p(C_{k})={\frac {1}{K}}} 、またはトレーニングセットからのデータを使用してクラス確率を推定することによって決定できます。

    {\displaystyle {\text{prior for a given class}}={\frac {\text{no. of samples in that class}}{\text{total no. of samples}}}\,}

    特徴量の分布のパラメータを推定するには、分布について仮定するか、トレーニングセットから特徴のノンパラメトリックモデルを作成する必要があります。

    継続的に更新されるデータを利用する場合、一般的な推定は、各クラスの連続値が正規(またはガウス)分布に従って分布していることです。

    たとえば、トレーニング データに連続属性があるとします x 。

    クラスは、最初にデータをセグメント化するために使用され、次に x 各クラスでの平均と分散が計算されます。

    をクラスに関連付けられた値の平均 \mu _{k} とし、 x クラス C_{k} に関連付けられた {\displaystyle \sigma _{k}^{2}} 値のベッセル補正分散 x とします C_{k} 。

    ある観測値を収集したとします v 。

    次に、与えられたクラス、すなわち v の確率密度 C_{k} は、 {\displaystyle p(x=v\mid C_{k})} と v でパラメータ化された正規分布の方程式に \mu _{k} 代入することによって計算できます {\displaystyle \sigma _{k}^{2}} 。

    正式には

    {\displaystyle p(x=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{k}^{2}}}}\,e^{-{\frac {(v-\mu _{k})^{2}}{2\sigma _{k}^{2}}}}}

    ビニングを使用してフィーチャ値を分離し、ベルヌーイ分布フィーチャの新しいセットを作成することも、連続データを処理するための一般的な方法です。いくつかの文献によると、素朴なベイズを採用するためにはそうする必要がありますが、離散化は識別情報を破棄する可能性があるため、これは真実ではありません。

    多項イベントモデルが使用され、サンプル(特徴ベクトル)は、特定のイベントが多項によって生成された頻度を表し、イベント (p_1, \dots, p_n) p_{i} iが発生する確率(または多クラスの場合はKなどの多項式)です。

    特徴ベクトル {\mathbf {x}}=(x_{1},\dots ,x_{n}) はヒストグラムであり、 x_{i} 特定のインスタンスでイベントiが観測された回数をカウント します。

    ドキュメント分類に一般的に使用されるイベント モデルは、1 つのドキュメント内の用語が出現する場所を示すイベントを使用して、次のようになります (単語の仮定のバッグを参照)。

    によって与えられるのは、xのヒストグラムが表示される可能性です。

    {\displaystyle p(\mathbf {x} \mid C_{k})={\frac {(\sum _{i=1}^{n}x_{i})!}{\prod _{i=1}^{n}x_{i}!}}\prod _{i=1}^{n}{p_{ki}}^{x_{i}}}

    ここで {\displaystyle p_{ki}:=p(x_{i}\mid C_{k})} 。

    対数空間で記述すると、多項単純ベイズ分類器は線形分類器に変換されます。

    {\displaystyle {\begin{aligned}\log p(C_{k}\mid \mathbf {x} )&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}^{x_{i}}\right)\\&=\log p(C_{k})+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\\&=b+\mathbf {w} _{k}^{\top }\mathbf {x} \end{aligned}}}

    ここで b=\log p(C_{k}) 、. w_{{ki}}=\log p_{{ki}}

    確率推定値は特徴値の頻度と逆相関するため、特定のクラスと特徴値がトレーニング データ内で一緒に発生しない場合、頻度ベースの確率推定値はゼロになります。他の確率が複合されると、それらのすべての情報が消去されるため、これは厄介です。確率が正確にゼロに設定されることはないため、すべての確率計算に擬似カウントと呼ばれる小さなサンプル補正を含めることがしばしば有利です。疑似カウントが 1 の場合、ナイーブベイズを正則化するこの方法はラプラス平滑化として知られています。一般的な状況では、それはリッドストーンスムージングとして知られています。

    サポートベクターマシンと競合する素朴なベイズ分類器を作成するために、Rennieらは、文書分類の文脈における多項仮定の問題と、生の用語頻度の代わりにtf-idf重みを使用することや文書長の正規化など、潜在的な解決策について議論します。

    多変量ベルヌーイイベントモデルに関しては、特性は個別のブール(バイナリ)変数を使用して入力を記述します。

    多項モデルに匹敵し、 文書分類に関連する問題では、このパラダイムが一般的であり、用語頻度ではなくバイナリ用語の出現特性が使用されます。

    が語彙からのi x_{i} 番目の用語の出現または不在を表すブール値である場合、クラスが与えられた文書の尤度 C_{k} は次式で与えられます。

    {\displaystyle p(\mathbf {x} \mid C_{k})=\prod _{i=1}^{n}p_{ki}^{x_{i}}(1-p_{ki})^{(1-x_{i})}}

    ここで p_{{ki}} 、 はクラスが C_{k} 項を生成する確率です x_{i} 。

    このイベント モデルは、短いメッセージを分類する場合に特に適しています。

    単語の不在を直接モデル化できるという利点があります。

    頻度カウントが 1 にトリミングされた多項 NB 分類器は、ベルヌーイ イベント モデルを持つ単純ベイズ分類器と同じではないことに注意してください。

    ラベル付きデータから単純なベイズ分類器をトレーニングする方法が与えられた教師あり学習アルゴリズムを繰り返し実行することにより、ラベル付きデータとラベルなしデータの両方から学習できる半教師ありトレーニング方法を作成することが可能です。

    ラベル付きサンプル D = L \uplus U L とラベルなしサンプル U のコレクションが与えられた場合、まず、L で基本的なベイズ分類器をトレーニングします。

    次の期限までマージしないでください。

    のすべての例 {\displaystyle P(C\mid x)} x のクラス確率を予測 D します。

    前のフェーズの予測確率 (ラベルではない) を使用してモデルを再トレーニングします。

    収束は、モデルの尤度の改善に基づいて決定されます {\displaystyle P(D\mid \theta )} ここで \theta 、はナイーブベイズモデルのパラメータを示します。

    ループ内の予測ステップは期待値最大化アルゴリズム(EM)のEステップですが、ナイーブベイズの再トレーニングはMステップです。このトレーニングプロセスは、より一般的な期待値最大化アルゴリズム(EM)の一例です。データが混合モデルによって生成され、この混合モデルを構成するクラスが分類問題のクラスとまったく同じであるという仮定は、手順を正式に正当化するために使用されます。

    単純ベイズ分類器には、広範囲にわたる独立性の仮定がしばしば間違っているという事実にもかかわらず、実際には予想外に役立つ多くの特性があります。特に、各分布は、クラスの条件付き特徴分布の分離により、1次元分布として独立して推定できます。これにより、次元の呪いによって引き起こされる課題の1つである特性の数とともに指数関数的にサイズが増加するデータセットの要件が軽減されます。ナイーブベイズは適切なクラス確率の適切な推定値を生成できないことが多いという事実にもかかわらず、ナイーブベイズ分類器の明らかな有効性に関する他の説明は、以下に参照される文献でカバーされています。

    離散入力(離散事象の指標または頻度特徴)を扱う場合、単純ベイズ分類器は多項ロジスティック回帰分類器と生成識別ペアを形成する:各単純ベイズ分類器は、結合尤度を最適化する確率モデルを適合させる方法と考えることができ

    Enjoying the preview?
    Page 1 of 1