単純ベイズ分類器: 基礎と応用
By Fouad Sabry
()
About this ebook
ナイーブ ベイズ分類器とは
統計の分野では、ナイーブ ベイズ分類器は、ベイズの定理の適用から導出される直接的な「確率的分類器」のファミリーです。 特徴間の独立性についての強力な (単純な) 仮定を使用します。 これらは最も単純なベイジアン ネットワーク モデルの 1 つですが、カーネル密度の推定と組み合わせると、優れたレベルの精度を達成できます。
メリット
(I) 次のトピックに関する洞察と検証:
第 1 章: 単純ベイズ分類器
第 2 章: 尤度関数
第 3: ベイズの定理
第 4 章: ベイズ推論
第 5 章: 多変量正規分布
第 6 章: 最尤推定
第 7 章: ベイジアン ネットワーク
第 8 章: 単純ベイズ スパム フィルタリング
第 9 章: 限界尤度
第 10 章: ディリクレ分布
(II) 単純ベイズ分類器に関する一般のよくある質問に答える。
(III) 多くの分野での単純ベイズ分類器の実際の使用例。
(IV) 17 の付録 単純ベイズ分類器のテクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明します。
この本の対象者
専門家、大学生、大学院生、愛好家、趣味人、そしてあらゆる種類の単純ベイズ分類器に関する基本的な知識や情報を超えたいと考えている人。
Read more from Fouad Sabry
ロボット工学における新興技術 [Japanese]
Related to 単純ベイズ分類器
Titles in the series (100)
畳み込みニューラル ネットワーク: 視覚的な画像を分析するための基礎と応用 Rating: 0 out of 5 stars0 ratings放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用 Rating: 0 out of 5 stars0 ratingsパーセプトロン: 神経ビルディングブロックの基礎と応用 Rating: 0 out of 5 stars0 ratings統計的分類: 基礎と応用 Rating: 0 out of 5 stars0 ratingsリカレント ニューラル ネットワーク: シンプルなアーキテクチャからゲート付きアーキテクチャまでの基礎と応用 Rating: 0 out of 5 stars0 ratingsサポートベクターマシン: 基礎と応用 Rating: 0 out of 5 stars0 ratings競争学習: 競争による強化学習の基礎と応用 Rating: 0 out of 5 stars0 ratingsインテリジェントディストリビューションエージェントの学習: 基礎と応用 Rating: 0 out of 5 stars0 ratings制限付きボルツマンマシン: 人工知能の隠れた層を解明するための基礎と応用 Rating: 0 out of 5 stars0 ratings人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用 Rating: 0 out of 5 stars0 ratings位置特定型人工知能: インテリジェンスとアクションを統合するための基礎と応用 Rating: 0 out of 5 stars0 ratingsヘビアン学習: 記憶と学習を統合するための基礎と応用 Rating: 0 out of 5 stars0 ratings多層パーセプトロン: ニューラル ネットワークをデコードするための基礎と応用 Rating: 0 out of 5 stars0 ratings包含アーキテクチャ: 行動ベースのロボティクスと反応制御の基礎と応用 Rating: 0 out of 5 stars0 ratings長短期記憶: シーケンス予測の基礎と応用 Rating: 0 out of 5 stars0 ratingsフィードフォワード ニューラル ネットワーク: 思考機械とニューラルウェブのアーキテクチャの基礎と応用 Rating: 0 out of 5 stars0 ratings誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用 Rating: 0 out of 5 stars0 ratingsバイオにインスピレーションを得たコンピューティング: デジタル世界での生物学的インスピレーションの基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブリッド ニューラル ネットワーク: 生物学的ニューラルネットワークと人工ニューロンモデルの相互作用の基礎と応用 Rating: 0 out of 5 stars0 ratings神経進化: 神経進化で人間の知性を超えるための基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知: 基礎と応用 Rating: 0 out of 5 stars0 ratingsファジーシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsホップフィールドネットワークス: 記憶を保存するニューラルネットワークの基礎と応用 Rating: 0 out of 5 stars0 ratingsアトラクターネットワーク: 計算神経科学の基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知科学: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工免疫システム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブリッドインテリジェントシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsデータ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用 Rating: 0 out of 5 stars0 ratingsエージェントのアーキテクチャ: 基礎と応用 Rating: 0 out of 5 stars0 ratingsマルチエージェントシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratings
Related ebooks
ベイズ学習: 基礎と応用 Rating: 0 out of 5 stars0 ratings制約満足度: 基礎と応用 Rating: 0 out of 5 stars0 ratingsサットプラン: 基礎と応用 Rating: 0 out of 5 stars0 ratings山登り: 基礎と応用 Rating: 0 out of 5 stars0 ratingsオブジェクト指向プログラミングの継承: 基礎と応用 Rating: 0 out of 5 stars0 ratings生産システム: 基礎と応用 Rating: 0 out of 5 stars0 ratings放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用 Rating: 0 out of 5 stars0 ratings検索アルゴリズム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsアルゴリズムの確率: 基礎と応用 Rating: 0 out of 5 stars0 ratingsヒストグラム均等化: 画像のコントラストを強化して視覚認識を強化 Rating: 0 out of 5 stars0 ratingsK最近隣アルゴリズム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsスケール不変特徴量変換: コンピューター ビジョンにおけるスケール不変特徴量変換の力を明らかにする Rating: 0 out of 5 stars0 ratings意思決定支援システム: 賢い選択の芸術と科学の基礎と応用 Rating: 0 out of 5 stars0 ratings画像の分割: ピクセル精度を通じて洞察を引き出す Rating: 0 out of 5 stars0 ratingsカーネルメソッド: 基礎と応用 Rating: 0 out of 5 stars0 ratingsバッグ・オブ・ワーズ・モデル: 言葉の入った袋 で視覚的知性を解き放つ Rating: 0 out of 5 stars0 ratingsサポートベクターマシン: 基礎と応用 Rating: 0 out of 5 stars0 ratings比較経済システム: 比較経済システム、イデオロギーの舵取り、選択の強化 Rating: 0 out of 5 stars0 ratingsカルマンフィルター: 基礎と応用 Rating: 0 out of 5 stars0 ratingsファジーシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratings流暢な微積分: 基礎と応用 Rating: 0 out of 5 stars0 ratings都市経済学: 都市景観をナビゲートする、都市経済学の総合ガイド Rating: 0 out of 5 stars0 ratingsスクリプト理論: 基礎と応用 Rating: 0 out of 5 stars0 ratings実践学: 人間の行動と経済をナビゲートする実践学が明らかに Rating: 0 out of 5 stars0 ratingsデータ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用 Rating: 0 out of 5 stars0 ratingsドレフュス批評: 基礎と応用 Rating: 0 out of 5 stars0 ratings限界論理: 基礎と応用 Rating: 0 out of 5 stars0 ratingsアルゴリズム情報理論: 基礎と応用 Rating: 0 out of 5 stars0 ratings社会経済学: 社会経済学の解明、社会と経済の複雑な網目をナビゲートする Rating: 0 out of 5 stars0 ratings多層パーセプトロン: ニューラル ネットワークをデコードするための基礎と応用 Rating: 0 out of 5 stars0 ratings
Reviews for 単純ベイズ分類器
0 ratings0 reviews
Book preview
単純ベイズ分類器 - Fouad Sabry
第 1 章: 単純ベイズ分類器
統計学における「素朴ベイズ分類器」として知られる単純な「確率的分類器」のファミリーは、特徴間の強い(素朴な)独立性の仮定を持つベイズの定理の適用に基づいています(ベイズ分類器を参照)。最も簡単なベイジアンネットワークモデルの1つはこれです、ナイーブベイズ分類器のスケーラビリティは優れており、変数(特徴/予測変数)の数が線形である学習タスクで多数のパラメータを必要とします。
最尤トレーニングは、他の多くのタイプの分類器のようにコストのかかる反復近似を使用する代わりに、線形時間がかかる閉形式の式:718を評価することによって行うことができます。
単純ベイズと独立ベイズは、統計学の文献に見られる素朴なベイズモデルの2つの名前です。
単純ベイズは、分類子を構築するための簡単な方法です。これらのモデルは、特徴値のベクトルとして表される問題ケースにクラスラベルを割り当て、クラスラベルは有限集合から選択されます。このような分類子をトレーニングするために、単一の手法ではなく、クラス変数が与えられた場合、1つの特徴の値が他のすべての特徴値から独立していることを前提に構築されたアルゴリズムのファミリがあります。たとえば、果物が赤く、丸く、直径が約10 cmの場合、リンゴと見なすことができます。色、真円度、直径の変数間の潜在的な関係に関係なく、単純ベイズ分類器は、これらの特徴のそれぞれがこの果物がリンゴである可能性に独立して寄与すると仮定します。
単純ベイズモデルのパラメータ推定では最尤法が頻繁に使用されるため、ベイズ確率を採用したり、ベイズ法を利用したりすることなく、単純ベイズモデルを操作できます。
単純ベイズ分類器は、その単純な設計と表面上は過度に単純化された仮定にもかかわらず、さまざまな困難な現実世界の状況で見事に機能しました。2004年のベイズ分類問題の調査では、素朴ベイズ分類器の一見ありそうもない有効性が、優れた理論的正当性によって裏付けられていることが明らかになりました。
抽象的には、単純ベイズは条件付き確率モデルです:いくつかの {\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})} n個の特徴(独立変数)をエンコードするベクトルで表される、分類される問題インスタンスが与えられた C_{k} K {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})} 個の可能な結果またはクラスのそれぞれに確率を割り当てます。
前述の定式化の問題は、特徴の数 n が大きい場合、または特徴が広範囲の値を取ることができる場合、確率表に基づいてこのようなモデルを構築することは実用的ではないということです。モデルをより管理しやすくするには、モデルを再定式化する必要があります。条件付き確率は、ベイズの定理を使用して次のように分解できます。
{\displaystyle p(C_{k}\mid \mathbf {x} )={\frac {p(C_{k})\ p(\mathbf {x} \mid C_{k})}{p(\mathbf {x} )}}\,}前述の式は、ベイズ確率の用語を簡単な英語で使用して次のように表すことができます。
{\displaystyle {\text{posterior}}={\frac {{\text{prior}}\times {\text{likelihood}}}{\text{evidence}}}\,}実際には、 そのような分数の分子のみが対象です、分母は依存せず、 C 特徴の値が x_{i} 与えられるので、分母は実質的に一定のままです。
結合確率モデルは分子と同等です。
{\displaystyle p(C_{k},x_{1},\ldots ,x_{n})\,}したがって、条件付き確率の概念を繰り返し適用すると、次のように再定式化できます。
{\displaystyle {\begin{aligned}p(C_{k},x_{1},\ldots ,x_{n})&=p(x_{1},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\ p(x_{3},\ldots ,x_{n},C_{k})\\&=\cdots \\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\cdots p(x_{n-1}\mid x_{n},C_{k})\ p(x_{n}\mid C_{k})\ p(C_{k})\\\end{aligned}}}ここで、「素朴な」条件付き独立性の仮定が作用します:のすべての機能が相互に独立していると仮定 \mathbf {x} し、カテゴリを条件とします C_{k} 。
この仮定に基づいて、
{\displaystyle p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,}.
したがって、ジョイントモデルは次のように書くことができます。
{\displaystyle {\begin{aligned}p(C_{k}\mid x_{1},\ldots ,x_{n})&\varpropto p(C_{k},x_{1},\ldots ,x_{n})\\&\varpropto p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\&\varpropto p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,,\end{aligned}}}ここで、 {\displaystyle \varpropto } は比例を示します。
したがって、前述の独立性の仮定を考えると、クラス変数に対する条件付き分布 C は次のようになります。
{\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})}ここで、証拠
{\displaystyle Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})}は にのみ依存するスケーリング係数、 x_{1},\ldots ,x_{n} つまり特徴変数の値がわかっている場合は定数です。
独立特徴モデルは、これまでの会話から、つまり確率の単純なベイズモデルから作成されました。
このモデルと決定ルールは、単純ベイズ分類器によって結合されます。
誤分類の可能性を減らすために、よくあるアプローチは、最も可能性の高い仮説を選択することです。事後決定規則、またはMAP決定規則の最大値は、これを指します。
関連する分類子、ベイズを使用する分類器は、次のようにいくつかのkにクラスラベルを割り当てる関数です {\hat {y}}=C_{k} 。
{\displaystyle {\hat {y}}={\underset {k\in \{1,\ldots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).}クラスの先行詞は、等確率クラスを仮定することによって、すなわち、 {\displaystyle p(C_{k})={\frac {1}{K}}} 、またはトレーニングセットからのデータを使用してクラス確率を推定することによって決定できます。
{\displaystyle {\text{prior for a given class}}={\frac {\text{no. of samples in that class}}{\text{total no. of samples}}}\,}特徴量の分布のパラメータを推定するには、分布について仮定するか、トレーニングセットから特徴のノンパラメトリックモデルを作成する必要があります。
継続的に更新されるデータを利用する場合、一般的な推定は、各クラスの連続値が正規(またはガウス)分布に従って分布していることです。
たとえば、トレーニング データに連続属性があるとします x 。
クラスは、最初にデータをセグメント化するために使用され、次に x 各クラスでの平均と分散が計算されます。
をクラスに関連付けられた値の平均 \mu _{k} とし、 x クラス C_{k} に関連付けられた {\displaystyle \sigma _{k}^{2}} 値のベッセル補正分散 x とします C_{k} 。
ある観測値を収集したとします v 。
次に、与えられたクラス、すなわち v の確率密度 C_{k} は、 {\displaystyle p(x=v\mid C_{k})} と v でパラメータ化された正規分布の方程式に \mu _{k} 代入することによって計算できます {\displaystyle \sigma _{k}^{2}} 。
正式には
{\displaystyle p(x=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{k}^{2}}}}\,e^{-{\frac {(v-\mu _{k})^{2}}{2\sigma _{k}^{2}}}}}ビニングを使用してフィーチャ値を分離し、ベルヌーイ分布フィーチャの新しいセットを作成することも、連続データを処理するための一般的な方法です。いくつかの文献によると、素朴なベイズを採用するためにはそうする必要がありますが、離散化は識別情報を破棄する可能性があるため、これは真実ではありません。
多項イベントモデルが使用され、サンプル(特徴ベクトル)は、特定のイベントが多項によって生成された頻度を表し、イベント (p_1, \dots, p_n) p_{i} iが発生する確率(または多クラスの場合はKなどの多項式)です。
特徴ベクトル {\mathbf {x}}=(x_{1},\dots ,x_{n}) はヒストグラムであり、 x_{i} 特定のインスタンスでイベントiが観測された回数をカウント します。
ドキュメント分類に一般的に使用されるイベント モデルは、1 つのドキュメント内の用語が出現する場所を示すイベントを使用して、次のようになります (単語の仮定のバッグを参照)。
によって与えられるのは、xのヒストグラムが表示される可能性です。
{\displaystyle p(\mathbf {x} \mid C_{k})={\frac {(\sum _{i=1}^{n}x_{i})!}{\prod _{i=1}^{n}x_{i}!}}\prod _{i=1}^{n}{p_{ki}}^{x_{i}}}ここで {\displaystyle p_{ki}:=p(x_{i}\mid C_{k})} 。
対数空間で記述すると、多項単純ベイズ分類器は線形分類器に変換されます。
{\displaystyle {\begin{aligned}\log p(C_{k}\mid \mathbf {x} )&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}^{x_{i}}\right)\\&=\log p(C_{k})+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\\&=b+\mathbf {w} _{k}^{\top }\mathbf {x} \end{aligned}}}ここで b=\log p(C_{k}) 、. w_{{ki}}=\log p_{{ki}}
確率推定値は特徴値の頻度と逆相関するため、特定のクラスと特徴値がトレーニング データ内で一緒に発生しない場合、頻度ベースの確率推定値はゼロになります。他の確率が複合されると、それらのすべての情報が消去されるため、これは厄介です。確率が正確にゼロに設定されることはないため、すべての確率計算に擬似カウントと呼ばれる小さなサンプル補正を含めることがしばしば有利です。疑似カウントが 1 の場合、ナイーブベイズを正則化するこの方法はラプラス平滑化として知られています。一般的な状況では、それはリッドストーンスムージングとして知られています。
サポートベクターマシンと競合する素朴なベイズ分類器を作成するために、Rennieらは、文書分類の文脈における多項仮定の問題と、生の用語頻度の代わりにtf-idf重みを使用することや文書長の正規化など、潜在的な解決策について議論します。
多変量ベルヌーイイベントモデルに関しては、特性は個別のブール(バイナリ)変数を使用して入力を記述します。
多項モデルに匹敵し、 文書分類に関連する問題では、このパラダイムが一般的であり、用語頻度ではなくバイナリ用語の出現特性が使用されます。
が語彙からのi x_{i} 番目の用語の出現または不在を表すブール値である場合、クラスが与えられた文書の尤度 C_{k} は次式で与えられます。
{\displaystyle p(\mathbf {x} \mid C_{k})=\prod _{i=1}^{n}p_{ki}^{x_{i}}(1-p_{ki})^{(1-x_{i})}}ここで p_{{ki}} 、 はクラスが C_{k} 項を生成する確率です x_{i} 。
このイベント モデルは、短いメッセージを分類する場合に特に適しています。
単語の不在を直接モデル化できるという利点があります。
頻度カウントが 1 にトリミングされた多項 NB 分類器は、ベルヌーイ イベント モデルを持つ単純ベイズ分類器と同じではないことに注意してください。
ラベル付きデータから単純なベイズ分類器をトレーニングする方法が与えられた教師あり学習アルゴリズムを繰り返し実行することにより、ラベル付きデータとラベルなしデータの両方から学習できる半教師ありトレーニング方法を作成することが可能です。
ラベル付きサンプル D = L \uplus U L とラベルなしサンプル U のコレクションが与えられた場合、まず、L で基本的なベイズ分類器をトレーニングします。
次の期限までマージしないでください。
のすべての例 {\displaystyle P(C\mid x)} x のクラス確率を予測 D します。
前のフェーズの予測確率 (ラベルではない) を使用してモデルを再トレーニングします。
収束は、モデルの尤度の改善に基づいて決定されます {\displaystyle P(D\mid \theta )} ここで \theta 、はナイーブベイズモデルのパラメータを示します。
ループ内の予測ステップは期待値最大化アルゴリズム(EM)のEステップですが、ナイーブベイズの再トレーニングはMステップです。このトレーニングプロセスは、より一般的な期待値最大化アルゴリズム(EM)の一例です。データが混合モデルによって生成され、この混合モデルを構成するクラスが分類問題のクラスとまったく同じであるという仮定は、手順を正式に正当化するために使用されます。
単純ベイズ分類器には、広範囲にわたる独立性の仮定がしばしば間違っているという事実にもかかわらず、実際には予想外に役立つ多くの特性があります。特に、各分布は、クラスの条件付き特徴分布の分離により、1次元分布として独立して推定できます。これにより、次元の呪いによって引き起こされる課題の1つである特性の数とともに指数関数的にサイズが増加するデータセットの要件が軽減されます。ナイーブベイズは適切なクラス確率の適切な推定値を生成できないことが多いという事実にもかかわらず、ナイーブベイズ分類器の明らかな有効性に関する他の説明は、以下に参照される文献でカバーされています。
離散入力(離散事象の指標または頻度特徴)を扱う場合、単純ベイズ分類器は多項ロジスティック回帰分類器と生成識別ペアを形成する:各単純ベイズ分類器は、結合尤度を最適化する確率モデルを適合させる方法と考えることができ