Ebook142 pages11 minutes

単純ベイズ分類器: 基礎と応用

Name: 単純ベイズ分類器: 基礎と応用
Author: Fouad Sabry

By Fouad Sabry

Rating: 0 out of 5 stars

()

Read preview

About this ebook

ナイーブ ベイズ分類器とは

統計の分野では、ナイーブベイズ分類器は、ベイズの定理の適用から導出される直接的な「確率的分類器」のファミリーです。特徴間の独立性についての強力な (単純な) 仮定を使用します。これらは最も単純なベイジアンネットワークモデルの 1 つですが、カーネル密度の推定と組み合わせると、優れたレベルの精度を達成できます。

メリット

(I) 次のトピックに関する洞察と検証:

第 1 章: 単純ベイズ分類器

第 2 章: 尤度関数

第 3: ベイズの定理

第 4 章: ベイズ推論

第 5 章: 多変量正規分布

第 6 章: 最尤推定

第 7 章: ベイジアンネットワーク

第 8 章: 単純ベイズスパムフィルタリング

第 9 章: 限界尤度

第 10 章: ディリクレ分布

(II) 単純ベイズ分類器に関する一般のよくある質問に答える。

(III) 多くの分野での単純ベイズ分類器の実際の使用例。

(IV) 17 の付録単純ベイズ分類器のテクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明します。

この本の対象者

専門家、大学生、大学院生、愛好家、趣味人、そしてあらゆる種類の単純ベイズ分類器に関する基本的な知識や情報を超えたいと考えている人。

Skip carousel

Language日本語

Publisher10億人の知識があります [Japanese]

Release dateJun 23, 2023

Author

Fouad Sabry

Related to 単純ベイズ分類器

Titles in the series (100)

Skip carousel

畳み込みニューラルネットワーク: 視覚的な画像を分析するための基礎と応用
Ebook
畳み込みニューラルネットワーク: 視覚的な画像を分析するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用
Ebook
放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
パーセプトロン: 神経ビルディングブロックの基礎と応用
Ebook
パーセプトロン: 神経ビルディングブロックの基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
統計的分類: 基礎と応用
Ebook
統計的分類: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
リカレントニューラルネットワーク: シンプルなアーキテクチャからゲート付きアーキテクチャまでの基礎と応用
Ebook
リカレントニューラルネットワーク: シンプルなアーキテクチャからゲート付きアーキテクチャまでの基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
サポートベクターマシン: 基礎と応用
Ebook
サポートベクターマシン: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
競争学習: 競争による強化学習の基礎と応用
Ebook
競争学習: 競争による強化学習の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
インテリジェントディストリビューションエージェントの学習: 基礎と応用
Ebook
インテリジェントディストリビューションエージェントの学習: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
制限付きボルツマンマシン: 人工知能の隠れた層を解明するための基礎と応用
Ebook
制限付きボルツマンマシン: 人工知能の隠れた層を解明するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用
Ebook
人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
位置特定型人工知能: インテリジェンスとアクションを統合するための基礎と応用
Ebook
位置特定型人工知能: インテリジェンスとアクションを統合するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ヘビアン学習: 記憶と学習を統合するための基礎と応用
Ebook
ヘビアン学習: 記憶と学習を統合するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
多層パーセプトロン: ニューラルネットワークをデコードするための基礎と応用
Ebook
多層パーセプトロン: ニューラルネットワークをデコードするための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
包含アーキテクチャ: 行動ベースのロボティクスと反応制御の基礎と応用
Ebook
包含アーキテクチャ: 行動ベースのロボティクスと反応制御の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
長短期記憶: シーケンス予測の基礎と応用
Ebook
長短期記憶: シーケンス予測の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
フィードフォワードニューラルネットワーク: 思考機械とニューラルウェブのアーキテクチャの基礎と応用
Ebook
フィードフォワードニューラルネットワーク: 思考機械とニューラルウェブのアーキテクチャの基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用
Ebook
誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
バイオにインスピレーションを得たコンピューティング: デジタル世界での生物学的インスピレーションの基礎と応用
Ebook
バイオにインスピレーションを得たコンピューティング: デジタル世界での生物学的インスピレーションの基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ハイブリッドニューラルネットワーク: 生物学的ニューラルネットワークと人工ニューロンモデルの相互作用の基礎と応用
Ebook
ハイブリッドニューラルネットワーク: 生物学的ニューラルネットワークと人工ニューロンモデルの相互作用の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
神経進化: 神経進化で人間の知性を超えるための基礎と応用
Ebook
神経進化: 神経進化で人間の知性を超えるための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
身体化された認知: 基礎と応用
Ebook
身体化された認知: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ファジーシステム: 基礎と応用
Ebook
ファジーシステム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ホップフィールドネットワークス: 記憶を保存するニューラルネットワークの基礎と応用
Ebook
ホップフィールドネットワークス: 記憶を保存するニューラルネットワークの基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
アトラクターネットワーク: 計算神経科学の基礎と応用
Ebook
アトラクターネットワーク: 計算神経科学の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
身体化された認知科学: 基礎と応用
Ebook
身体化された認知科学: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
人工免疫システム: 基礎と応用
Ebook
人工免疫システム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ハイブリッドインテリジェントシステム: 基礎と応用
Ebook
ハイブリッドインテリジェントシステム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
データ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用
Ebook
データ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
エージェントのアーキテクチャ: 基礎と応用
Ebook
エージェントのアーキテクチャ: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
マルチエージェントシステム: 基礎と応用
Ebook
マルチエージェントシステム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings

Related ebooks

Skip carousel

ベイズ学習: 基礎と応用
Ebook
ベイズ学習: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
制約満足度: 基礎と応用
Ebook
制約満足度: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
サットプラン: 基礎と応用
Ebook
サットプラン: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
山登り: 基礎と応用
Ebook
山登り: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
オブジェクト指向プログラミングの継承: 基礎と応用
Ebook
オブジェクト指向プログラミングの継承: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
生産システム: 基礎と応用
Ebook
生産システム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用
Ebook
放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
検索アルゴリズム: 基礎と応用
Ebook
検索アルゴリズム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
アルゴリズムの確率: 基礎と応用
Ebook
アルゴリズムの確率: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ヒストグラム均等化: 画像のコントラストを強化して視覚認識を強化
Ebook
ヒストグラム均等化: 画像のコントラストを強化して視覚認識を強化
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
K最近隣アルゴリズム: 基礎と応用
Ebook
K最近隣アルゴリズム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
スケール不変特徴量変換: コンピュータービジョンにおけるスケール不変特徴量変換の力を明らかにする
Ebook
スケール不変特徴量変換: コンピュータービジョンにおけるスケール不変特徴量変換の力を明らかにする
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
意思決定支援システム: 賢い選択の芸術と科学の基礎と応用
Ebook
意思決定支援システム: 賢い選択の芸術と科学の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
画像の分割: ピクセル精度を通じて洞察を引き出す
Ebook
画像の分割: ピクセル精度を通じて洞察を引き出す
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
カーネルメソッド: 基礎と応用
Ebook
カーネルメソッド: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
バッグ・オブ・ワーズ・モデル: 言葉の入った袋で視覚的知性を解き放つ
Ebook
バッグ・オブ・ワーズ・モデル: 言葉の入った袋で視覚的知性を解き放つ
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
サポートベクターマシン: 基礎と応用
Ebook
サポートベクターマシン: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
比較経済システム: 比較経済システム、イデオロギーの舵取り、選択の強化
Ebook
比較経済システム: 比較経済システム、イデオロギーの舵取り、選択の強化
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
カルマンフィルター: 基礎と応用
Ebook
カルマンフィルター: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ファジーシステム: 基礎と応用
Ebook
ファジーシステム: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
流暢な微積分: 基礎と応用
Ebook
流暢な微積分: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
都市経済学: 都市景観をナビゲートする、都市経済学の総合ガイド
Ebook
都市経済学: 都市景観をナビゲートする、都市経済学の総合ガイド
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
スクリプト理論: 基礎と応用
Ebook
スクリプト理論: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
実践学: 人間の行動と経済をナビゲートする実践学が明らかに
Ebook
実践学: 人間の行動と経済をナビゲートする実践学が明らかに
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
データ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用
Ebook
データ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
ドレフュス批評: 基礎と応用
Ebook
ドレフュス批評: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
限界論理: 基礎と応用
Ebook
限界論理: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
アルゴリズム情報理論: 基礎と応用
Ebook
アルゴリズム情報理論: 基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
社会経済学: 社会経済学の解明、社会と経済の複雑な網目をナビゲートする
Ebook
社会経済学: 社会経済学の解明、社会と経済の複雑な網目をナビゲートする
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings
多層パーセプトロン: ニューラルネットワークをデコードするための基礎と応用
Ebook
多層パーセプトロン: ニューラルネットワークをデコードするための基礎と応用
byFouad Sabry
Rating: 0 out of 5 stars
0 ratings

Related categories

Skip carousel

Reviews for 単純ベイズ分類器

Rating: 0 out of 5 stars

0 ratings

0 ratings0 reviews

Book preview

単純ベイズ分類器 - Fouad Sabry

第 1 章: 単純ベイズ分類器

統計学における「素朴ベイズ分類器」として知られる単純な「確率的分類器」のファミリーは、特徴間の強い(素朴な)独立性の仮定を持つベイズの定理の適用に基づいています(ベイズ分類器を参照)。最も簡単なベイジアンネットワークモデルの1つはこれです、ナイーブベイズ分類器のスケーラビリティは優れており、変数(特徴/予測変数)の数が線形である学習タスクで多数のパラメータを必要とします。

最尤トレーニングは、他の多くのタイプの分類器のようにコストのかかる反復近似を使用する代わりに、線形時間がかかる閉形式の式:718を評価することによって行うことができます。

単純ベイズと独立ベイズは、統計学の文献に見られる素朴なベイズモデルの2つの名前です。

単純ベイズは、分類子を構築するための簡単な方法です。これらのモデルは、特徴値のベクトルとして表される問題ケースにクラスラベルを割り当て、クラスラベルは有限集合から選択されます。このような分類子をトレーニングするために、単一の手法ではなく、クラス変数が与えられた場合、1つの特徴の値が他のすべての特徴値から独立していることを前提に構築されたアルゴリズムのファミリがあります。たとえば、果物が赤く、丸く、直径が約10 cmの場合、リンゴと見なすことができます。色、真円度、直径の変数間の潜在的な関係に関係なく、単純ベイズ分類器は、これらの特徴のそれぞれがこの果物がリンゴである可能性に独立して寄与すると仮定します。

単純ベイズモデルのパラメータ推定では最尤法が頻繁に使用されるため、ベイズ確率を採用したり、ベイズ法を利用したりすることなく、単純ベイズモデルを操作できます。

単純ベイズ分類器は、その単純な設計と表面上は過度に単純化された仮定にもかかわらず、さまざまな困難な現実世界の状況で見事に機能しました。2004年のベイズ分類問題の調査では、素朴ベイズ分類器の一見ありそうもない有効性が、優れた理論的正当性によって裏付けられていることが明らかになりました。

抽象的には、単純ベイズは条件付き確率モデルです:いくつかの {\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})} n個の特徴(独立変数)をエンコードするベクトルで表される、分類される問題インスタンスが与えられた C_{k} K {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})} 個の可能な結果またはクラスのそれぞれに確率を割り当てます。

前述の定式化の問題は、特徴の数 n が大きい場合、または特徴が広範囲の値を取ることができる場合、確率表に基づいてこのようなモデルを構築することは実用的ではないということです。モデルをより管理しやすくするには、モデルを再定式化する必要があります。条件付き確率は、ベイズの定理を使用して次のように分解できます。

{\displaystyle p(C_{k}\mid \mathbf {x} )={\frac {p(C_{k})\ p(\mathbf {x} \mid C_{k})}{p(\mathbf {x} )}}\,}

前述の式は、ベイズ確率の用語を簡単な英語で使用して次のように表すことができます。

{\displaystyle {\text{posterior}}={\frac {{\text{prior}}\times {\text{likelihood}}}{\text{evidence}}}\,}

実際には、そのような分数の分子のみが対象です、分母は依存せず、 C 特徴の値が x_{i} 与えられるので、分母は実質的に一定のままです。

結合確率モデルは分子と同等です。

{\displaystyle p(C_{k},x_{1},\ldots ,x_{n})\,}

したがって、条件付き確率の概念を繰り返し適用すると、次のように再定式化できます。

{\displaystyle {\begin{aligned}p(C_{k},x_{1},\ldots ,x_{n})&=p(x_{1},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\ p(x_{3},\ldots ,x_{n},C_{k})\\&=\cdots \\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\cdots p(x_{n-1}\mid x_{n},C_{k})\ p(x_{n}\mid C_{k})\ p(C_{k})\\\end{aligned}}}

ここで、「素朴な」条件付き独立性の仮定が作用します:のすべての機能が相互に独立していると仮定 \mathbf {x} し、カテゴリを条件とします C_{k} 。

この仮定に基づいて、

{\displaystyle p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,}

したがって、ジョイントモデルは次のように書くことができます。

{\displaystyle {\begin{aligned}p(C_{k}\mid x_{1},\ldots ,x_{n})&\varpropto p(C_{k},x_{1},\ldots ,x_{n})\\&\varpropto p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\&\varpropto p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,,\end{aligned}}}

ここで、 {\displaystyle \varpropto } は比例を示します。

したがって、前述の独立性の仮定を考えると、クラス変数に対する条件付き分布 C は次のようになります。

{\displaystyle p(C_{k}\mid x_{1},\ldots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})}

ここで、証拠

{\displaystyle Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})}

はにのみ依存するスケーリング係数、 x_{1},\ldots ,x_{n} つまり特徴変数の値がわかっている場合は定数です。

独立特徴モデルは、これまでの会話から、つまり確率の単純なベイズモデルから作成されました。

このモデルと決定ルールは、単純ベイズ分類器によって結合されます。

誤分類の可能性を減らすために、よくあるアプローチは、最も可能性の高い仮説を選択することです。事後決定規則、またはMAP決定規則の最大値は、これを指します。

関連する分類子、ベイズを使用する分類器は、次のようにいくつかのkにクラスラベルを割り当てる関数です {\hat {y}}=C_{k} 。

{\displaystyle {\hat {y}}={\underset {k\in \{1,\ldots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).}

クラスの先行詞は、等確率クラスを仮定することによって、すなわち、 {\displaystyle p(C_{k})={\frac {1}{K}}} 、またはトレーニングセットからのデータを使用してクラス確率を推定することによって決定できます。

{\displaystyle {\text{prior for a given class}}={\frac {\text{no. of samples in that class}}{\text{total no. of samples}}}\,}

特徴量の分布のパラメータを推定するには、分布について仮定するか、トレーニングセットから特徴のノンパラメトリックモデルを作成する必要があります。

継続的に更新されるデータを利用する場合、一般的な推定は、各クラスの連続値が正規(またはガウス)分布に従って分布していることです。

たとえば、トレーニングデータに連続属性があるとします x 。

クラスは、最初にデータをセグメント化するために使用され、次に x 各クラスでの平均と分散が計算されます。

をクラスに関連付けられた値の平均 \mu _{k} とし、 x クラス C_{k} に関連付けられた {\displaystyle \sigma _{k}^{2}} 値のベッセル補正分散 x とします C_{k} 。

ある観測値を収集したとします v 。

次に、与えられたクラス、すなわち v の確率密度 C_{k} は、 {\displaystyle p(x=v\mid C_{k})} と v でパラメータ化された正規分布の方程式に \mu _{k} 代入することによって計算できます {\displaystyle \sigma _{k}^{2}} 。

正式には

{\displaystyle p(x=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{k}^{2}}}}\,e^{-{\frac {(v-\mu _{k})^{2}}{2\sigma _{k}^{2}}}}}

ビニングを使用してフィーチャ値を分離し、ベルヌーイ分布フィーチャの新しいセットを作成することも、連続データを処理するための一般的な方法です。いくつかの文献によると、素朴なベイズを採用するためにはそうする必要がありますが、離散化は識別情報を破棄する可能性があるため、これは真実ではありません。

多項イベントモデルが使用され、サンプル(特徴ベクトル)は、特定のイベントが多項によって生成された頻度を表し、イベント (p_1, \dots, p_n) p_{i} iが発生する確率(または多クラスの場合はKなどの多項式)です。

特徴ベクトル {\mathbf {x}}=(x_{1},\dots ,x_{n}) はヒストグラムであり、 x_{i} 特定のインスタンスでイベントiが観測された回数をカウントします。

ドキュメント分類に一般的に使用されるイベントモデルは、1 つのドキュメント内の用語が出現する場所を示すイベントを使用して、次のようになります (単語の仮定のバッグを参照)。

によって与えられるのは、xのヒストグラムが表示される可能性です。

{\displaystyle p(\mathbf {x} \mid C_{k})={\frac {(\sum _{i=1}^{n}x_{i})!}{\prod _{i=1}^{n}x_{i}!}}\prod _{i=1}^{n}{p_{ki}}^{x_{i}}}

ここで {\displaystyle p_{ki}:=p(x_{i}\mid C_{k})} 。

対数空間で記述すると、多項単純ベイズ分類器は線形分類器に変換されます。

{\displaystyle {\begin{aligned}\log p(C_{k}\mid \mathbf {x} )&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}^{x_{i}}\right)\\&=\log p(C_{k})+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\\&=b+\mathbf {w} _{k}^{\top }\mathbf {x} \end{aligned}}}

ここで b=\log p(C_{k}) 、. w_{{ki}}=\log p_{{ki}}

確率推定値は特徴値の頻度と逆相関するため、特定のクラスと特徴値がトレーニングデータ内で一緒に発生しない場合、頻度ベースの確率推定値はゼロになります。他の確率が複合されると、それらのすべての情報が消去されるため、これは厄介です。確率が正確にゼロに設定されることはないため、すべての確率計算に擬似カウントと呼ばれる小さなサンプル補正を含めることがしばしば有利です。疑似カウントが 1 の場合、ナイーブベイズを正則化するこの方法はラプラス平滑化として知られています。一般的な状況では、それはリッドストーンスムージングとして知られています。

サポートベクターマシンと競合する素朴なベイズ分類器を作成するために、Rennieらは、文書分類の文脈における多項仮定の問題と、生の用語頻度の代わりにtf-idf重みを使用することや文書長の正規化など、潜在的な解決策について議論します。

多変量ベルヌーイイベントモデルに関しては、特性は個別のブール(バイナリ)変数を使用して入力を記述します。

多項モデルに匹敵し、文書分類に関連する問題では、このパラダイムが一般的であり、用語頻度ではなくバイナリ用語の出現特性が使用されます。

が語彙からのi x_{i} 番目の用語の出現または不在を表すブール値である場合、クラスが与えられた文書の尤度 C_{k} は次式で与えられます。

{\displaystyle p(\mathbf {x} \mid C_{k})=\prod _{i=1}^{n}p_{ki}^{x_{i}}(1-p_{ki})^{(1-x_{i})}}

ここで p_{{ki}} 、はクラスが C_{k} 項を生成する確率です x_{i} 。

このイベントモデルは、短いメッセージを分類する場合に特に適しています。

単語の不在を直接モデル化できるという利点があります。

頻度カウントが 1 にトリミングされた多項 NB 分類器は、ベルヌーイイベントモデルを持つ単純ベイズ分類器と同じではないことに注意してください。

ラベル付きデータから単純なベイズ分類器をトレーニングする方法が与えられた教師あり学習アルゴリズムを繰り返し実行することにより、ラベル付きデータとラベルなしデータの両方から学習できる半教師ありトレーニング方法を作成することが可能です。

ラベル付きサンプル D = L \uplus U L とラベルなしサンプル U のコレクションが与えられた場合、まず、L で基本的なベイズ分類器をトレーニングします。

次の期限までマージしないでください。

のすべての例 {\displaystyle P(C\mid x)} x のクラス確率を予測 D します。

前のフェーズの予測確率 (ラベルではない) を使用してモデルを再トレーニングします。

収束は、モデルの尤度の改善に基づいて決定されます {\displaystyle P(D\mid \theta )} ここで \theta 、はナイーブベイズモデルのパラメータを示します。

ループ内の予測ステップは期待値最大化アルゴリズム(EM)のEステップですが、ナイーブベイズの再トレーニングはMステップです。このトレーニングプロセスは、より一般的な期待値最大化アルゴリズム(EM)の一例です。データが混合モデルによって生成され、この混合モデルを構成するクラスが分類問題のクラスとまったく同じであるという仮定は、手順を正式に正当化するために使用されます。

単純ベイズ分類器には、広範囲にわたる独立性の仮定がしばしば間違っているという事実にもかかわらず、実際には予想外に役立つ多くの特性があります。特に、各分布は、クラスの条件付き特徴分布の分離により、1次元分布として独立して推定できます。これにより、次元の呪いによって引き起こされる課題の1つである特性の数とともに指数関数的にサイズが増加するデータセットの要件が軽減されます。ナイーブベイズは適切なクラス確率の適切な推定値を生成できないことが多いという事実にもかかわらず、ナイーブベイズ分類器の明らかな有効性に関する他の説明は、以下に参照される文献でカバーされています。

離散入力(離散事象の指標または頻度特徴)を扱う場合、単純ベイズ分類器は多項ロジスティック回帰分類器と生成識別ペアを形成する:各単純ベイズ分類器は、結合尤度を最適化する確率モデルを適合させる方法と考えることができ

Enjoying the preview?

Page 1 of 1

単純ベイズ分類器: 基礎と応用

About this ebook

Fouad Sabry

Read more from Fouad Sabry

Related authors

Related to 単純ベイズ分類器

Titles in the series (100)

Related ebooks

Related categories

Reviews for 単純ベイズ分類器

What did you think?

Book preview

単純ベイズ分類器 - Fouad Sabry

第 1 章: 単純ベイズ分類器