Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

統計的分類: 基礎と応用
統計的分類: 基礎と応用
統計的分類: 基礎と応用
Ebook89 pages7 minutes

統計的分類: 基礎と応用

Rating: 0 out of 5 stars

()

Read preview

About this ebook

統計的分類とは


統計の分野では、分類の問題とは、観測値が多数のカテゴリ (部分母集団) のどれに該当するかを決定するタスクを指します。 属する。 特定の電子メールを「スパム」または「非スパム」クラスに割り当てることは一例です。 もう 1 つは、観察された患者の特徴に基づいて患者に診断を提供することです。


どのようなメリットがあるか


(I) 洞察と検証 次のトピックについて説明します。


第 1 章: 統計的分類


第 2 章: 教師あり学習


第 3 章: サポート ベクター マシン


第 4: 単純ベイズ分類器


第 5 章: 線形分類器


第 6 章: 決定木の学習


第 7 章: 生成モデル


第 8: 機能 (機械学習)


第 9 章: 多項ロジスティック回帰


第 10 章: 確率的分類


(II) 統計的分類に関するよくある質問に答える


(III) 多くの分野における統計分類の使用例。


(IV) 各業界の 266 の新興テクノロジーから 360 のテクノロジーまでを簡潔に説明する 17 の付録。 - 程度の統計分類技術の完全な理解。


本書の対象者


専門家、学部生および大学院生、愛好家、趣味愛好家、および以下のような人々。 あらゆる種類の統計分類に関する基本的な知識や情報を超えたいと考えています。


 

Language日本語
Release dateJun 23, 2023
統計的分類: 基礎と応用

Read more from Fouad Sabry

Related to 統計的分類

Titles in the series (100)

View More

Related ebooks

Reviews for 統計的分類

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    統計的分類 - Fouad Sabry

    第1章 統計分類

    観測値(または一連の観測値)が統計でどのカテゴリ(部分母集団)に属するかを判断するという課題は、分類と呼ばれます。例としては、電子メールを「スパム」または「非スパム」として分類し、患者の症状(性別、血圧、特定の症状の有無など)に基づいて患者の診断を決定することが含まれます。

    説明変数または特徴とも呼ばれる一連の定量化可能な特性は、多くの場合、個々のデータの分析から導き出されます。これらの特性は、カテゴリ(血液型の「A」、「B」、「AB」、「O」など)、序数(「大」、「中」、「小」など)、整数値(電子メール内の特定の単語の頻度など)、または実数値(血圧の測定値など)にすることができます。他の分類器は、距離関数または類似度関数を使用して観測値を以前の観測と比較します。

    分類子は、特に実際の実装において、分類を実装するアルゴリズムです。入力データをカテゴリに割り当てる分類アルゴリズムによって実行される数学関数は、時には「分類子」と呼ばれることがあります。

    用語の使用法はフィールドによって大きく異なります。オブザベーションの特性は、統計では説明変数(または独立変数、リグレッサなど)と呼ばれ、分類はロジスティック回帰または同様の手順で行われることが多く、予測されるカテゴリは結果と呼ばれ、従属変数の可能な値と見なされます。機械学習では、予測可能なさまざまなカテゴリはクラスと呼ばれ、観測値はインスタンスと呼ばれることが多く、説明変数は特徴と呼ばれます (特徴ベクトルにグループ化されます)。他の分野では異なる用語が使用される場合があります:たとえば、群集生態学における「分類」という用語は、通常、クラスター分析を指します。

    パターン認識のより広範な問題の例としては、特定の入力値に何らかの形式の出力値を割り当てることであり、分類とクラスタリングが含まれます。その他のインスタンスには、文の文法構造を詳述する解析ツリーを入力文に割り当てる解析、各入力に実数値の出力を割り当てる回帰、一連の値の各メンバーにクラスを割り当てるシーケンスラベリングなどがあります。

    確率的分類は、典型的な分類サブクラスです。これらの種類のアルゴリズムでは、統計的推論を使用して、特定のインスタンスに適したクラスを判断します。確率的アルゴリズムは、インスタンスが潜在的な各クラスに属する確率を生成しますが、他のアルゴリズムは「最良の」クラスを返すだけです。次に、ほとんどの場合、確率が最も高いクラスが選択されます。ただし、非確率的分類器と比較して、このような方法には多くの利点があります。

    選択に対応する信頼値を生成できます (一般に、これを実行できる分類子は信頼度重み付き分類子と呼ばれます)。

    したがって、特定の出力を選択するのに十分な自信がない場合は、控えることができます。

    確率的分類子は、生成される確率によるエラー伝播の問題を部分的または完全に排除する方法で、より複雑な機械学習タスクにより効率的に組み込むことができます。

    フィッシャーは、さまざまなマハラノビス距離の変更に基づいていくつかの分類基準を開発することから統計的分類プロセスを開始し、観測値から調整された距離が最も小さい中心を持つグループに新しい観測値が割り当てられました。

    頻度論的方法とは対照的に、ベイズ分類手法は、総母集団内のさまざまなカテゴリの相対的なサイズに関する利用可能なすべてのデータを組み込む自然な方法を提供します。

    一部のベイズ手法では、グループ メンバーシップの確率が計算されます。これにより、新しいオブザベーションごとに1つのグループラベルを割り当てるよりも有益な結果が得られます。

    二項分類と多クラス分類は、分類における 2 つの異なる課題と見なすことができます。多クラス分類では、オブジェクトを複数のクラスの 1 つに配置する必要がありますが、より単純な操作である二項分類には 2 つのクラスのみが含まれます。多クラス分類では、特に二項分類のために多くの分類手法が作成されているため、複数の二項分類器を同時に使用する必要があることがよくあります。

    大部分のアルゴリズムは、インスタンスの特定の定量化可能な属性を含む特徴ベクトルを使用してカテゴリを予測する特定のインスタンスを指定します。各特性はフィーチャと呼ばれ、統計情報では説明変数 (または独立変数ですが、フィーチャは統計的に独立している場合とそうでない場合があります) と呼ばれます。特徴は、カテゴリ(血液型を表す「A」、「B」、「AB」、「O」など)、序数(「大」、「中」、「小」など)、整数値(「特定の単語が電子メールに出現する回数など」)、バイナリ(「オン」や「オフ」など)、または実数値(血圧の測定など)にすることができます。インスタンスがイメージの場合、フィーチャ値はイメージのピクセルになります。テキストの場合、特徴値はさまざまな単語が出現する頻度である可能性があります。一部のアルゴリズムは離散データのみで動作し、実数値または整数値のデータのグループ化を必要とします(たとえば、5未満、5〜10、または10より大きい)。

    多くの分類手法は、ドット積を使用してインスタンスの特徴ベクトルと重みのベクトルを組み合わせて、k個の可能なカテゴリのそれぞれにスコアを付与する線形関数として表すことができます。スコアが最も高いカテゴリが予想されたカテゴリです。次の一般的な形式では、特定の種類のスコア関数である線形予測関数について説明します。

    {\displaystyle \operatorname {score} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},}

    ここで、Xi はインスタンス i の特徴ベクトル、βk はカテゴリ k に対応する重みのベクトル、score(Xi,  k ) はインスタンス I をカテゴリ k に分類するときに与えられる評価です。

    離散選択の定理、ここで選択肢は状況であり、個人は人であり、カテゴリkを選択する人Iに関連する効用はスコアによって表されます。

    これらの基本に配置されたアルゴリズムは、線形分類器と呼ばれます。理想的な重みと係数を確立(トレーニング)するために使用される方法、および結果の解釈方法は、それらを区別します。

    これらのアルゴリズムの例には、次のようなものがあります。

    ロジスティック回帰を用いた2値従属変数の統計モデル

    2つ以上の離散結果を伴う回帰は、多項ロジスティック回帰として知られています。

    従属変数に 2 つの可能な値のみを使用した回帰は、プロビット回帰と呼ばれます。

    パーセプトロンアルゴリズム

    サポートベクターマシンと呼ばれる教師あり統計学習のための技術のグループ

    統計、パターン認識、およびその他の分野で使用される手法は、線形判別分析です。

    すべてのタイプのデータセットに適した分類タイプはないため、分類アルゴリズムの膨大なツールセットが開発されています。最も頻繁に採用されるものは次のとおりです。

    接続された階層関数に基づく機械学習の計算モデルは、人工ニューラルネットワークと呼ばれます。

    ブースティング(メタアルゴリズム)は機械学習技術です。

    決定木を使用した機械学習アルゴリズム

    ランダムフォレストと呼ばれる二項探索木に基づくアンサンブルの機械学習手法

    コンピュータプログラムを遺伝子の集まりとしてエンコードする慣行は、遺伝的プログラミングとして知られています。

    進化を利用した遺伝子発現プログラミングを用いたアルゴリズム

    マルチ式プログラミング

    遺伝的プログラミングアルゴリズムの例は、線形遺伝的プログラミングである。

    カーネル推定のためのウィンドウ関数

    ノンパラメトリック分類手法は、k 最近傍です。

    学習ベクトル量子化

    統計分類のための機械学習の線形分類器

    フィッシャーの線形判別式:パターン認識、統計、およびその他の分野で使用される手法

    ロジスティック回帰を用いた2値従属変数の統計モデル

    確率的分類アルゴリズム: 単純ベイズ

    バイナリ分類器は、パーセプトロンアルゴリズムを使用して監視下で学習できます。

    機械学習では、2 次分類器を使用して、2 つ以上のクラスのオブジェクトの測定値を区別します。

    サポートベクターマシンと呼ばれる教師あり統計学習のための技術のグループ

    最小二乗法を持つサポートベクターマシン

    分類されるデータの品質は、分類器のパフォーマンスに大きな影響を与えます。すべての問題を最もよく解決する単一の分類器はありません(この現象は、フリーランチなしの定理によって説明される可能性があります)。分類器の性能を比較し、分類器の性能に影響を与えるデータの側面を特定するために、数多くの実証研究が実施されてきた。ただし、特定の状況に適した分類器を選択することは、科学というよりも芸術です。

    分類システムの品質を評価するための一般的な基準には、精度と再現率が含まれます。受信機動作特性(ROC)曲線は、分類アルゴリズムが真陽性率と偽陽性率のバランスをとる方法を評価するために最近使用されています。

    不確かさ係数は、さまざまなクラスの相対的なサイズの影響を受けないため、パフォーマンス統計としての基本的な精度よりも優れています。さらに、単にクラスを再配置するだけでアルゴリズムを罰することはありません。

    分類には多くの用途があります。一部のデータマイニング手法ではデータマイニング手法として使用され、他のものではより複雑な統計モデリングが使用されます。

    生物のグループを認識し、特徴付け、命名する科学は、生物学的分類として知られています。

    生体認証機能に基づいて人を識別するために使用されるメトリック

    画像からの自動情報抽出は、コンピュータービジョンとして知られています。

    医用画像と画像分析は、身体の内部の視覚的表現を生成するために使用される方法とプロセスです。

    光学式文字認識を用いた視覚テキストのコンピュータ認識

    ビデオシーケンスの各フレーム内の場所を見つけることは、ビデオトラッキングと呼ばれます。

    個人の信用力を数値で表現したものをクレジットスコアリングと呼びます。

    ドキュメントの分類: ドキュメントを分類する方法

    新しい医薬品を市場に投入するプロセスは、創薬および開発として知られています。

    毒物学とゲノミクスのサブフィールドはトキシコゲノミクスです。

    定量的構造と活性の関係 - 分子の生物学的、生態毒性学的、または薬効活性の定量的予測

    空間データ セットに焦点を当てた統計サブフィールドは、地球統計学と呼ばれます。

    読みやすい手書き入力を受け入れて理解するコンピューターの能力は、手書き認識と呼ばれます。

    インターネット検索エンジンは、ワールドワイドウェブ上で情報検索を行うために使用されるソフトウェアプログラムです。

    マイクロアレイを用いた分類

    データ内のパターンと規則性の自動検出は、パターン認識と呼ばれます。

    ユーザーの嗜好を予測する情報フィルタリングシステム:レコメンダーシステム

    話し言葉をテキストに自動的に書き起こすことは、音声認識と呼ばれます。

    統計的自然言語処理の言語学と計算機科学分野

    {第 1 章終了}

    第2章:教師あり学習

    教師あり学習 (SL とも呼ばれます) は、使用可能なデータがラベル付けされたインスタンスで構成される状況で使用される機械学習パラダイムです。つまり、すべてのデータポイントには、特性(共変量とも呼ばれます)とラベルが関連付けられています。特徴ベクトル(入力)をラベル(出力)に転送する関数を学習することは、教師あり学習アルゴリズムの目的です。これらのアルゴリズムは、他の入出力ペアがどのように使用されているかを確認することで関数をトレーニングします。教師あり学習では、各例は、入力オブジェクト(通常はベクトル)と目的の出力値で構成されるペアです。これらの入力オブジェクトは、目的の出力値 (監視信号とも呼ばれます) を生成するようにシステムをトレーニングするために使用されます。トレーニングデータは教師あり学習アルゴリズムによって分析され、教師あり学習アルゴリズムは、新しいインスタンスのマッピングに利用できる推論関数を出力します。可能な限り最良の状況では、アルゴリズムはまだ検出されていないインスタンスのクラスラベルを正確に予測できます。これを行うために、学習アルゴリズムは、トレーニングデータから、これまで見たことのない状況を「合理的な」方法で一般化できなければなりません(帰納的バイアスを参照)。いわゆる汎化誤差は、アルゴリズムの統計的品質を評価するために使用されるメトリックです。

    教師あり学習の問題に正常に答えるには、次の手順を実行する必要があります。

    どのようなトレーニング例があるかをご覧ください。他の作業を進める前に、ユーザーはトレーニング セットとして機能するデータの種類を決定する必要があります。たとえば、手書き分析のコンテキストでは、これは 1 つの手書き文字、全体の手書き単語、手書きの語句全体、または手書きの段落全体を指す場合があります。

    トレーニング用のセットを組み立てます。トレーニングセットは、実際の世界での関数の使用を正確に反映していることが不可欠です。その結果、入力項目のコレクションとそれらの入力に対応する出力が、人間の専門家または測定データの助けを借りてコンパイルされます。

    学習された関数の入力特徴表現を確立します。入力項目の表現は、学習された関数の精度の程度に大きな影響を与えます。ほとんどの場合、入力オブジェクトは、アイテムの説明を提供するいくつかの特性を含む行列である特徴ベクトルに変換されます。次元の呪いのため、フィーチャの数はそれほど多くはありませんが、出力を適切に予測するのに十分な情報が必要です。

    学習した関数の構造とそれに対応する学習手順を見つけます。サポートベクターマシンと決定木は、エンジニアが利用することを決定できるツールの2つの例です。

    デザインの作成を終了します。取得した情報に対して学習アルゴリズムを実行します。一部の教師あり学習アルゴリズムでは、ユーザーが最初に特定の制御パラメーターを指定する必要があります。トレーニング

    Enjoying the preview?
    Page 1 of 1