K最近隣アルゴリズム: 基礎と応用
By Fouad Sabry
()
About this ebook
K 最近傍アルゴリズムとは
k-NN としても知られる k 近傍手法は、最初に作成されたノンパラメトリック教師あり学習手法です。 1951年、統計学の分野でエブリン・フィックスとジョセフ・ホッジスによって発表。 トーマス・カバーは後に元のコンセプトを拡張しました。 回帰と分類の両方に応用できます。 どちらのシナリオでも、入力はデータ コレクション内の互いに最も近い k 個のトレーニング インスタンスで構成されます。 k-NN が分類または回帰に使用されたかどうかに関係なく、結果は次のようになります。k 最近傍分類の出力はクラス メンバーシップです。 複数のアイテムの近傍がオブジェクトをどのように分類するかについて投票し、オブジェクトはその k 個の最近傍の中で最も人気のあるクラスに割り当てられます (k は正の数で、多くの場合非常に小さいです)。 k が 1 に等しい場合、オブジェクトはその単一の最近傍のカテゴリに属するものとして単純に分類されます。k-NN 回帰の結果は、オブジェクトに関連付けられた特定のプロパティの値です。 この値は、現在の位置に最も近い k 個の近傍の値の平均です。 k が 1 に等しい場合、出力の値は 1 つの最近傍の値から単純に取得されます。
メリット
(I) 次のトピックに関する洞察と検証:
第 1 章: K 最近傍アルゴリズム
第 2 章: 教師あり学習
第 3 章: パターン 認識
第 4 章: 次元の呪い
第 5 章: 最近傍探索
第 6 章: クラスター分析
第 7 章: カーネル 方法
第 8 章: 大マージン最近傍法
第 9 章: 構造化 kNN
第 10 章: 弱い監視
(II) 応答 k 最近傍アルゴリズムに関する公開トップの質問。
(III) 多くの分野での k 最近傍アルゴリズムの使用例の実例。
(IV) 説明する 17 の付録。 簡単に説明すると、k 最近傍アルゴリズムのテクノロジを 360 度完全に理解できるよう、各業界の 266 の新興テクノロジが紹介されています。
本書の対象者
プロフェッショナル 大学生、大学院生、愛好家、愛好家、およびあらゆる種類の k 最近傍アルゴリズムに関する基本的な知識や情報を超えたいと考えている人。
Read more from Fouad Sabry
ロボット工学における新興技術 [Japanese]
Related to K最近隣アルゴリズム
Titles in the series (100)
ヘビアン学習: 記憶と学習を統合するための基礎と応用 Rating: 0 out of 5 stars0 ratings放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用 Rating: 0 out of 5 stars0 ratingsカーネルメソッド: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用 Rating: 0 out of 5 stars0 ratingsパーセプトロン: 神経ビルディングブロックの基礎と応用 Rating: 0 out of 5 stars0 ratings長短期記憶: シーケンス予測の基礎と応用 Rating: 0 out of 5 stars0 ratingsホップフィールドネットワークス: 記憶を保存するニューラルネットワークの基礎と応用 Rating: 0 out of 5 stars0 ratings制限付きボルツマンマシン: 人工知能の隠れた層を解明するための基礎と応用 Rating: 0 out of 5 stars0 ratings多層パーセプトロン: ニューラル ネットワークをデコードするための基礎と応用 Rating: 0 out of 5 stars0 ratingsヌーベル人工知能: 昆虫と同等の知能を持つロボットを作るための基礎と応用 Rating: 0 out of 5 stars0 ratingsフィードフォワード ニューラル ネットワーク: 思考機械とニューラルウェブのアーキテクチャの基礎と応用 Rating: 0 out of 5 stars0 ratingsリカレント ニューラル ネットワーク: シンプルなアーキテクチャからゲート付きアーキテクチャまでの基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブリッド ニューラル ネットワーク: 生物学的ニューラルネットワークと人工ニューロンモデルの相互作用の基礎と応用 Rating: 0 out of 5 stars0 ratingsアトラクターネットワーク: 計算神経科学の基礎と応用 Rating: 0 out of 5 stars0 ratings誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用 Rating: 0 out of 5 stars0 ratings神経進化: 神経進化で人間の知性を超えるための基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知: 基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知科学: 基礎と応用 Rating: 0 out of 5 stars0 ratings畳み込みニューラル ネットワーク: 視覚的な画像を分析するための基礎と応用 Rating: 0 out of 5 stars0 ratingsスクリプト理論: 基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブリッドインテリジェントシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsデータ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用 Rating: 0 out of 5 stars0 ratingsバイオにインスピレーションを得たコンピューティング: デジタル世界での生物学的インスピレーションの基礎と応用 Rating: 0 out of 5 stars0 ratings競争学習: 競争による強化学習の基礎と応用 Rating: 0 out of 5 stars0 ratingsビームサーチ: 基礎と応用 Rating: 0 out of 5 stars0 ratings数学的最適化: 基礎と応用 Rating: 0 out of 5 stars0 ratingsマルチエージェントシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratings包含アーキテクチャ: 行動ベースのロボティクスと反応制御の基礎と応用 Rating: 0 out of 5 stars0 ratings統計的分類: 基礎と応用 Rating: 0 out of 5 stars0 ratings論理: 基礎と応用 Rating: 0 out of 5 stars0 ratings
Related ebooks
アルゴリズムの確率: 基礎と応用 Rating: 0 out of 5 stars0 ratings生産システム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsサポートベクターマシン: 基礎と応用 Rating: 0 out of 5 stars0 ratings単純ベイズ分類器: 基礎と応用 Rating: 0 out of 5 stars0 ratings意思決定支援システム: 賢い選択の芸術と科学の基礎と応用 Rating: 0 out of 5 stars0 ratings誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用 Rating: 0 out of 5 stars0 ratingsカーネルメソッド: 基礎と応用 Rating: 0 out of 5 stars0 ratingsサットプラン: 基礎と応用 Rating: 0 out of 5 stars0 ratings検索アルゴリズム: 基礎と応用 Rating: 0 out of 5 stars0 ratings世界的な壊滅的リスク: 基礎と応用 Rating: 0 out of 5 stars0 ratings粒子群の最適化: 基礎と応用 Rating: 0 out of 5 stars0 ratings山登り: 基礎と応用 Rating: 0 out of 5 stars0 ratings星: 基礎と応用 Rating: 0 out of 5 stars0 ratings経済システム: 経済システムの謎を解き明かす、すべての人のための包括的なガイド Rating: 0 out of 5 stars0 ratingsオブジェクト指向プログラミングの継承: 基礎と応用 Rating: 0 out of 5 stars0 ratingsベイジアン デシジョン ネットワーク: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工免疫システム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsネットワーク制御システム: 基礎と応用 Rating: 0 out of 5 stars0 ratings階層制御システム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsコーム法: 基礎と応用 Rating: 0 out of 5 stars0 ratingsヒストグラム均等化: 画像のコントラストを強化して視覚認識を強化 Rating: 0 out of 5 stars0 ratingsフレームの問題: 基礎と応用 Rating: 0 out of 5 stars0 ratings汎用人工知能による実存的リスク: 基礎と応用 Rating: 0 out of 5 stars0 ratingsファジーシステム: 基礎と応用 Rating: 0 out of 5 stars0 ratingsサスマンの異常: 基礎と応用 Rating: 0 out of 5 stars0 ratingsメソ経済学: 経済学の橋渡し、ダイナミックな世界に向けてメソ経済学をナビゲート Rating: 0 out of 5 stars0 ratings意識の難しい問題: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用 Rating: 0 out of 5 stars0 ratings経済社会学: 複雑なウェブを解き明かす、経済社会学への旅 Rating: 0 out of 5 stars0 ratingsセマンティックネットワーク: 基礎と応用 Rating: 0 out of 5 stars0 ratings
Reviews for K最近隣アルゴリズム
0 ratings0 reviews
Book preview
K最近隣アルゴリズム - Fouad Sabry
第 1 章: k 最近傍アルゴリズム
Evelyn FixとJoseph Hodgesは、1951年にノンパラメトリック教師あり学習手法として、統計学でk最近傍アルゴリズム(k-NN)を作成しました。回帰と分類は、その2つの用途です。どちらの状況でも、データ セットの k 個の最も近いトレーニング サンプルの入力で構成されます。k-NN を分類に適用するか回帰に適用するかによって、結果が決まります。
k-NN 分類の結果は、クラス メンバーシップです。オブジェクトが k 個の最近傍の多数決に基づいて割り当てられるクラスは、アイテムの近傍によって決定されます (k は正の整数で、通常は小さいです)。オブジェクトは、k = 1の場合、その1つの最近傍のクラスに割り当てられます。
k-NN 回帰の出力は、オブジェクトのプロパティ値です。k 個の最近傍の値の平均がこの数を構成します。出力は、k = 1の場合、1つの最近傍の値に割り当てられます。
k-NNでは、関数が評価され、関数が局所的に近似されるまで、すべての計算が延期されます。トレーニング データを正規化すると、フィーチャがさまざまな物理単位を反映している場合やサイズが大きく異なる場合に、分類の距離に依存するこの手法の精度を大幅に向上させることができます。
k-NN 分類または回帰を使用する場合、近傍は、クラスまたはオブジェクトのプロパティ値がわかっているオブジェクトのセットから選択されます。明示的なトレーニング フェーズは必要ありませんが、これはアルゴリズムのトレーニング セットと見なすことができます。
k-NNアルゴリズムには、データのローカル構造に敏感であるという特徴があります。
で値を取る
{\displaystyle (X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})}ペアがあり {\mathbb {R}}^{d}\times \{1,2\} 、YはXのクラスラベルであるため、 X|Y=r\sim P_{r} r=1,2 (および確率分布)。 P_{r}
あるノルム \|\cdot \| \mathbb {R} ^{d} と 点 x\in {\mathbb {R}}^{d} が
(X_{{(1)}},Y_{{(1)}}),\dots ,(X_{{(n)}},Y_{{(n)}})与えられたとき、 をトレーニングデータの並べ替えとします
\|X_{{(1)}}-x\|\leq \dots \leq \|X_{{(n)}}-x\|。
トレーニングの例は、多次元特徴空間内のクラス ラベルを持つベクターです。アルゴリズムのトレーニングフェーズは、トレーニングサンプルの特徴ベクトルとクラスラベルの格納のみで構成されます。
ラベルなしベクトル (クエリまたはテスト ポイント) に最も近い k 個のトレーニング サンプルの中で最も普及しているラベルは、分類フェーズ中に割り当てられます (k はユーザー定義定数)。
ユークリッド距離は、連続変数の一般的な距離メトリックです。オーバーラップ メトリックなどの別のメトリックは、テキストの分類 (またはハミング距離) などの不連続変数に使用できます。たとえば、k-NNは、ピアソンやスピアマンなどの相関係数とともに、遺伝子発現マイクロアレイデータのコンテキストでのメトリックとして使用されています。多くの場合、大マージン最近傍分析や近傍コンポーネント分析などの特定のアルゴリズムを使用して距離メトリックを学習すると、k-NNの分類精度が大幅に向上します。
クラスの分布が歪んでいる場合、基本的な「多数決」の分類には不利があります。つまり、それらは膨大な数のためにk個の最近傍の間で共通する傾向があるため、より頻繁なクラスの例が新しい例の予測を支配する傾向があります。この問題を解決するための 1 つの解決策は、テスト位置とその k 個の最近傍のそれぞれとの間の距離を考慮して分類に重みを付けることです。k 個の最も近いポイントのクラス (回帰問題では値) のそれぞれに、テスト ポイントからの距離の逆数に比例する重みが乗算されます。データ表現の抽象化は、スキューを処理するための別の戦略です。初期トレーニング データの密度に応じて、自己組織化マップ (SOM) の各ノードは、比較可能なポイントのクラスターの代表 (中心) になります。その後、SOM を K-NN で使用できます。
kの理想的な数はデータによって異なります。一般に、K の値を高くすると、分類に対するノイズの影響は軽減されますが、クラス間の境界も曖昧になります。適切な k は、さまざまなヒューリスティック手法を使用して選択できます (「ハイパーパラメータの最適化」を参照)。最近傍アプローチは、クラスが最も近いトレーニングサンプルのクラスであると予測される特定の状況で使用されます(つまり、k = 1の場合)。
ノイズの多い特徴や無関係な特徴が存在する場合、または特徴の縮尺がそれらの関連性と矛盾している場合、k-NN 法の精度が大幅に低下する可能性があります。分類を強化するために、特性の選択やスケーリングについて多くの研究が行われてきました。進化的アルゴリズムは、機能のスケーラビリティを強化するための特に好まれる方法です。
特徴空間内の最も近い近傍のクラスに点 x を割り当てる最近傍分類子は、最も論理的な最近傍分類子、つまり C_{n}^{{1nn}}(x)=Y_{{(1)}} です。
1 つの最近傍分類器は、トレーニング データセットのサイズが無限大 (データの分布が与えられた場合に達成可能な最小エラー率) に近づくにつれて、エラー率がベイズ エラー率の 2 倍より悪くならないことを保証します。
k-最近傍分類器は、k個の最近傍に重み 1/k を割り当て、他のすべての人に0の重みを割り当てると見なすことができます。
これは、重み付き最近傍の分類子に適用されます。
つまり、ここで、i番目に近い近傍には重みが割り当てられます w_{{ni}} {\textstyle \sum _{i=1}^{n}w_{ni}=1} 。
重み付き最近傍分類器の高い一貫性に関する同様の発見も当てはまります。