Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

物体検出: 進歩、応用、アルゴリズム
物体検出: 進歩、応用、アルゴリズム
物体検出: 進歩、応用、アルゴリズム
Ebook73 pages8 minutes

物体検出: 進歩、応用、アルゴリズム

Rating: 0 out of 5 stars

()

Read preview

About this ebook

物体検出とは


物体検出として知られるコンピュータ テクノロジーの分野は、コンピュータ ビジョンおよび画像処理と密接に関連しています。その主な目的は、デジタル画像およびビデオ内の特定のクラスに属するセマンティック オブジェクトのインスタンスを識別することです。物体検出の分野では、顔検出と歩行者検出が大きな注目を集めている 2 つの分野です。物体検出は、画像検索やビデオ監視など、さまざまなコンピュータ ビジョン アプリケーションで役立ちます。


メリット


(I ) 以下のトピックに関する洞察と検証:


第 1 章: オブジェクト検出


第 2 章: コンピューター ビジョン


第 3 章: 画像セグメンテーション


第 4 章: テンプレート マッチング


第 5 章: 光学点字認識


第 6 章: ディープラーニング


第 7 章: 畳み込みニューラル ネットワーク


第 8 章: ディープ・ドリーム


第 9 章: 顕著性マップ


第 10 章: 小さなオブジェクトの検出


(II) オブジェクト検出に関するよくある質問に答える.


(III) さまざまな分野での物体検出の使用例の実例。


本書の対象者


専門家、大学生、大学院生、愛好家、趣味人、そしてあらゆる種類のオブジェクト検出についての基本的な知識や情報を超えたいと考えている人。

Language日本語
Release dateMay 4, 2024
物体検出: 進歩、応用、アルゴリズム

Related to 物体検出

Titles in the series (100)

View More

Related ebooks

Reviews for 物体検出

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    物体検出 - Fouad Sabry

    第 1 章: 物体検出

    物体検出は、コンピュータビジョンと画像処理のサブフィールドであり、デジタル画像やビデオの認識可能な被写体をその特性に基づいて識別することを目的としています。顔認識と人数カウントは、よく研究されている物体検出サブフィールドの 2 つの例です。コンピュータビジョンにおける物体検出の用途は、画像検索から監視まで多岐にわたります。

    コンピュータビジョンの分野での一般的なアプリケーションには、画像の注釈、顔の検出、顔の認識、ビデオ内のオブジェクトのコセグメンテーションなどがあります。また、フットボールの試合のボール、クリケットの試合でのクリケットのバット、ビデオゲームの人物などを追跡するためにも使用されます。

    物体検出タスクは、通常、テスト画像が異なるデータ分布からサンプリングされるため、はるかに困難になります。ラベルは人間の介入を必要としないため、クロスドメインオブジェクト検出は、自動運転を含むさまざまなコンテキストで使用されます。

    オブジェクトのクラスは、共通の特性によって互いに区別できます。たとえば、すべての円は球形であるという特性を共有しています。一意の特性は、オブジェクトのクラスを決定するために使用されます。たとえば、円の場合、特定の点から特定の半径にあるオブジェクトを検索します。同じロジックが正方形の検索にも当てはまり、垂直な角と等しい長さの辺を持つオブジェクトが必要です。目、鼻、唇などの顔の特徴だけでなく、肌の色や目と目の間の距離などの非解剖学的特徴も、顔の識別に同様の方法で使用されます。

    物体検出方法は、ニューラルネットワークベースまたは非ニューラルのいずれかに分類できます。ニューラルネットワークに頼らずにデータを分類するには、まず以下のいずれかの方法で特徴を定義する必要があります。ただし、通常、畳み込みニューラル ネットワークに基づくニューラル手法では、特徴の定義 (CNN) を必要とせずにエンドツーエンドのオブジェクト検出を実行できます。

    非ニューラル手法の使用:

    Viola-JonesフレームワークとHaar機能を用いた物体認識

    スケール不変特徴量の変換 (SIFT)

    配向勾配ヒストグラム (HOG) 特性

    ニューラルネットワークに基づく方法:

    地域別提案(R-CNN)

    個別のマルチボックス検出器(SSD)

    When You See It, You Know (YOLO) (あなたがそれを見るとき、あなたはそれを知っている (YOLO))

    物体を識別するための1回限りの微調整を備えたニューラルネットワーク(RefineDet)

    網膜ネット

    変形可能畳み込みネットワーク

    {チャプター1終了}

    第 2 章: コンピュータビジョン

    コンピュータがデジタル画像やビデオから高度な知識を引き出す方法の研究は、コンピュータビジョンの学際的な科学分野の焦点です。技術的な観点から、人間の視覚システムの能力の範囲内で活動を調査し、自動化を試みます。

    コンピュータビジョンに関連するタスクには、デジタル画像を取得、処理、分析、理解するための技術や、判断などの数値的または記号的な情報を作成するために物理環境から高次元データを抽出する技術が含まれます。

    コンピュータビジョンは、画像から情報を導き出すように設計された人工システムの理論的基盤を調査するコンピュータサイエンスのサブフィールドです。視覚データは、ビデオシーケンス、複数のカメラから得られる画像、3Dスキャナまたは医療用スキャン機器から得られる多次元データなど、さまざまな形式で提示され得る。コンピュータビジョンとして知られる技術分野の目標は、コンピュータビジョンシステムを構築する過程で開発したアイデアとモデルを実装することです。

    シーン再構成、オブジェクト検出、イベント検出、ビデオ追跡、オブジェクト認識、3D姿勢推定、学習、インデックス作成、動作推定、ビジュアルサーボ、3Dシーンモデリング、および画像復元の分野はすべて、コンピュータービジョンのサブドメインです。コンピュータビジョンのその他のサブドメインには、3Dシーンモデリングが含まれます。

    コンピュータビジョンは、デジタル写真や映画から高度な知識を抽出するためにコンピュータをプログラムする方法を調べる学際的な研究です。この領域では、コンピューターに表示されているものを理解するようにコンピューターに教える方法に焦点を当てます。エンジニアリングの観点からは、人間の視覚システムによってすでに実行できる操作を自動化する方法を見つけることが目標です。コンピュータビジョンは、既存の理論とモデルをコンピュータビジョンシステムの構築プロセスに適用することに焦点を当てた情報技術分野の研究分野です。

    1960年代後半、人工知能の最先端を走っていた大学が、コンピュータビジョンの実験に初めて取り組みました。その目的は、人間の視覚システムと同じように機能し、ロボットに知的な行動を吹き込むことを最終目標としていました。1990年代には、以前に研究されていたいくつかの研究分野が他の研究分野よりも活発になりました。射影的3次元再構成の研究は、カメラのキャリブレーション方法の理解を深めることにつながりました。カメラキャリブレーションの最適化技術の導入により、フォトグラメトリのバンドル調整理論の分野によって、かなりの数の概念が以前に調査されていたことが明らかになりました。この開発の結果、これが明るみに出ました。その結果、数枚の写真を用いてシーンをまばらに3次元的に再構成する技術が開発されました。高密度ステレオ対応の問題と、さらなるマルチビューステレオアプローチの開発の両方において、ある程度の前進が見られました。同時に、画像のセグメンテーションの問題に対処するために、グラフカットの多くのバリエーションが使用されました。この10年間は、写真の中の顔を認識するタスクに統計的学習法が実際に使用されたのは初めてであったため、特に重要でした(Eigenfaceを参照)。近年、コンピュータグラフィックスとコンピュータビジョンの分野はより密接に絡み合っており、両者の間で行われるコラボレーションの量が大幅に増加しています。これは、ライトフィールドレンダリング、パノラマ画像スティッチング、画像モーフィング、ビュー補間、および画像ベースのレンダリングの初期の形式を特徴としていました。コンピュータビジョンの分野は、ディープラーニングに基づくアルゴリズムの開発により、新たな息吹を吹き込まれました。分類からオプティカルフローまで、さまざまなタスクの多数のベンチマークコンピュータービジョンデータセットに対するディープラーニングアルゴリズムの精度は、以前のアプローチの精度を上回っています。これらのタスクには、画像のセグメンテーションとオプティカルフローが含まれます。

    ソリッドステートコンピュータビジョンは、物理学を含む他の多くの分野と強く結びついています。コンピュータビジョンシステムの大部分は、電磁放射を検出できるデバイスであるイメージセンサーに基づいています。この放射線は、一般に可視光または赤外光として現れます。センサーの開発には量子物理学が使用されました。物理学の科学分野は、光が表面と相互作用する方法の説明を提供します。大部分のイメージングシステムの基本コンポーネントである光学系の挙動は、物理学によって説明できる可能性があります。画像が形成されるプロセスを包括的に理解するために、高度なイメージセンサーには量子力学を使用する必要があります。コンピュータビジョンは、流体の運動など、物理学で発生するさまざまな測定の問題を解決するためにも使用できます。

    神経生物学の科学分野、特に生物学的視覚系の研究。人間と多様な動物の両方の視覚入力の処理に専念する目、ニューロン、および脳領域は、前世紀にわたってかなりの量の研究の対象となってきました。この結果、さまざまな視覚関連のタスクを完了するために「実際の」視覚システムがどのように機能するかについて、単純だが複雑な説明が登場しました。これらの発見の結果として、人工システムが生物学的システムの処理と動作を模倣することを意図しているというコンピュータービジョンのサブフィールドが出現しました。コンピュータビジョンで生み出された学習ベースのアプローチの多くは、生物学に根ざしています。これらの学習ベースの手法の例としては、ニューラル ネットやディープ ラーニング ベースの画像と特徴の分析と分類が含まれます。

    コンピュータビジョン研究のいくつかの分野は、生物学的ビジョンの研究と非常によく似ています。また、AI研究の多くの分野は、人間の意識の研究や、以前に獲得した知識を応用して視覚入力を解釈、統合、活用することと非常によく似ています。ヒトや他の動物の視覚の根底にある生理学的メカニズムの研究とモデリングは、生物学的視覚の学問分野の範囲です。一方、コンピュータビジョンは、人工ビジョンシステムの基盤となるソフトウェアとハードウェアに実装されているプロセスの研究と記述です。生物学的視覚科学とコンピュータビジョンの学際的なコラボレーションは、この2つの分野に有益であることが示されています。

    信号処理は、コンピュータビジョンに関連するもう一つの研究分野です。コンピュータビジョンでは、2変数信号または多変数信号の処理は、1変数信号(多くの場合、時間信号)の処理から自然に拡張される可能性があります。これにより、信号解析の柔軟性が高まります。しかし、画像のユニークな特性により、コンピュータビジョンの分野は、単一の変数のみを含む信号の処理に類推できないさまざまな技術を生み出してきました。これは、信号自体が多次元であるという事実と相まって、コンピュータビジョンの傘下に入る信号処理内にセクターを作成します。

    ロボットナビゲーションには、エリア全体のコースの自律的な計画、またはその環境内を移動するロボットシステムの意図的な意思決定のいずれかが含まれます。さまざまな生態系をうまくナビゲートするためには、それらを包括的に理解することが不可欠です。コンピュータビジョンシステムは、ビジョンセンサーとして動作し、環境とロボットに関する高レベルの情報を提供することで、周囲に関する情報を提供する場合があります。この情報は、コンピューター ビジョン システムによって提供されます。

    コンピュータビジョンに関連する研究対象の多くは、コンピュータビジョンについてすでに説明した視点に加えて、純粋数学の観点からも検討される可能性があります。統計、最適化、および幾何学は、コンピューター ビジョンで使用される多くのアプローチが構築される基盤のほんの一部にすぎません。結論として、この分野のかなりの部分がコンピュータビジョンの実装側に焦点を当てています。この分野では、既存の手法をさまざまなソフトウェアおよびハードウェア構成で実現する方法と、十分なレベルのパフォーマンスを維持しながら処理速度を向上させるためにこれらの手法を変更する方法を調査します。これらのアプリケーションに加えて、コンピュータービジョンは、ファッション業界の電子商取引、在庫管理、特許検索、家具ビジネス、および美容分野で使用されています。

    画像処理、画像解析、およびマシンビジョンは、コンピュータービジョンに最も密接に関連する研究分野です。これらでカバーされる方法とアプリケーションのスペクトルには、かなりの量の重複があります。このことは、様々な分野で用いられ、展開されている基本的なアプローチが同等であることを示唆しており、一つの分野に複数のタイトルがあることを示唆しているようにも読めるかもしれません。一方、研究グループ、科学雑誌、会議、および企業は、これらの分野のいずれかに特化して属しているかのように提示または販売する必要があるようです。その結果、各分野を他の分野と区別するさまざまな特性評価が提示されています。具体的には、画像処理では、入力が画像であり、出力も画像です。しかし、コンピュータビジョンでは、画像や映像を入力として使用し、出力は、改善された画像、画像の内容の理解、またはそのような理解に基づくコンピュータシステムの動作である可能性があります。画像処理は、コンピュータビジョンのサブフィールドです。画像処理は、コンピュータビジョンのサブフィールドです。画像処理は、画像処理のサブフィールドです。

    コンピュータグラフィックスもコンピュータビジョンも、画像データから画像データや3Dモデルを作成します。多くの場合、コンピュータグラフィックスは画像データから3Dモデルを構築します。また、拡張現実(AR)の研究のように、2つの研究分野を融合させる動きもあります。

    以下の特徴付けは、適切に見えるにもかかわらず、広く合意されているものとして扱われるべきではありません。

    画像処理と画像解析は、通常、2 次元画像と、ある画像を別の画像に変換する方法を中心に行われます。これには、コントラスト強調などのピクセル単位の操作、エッジ抽出やノイズ除去などの局所的な操作、または画像の回転などの幾何学的変換が含まれる場合があります。ただし、3次元画像を処理して解析することも可能です。この定義の意味するところは、画像処理と分析は仮定を必要とせず、画像コンテンツに関する解釈をもたらさないということです。

    コンピュータビジョンでは、2Dの画像に対して3D解析を行います。これにより、1 枚以上の写真に投影された 3D シーンの解析が行われます。たとえば、1 枚以上の写真を使用して 3D シーンに関する構造やその他の情報を再構築する方法を決定します。コンピュータビジョンの分野では、画像に表示されている設定について、多かれ少なかれ複雑な仮定を行うことがよくあります。

    画像ベースの自動検査、プロセス制御、ロボットガイドを提供するために、さまざまな技術とプロセスを使用するプロセスは、マシンビジョンと呼ばれるものです。このことは、ロボットを制御するために、画像データの処理にイメージセンサー技術や制御理論が統合されることが多く、ハードウェアとソフトウェアの両面で効率的な実装を行うことで、リアルタイム処理が重視されていることを示唆しています。また、このことは、画像データがリアルタイムに処理されていることを示唆しています。また、照明などの外部環境は、一般的なコンピュータービジョンよりもマシンビジョンの方が適切に制御されている可能性があり、通常は規制されていることも示唆しています。これにより、マシンビジョンアプリケーションでより多様なアルゴリズムアプローチを使用できます。

    イメージングは、主に画像の作成に焦点を当てたコンピューターサイエンスの別のサブフィールドですが、処理や分析など、イメージングの他の側面と連携することもあります。たとえば、医療におけるイメージングは、多くの医療アプリケーションで画像データの処理にかなりの労力を伴います。

    結論として、パターン認識は、統計的手法と人工ニューラルネットワークに基づくさまざまな手法を使用して信号全般から情報を抽出するコンピューターサイエンスのサブフィールドです。これらのアプローチの画像データへの適用は、この主題の作業のかなりの部分を占めています。

    また、ステレオ写真測量とコンピューターステレオビジョンなど、写真測量とコンピュータービジョンの間には重複する部分もあります。

    例えば、生産ライン上を高速で通過するボトルを検査する産業用マシンビジョンシステムは、コンピュータビジョン技術の多くのアプリケーションの一例にすぎません。また、人工知能の研究や、周囲の世界を理解できるコンピュータやロボットの開発などにも応用されています。コンピュータビジョン分野とマシンビジョン分野の間には多くのクロスオーバーがあります。自動画像分析の基礎となる手法はコンピュータービジョンとして知られており、さまざまな分野で使用されています。マシンビジョンは、自動画像解析を他の技術や技術と融合させて、産業用途での自動検査やロボットガイドを可能にするプロセスです。このプロセスは、しばしば「マシンビジョン」と呼ばれます。コンピュータビジョンの多くのアプリケーションでは、コンピュータは特定のジョブを実行するように事前にプログラムされています。しかし、学習に基づくアプローチは、現在ますます普及し、普及しています。コンピュータビジョンは、次のようなさまざまなアプリケーションで使用されています。

    自動検査、例えば、製造に関連するアプリケーション。種を識別するためのシステムなど、識別に関連する活動で人々を支援する。たとえば、産業用ロボットなどを担当する。目視による監視や、顧客を数える目的でのレストラン事業など、発生の特定。相互作用:人間とコンピュータの相互作用を促進するために設計された技術に提供される入力など。医用画像の分析や地形モデリングは、さまざまな種類の設定や物事をモデル化する2つの例です。例えば、自動運転車や移動ロボットによるナビゲーション。そして

    写真や画像シーケンスを含むデータベースのインデックス作成などの目的で、情報整理。

    拡張現実(AR)体験を可能にするために、表面または平面を 3 次元座標で追跡するプロセス。

    医用コンピュータビジョンは、医用画像処理とも呼ばれ、今日最も重要なアプリケーション分野の1つです。この主題は、患者を診断するために画像データから情報を抽出するプロセスによって定義されます。腫瘍、動脈硬化、またはその他の悪性変化の検出は、この概念の1つの例です。他の例としては、臓器の大きさ、血流などの測定が含まれます。また、脳の組成や治療法の有効性など、これまで知られていなかった事実を明らかにすることで、医学研究の進歩にも貢献しています。医療分野では、X線画像や超音波画像など、人間が理解できる画像の拡張だけでなく、ノイズが画像に及ぼす影響の低減など、コンピュータビジョンの応用が進んでいます。

    製造プロセスを容易にすることを目的とした情報の抽出は、コンピュータビジョンの2番目のアプリケーション分野の焦点であり、特定の分野ではマシンビジョンとも呼ばれています。その一例が品質管理で、細部や完成品を自動検査して欠陥を探すことです。ウェーハ部門は、このような検査で最も頻繁に行われる業界の1つです。この業界では、コンピュータチップが使用できない方法で市場に出るのを防ぐために、すべてのウェーハが測定され、エラーや障害がないか検査されます。別の例としては、ロボットアームによって収集される詳細の位置と向きの計算があります。マシンビジョンは、農業プロセス、つまり、貴重な食品をバルク材料から分離するために使用される光学選別と呼ばれるプロセスでも広く採用されています。

    軍事用途は、コンピュータビジョンの最大の市場の1つであると言っても過言ではありません。これの最も明白な例は、敵対的な人員や車両の追跡とミサイルの誘導です。より新しく、より洗練されたミサイル誘導方法は、発射体を特定の目標ではなく地域に向ける。目標の選択は、ミサイルがその場所に到着した後に行われ、現地で取得した画像データに基づいて行われます。「戦場認識」など、現代のさまざまな軍事概念は、イメージセンサーを含むさまざまなセンサーが、戦略的選択を支援するために利用できる戦闘シナリオに関する豊富な情報のコレクションを提供することを示唆しています。この情報は、戦術的な決定を支援するためにも使用できます。このシナリオでは、データの自動処理を使用して、プロセスを簡素化し、多数のセンサーからの情報を融合して信頼性を高め、全体的な複雑さを軽減するという目標を達成します。

    自律走行車は、潜水艇、陸上車両(車輪付きの小型ロボット、自動車、トラック)、航空機、無人航空機などであり、最近の応用分野(UAV)の1つです。自動運転の度合いは、完全に無人の自動車から、コンピュータービジョンシステムを使用してさまざまなシナリオでドライバーやパイロットを支援する車両までさまざまです。完全自律走行車は、このスペクトルの最高峰にあります。コンピュータビジョンは、完全自動運転車のナビゲーションに一般的に使用されています。これにより、車両はSLAM(Simultaneous Localization and Mapping)を使用して周囲のマップを作成し、潜在的な危険を特定することができます。さらに、UAV が森林火災を検索しているときなど、タスク固有の特定のイベントの検出にも使用できます。支援システムの例としては、自動車の障害物警報システムや、航空機が自律的に着陸できるようにするシステムなどがあります。すでに複数の自動車メーカーが自動運転向けシステムを展示しているが、まだ商品化して消費者に販売できる段階には至っていない。高度なミサイルから偵察やミサイルの誘導に使用される可能性のある無人航空機(UAV)まで、軍用自律走行車にはいくつかの例があります。コンピュータービジョンを利用した自律走行車は、すでに宇宙探査に利用されています。例えば、NASAのキュリオシティやCNSAのYutu-2ローバーは、どちらもその例です。

    ゴムやシリコンなどの物質は、センサーの製造に使用され、その後、微小なうねりの検出やロボットハンドのキャリブレーションなどの用途に使用されています。ゴムを使って指にかぶせる型を作ることができ、この型の中にはひずみゲージがいくつも入っています。この金型は、利用できるように作成することができます。その後、フィンガーモールドとセンサーを、ゴムピンのグリッドが埋め込まれた薄いゴムシートの上に配置できます。その後、使用者は、指型を装着した状態で表面をなぞってもよい。その後、ひずみゲージからのデータをコンピュータで読み取ることができ、コンピュータは1つ以上のピンが上がっているかどうかを判断できます。ピンが上向きに押し上げられると、コンピューターはピンの位置により、これを表面の欠陥として識別できます。この種の技術を使用することで、非常に広い領域に存在する傷に関する正確なデータを収集できます。

    その他のアプリケーション ドメインには、次のものがあります。

    カメラトラッキング(マッチムーブ)など、映画やテレビの視覚効果の制作支援。

    監視。

    ドライバーの眠気検知

    生物学の研究の一環としての生物の観察と集計

    前述の各アプリケーションドメインは、多かれ少なかれ明確に定義された測定の問題または処理の問題と考えることができる多くのコンピュータービジョンタスクを利用します。これらの問題は、さまざまな手法を使用して処理できます。以下は、コンピューター ビジョンの一般的なジョブの例です。

    コンピュータビジョンに関連するタスクには、デジタル画像を取得、処理、分析、理解するための技術や、判断などの数値的または記号的な情報を作成するために物理環境から高次元データを抽出する技術が含まれます。

    画像データに特定の項目、特徴、またはアクティビティが含まれているかどうかを判断することは、コンピュータービジョン、画像処理、およびマシンビジョンにおける「古典的な問題」と見なされます。この問題は、多くのサブ問題に分解できます。これまでに行われた研究では、認識の難しさのいくつかの形態が説明されています。

    オブジェクト認識は、オブジェクト分類とも呼ばれ、事前に指定または学習された 1 つ以上のアイテムまたはオブジェクト クラスを、多くの場合、画像内の 2D 座標またはシーン内の 3D 姿勢とともに識別できるプロセスです。物体認識は、コンピュータによって行うことができる。この機能は、Blippar、Google Goggles、LikeThatなどのスタンドアロンアプリによって示されています。

    識別中に、アイテムの特定のインスタンスが存在したことが確認されます。この例としては、顔や指紋に基づく特定の人物の識別、メーカーとモデルに基づく特定の車の識別、手書きの数字の識別などがあります。

    検出プロセスでは、特定の状態を探すために画像データが分析されます。医用画像における異常の可能性のある細胞や組織の認識は、その一例です。別の例としては、自律型道路料金システムにおける車両の検出があります。場合によっては、比較的単純で高速な計算に基づく検出を使用して、関心のある画像データのより小さな領域を見つけます。これらのデータ領域は、正確な解釈を行うために、はるかに多くの計算能力を必要とする方法でさらに分析することができます。

    現時点では、このようなジョブを完了するための最も効果的なアルゴリズムは、畳み込みニューラルネットワークに基づくアルゴリズムです。ImageNet Large Scale Visual Recognition

    Enjoying the preview?
    Page 1 of 1