Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

지향성 그라디언트 히스토그램: 시각적 영역 공개: 컴퓨터 비전에서 지향성 그라데이션 히스토그램 탐색
지향성 그라디언트 히스토그램: 시각적 영역 공개: 컴퓨터 비전에서 지향성 그라데이션 히스토그램 탐색
지향성 그라디언트 히스토그램: 시각적 영역 공개: 컴퓨터 비전에서 지향성 그라데이션 히스토그램 탐색
Ebook98 pages52 minutes

지향성 그라디언트 히스토그램: 시각적 영역 공개: 컴퓨터 비전에서 지향성 그라데이션 히스토그램 탐색

Rating: 0 out of 5 stars

()

Read preview

About this ebook

지향성 그라디언트 히스토그램이란 무엇입니까?


컴퓨터 비전 및 이미지 처리 분야에서 HOG (지향성 그라데이션의 히스토그램) 는 객체 감지 목적으로 활용되는 특징 설명자입니다. 이 기술은 이미지의 특정 영역에서 발생하는 그라데이션 방향의 인스턴스 수를 계산하는 데 사용됩니다. 이 기술은 가장자리 방향 히스토그램, 스케일 불변 기능 변환 설명자 및 모양 컨텍스트와 유사합니다. 그러나 이는 균일한 간격의 셀로 구성된 조밀한 그리드에서 계산되고 더 높은 수준의 정확도를 달성하기 위해 중첩되는 로컬 대비 정규화를 사용한다는 점에서 이러한 방법과 다릅니다.


당신이 얻을 수 있는 혜택


(I) 다음 주제에 대한 통찰력 및 검증:


1장: 방향성 그라데이션의 히스토그램


2장: 가장자리 감지


3장: 척도 불변 특성 변환


4장: 강력한 기능의 속도 향상


5장: 글로


6장: 로컬 바이너리 패턴


7장: 지향적인 가속 세그먼트 테스트의 기능및 회전된 바이너리 강력한 독립 기본 기능


8장: 부스팅(머신러닝)


9장: 이미지 분할


10장: 객체 감지


(II) 방향성 그라디언트 히스토그램에 대한 대중의 주요 질문에 답합니다.


(III) 다양한 분야에서 방향성 그라데이션 히스토그램을 사용하는 실제 사례.


이 책은 누구를 위한 책인가


전문가, 학부생 및 대학원생, 열성팬, 취미생활자 및 모든 종류의 그라데이션 히스토그램에 대한 기본 지식이나 정보를 넘어서고 싶은 사람들.

Language한국어
Release dateApr 30, 2024
지향성 그라디언트 히스토그램: 시각적 영역 공개: 컴퓨터 비전에서 지향성 그라데이션 히스토그램 탐색

Read more from Fouad Sabry

Related to 지향성 그라디언트 히스토그램

Titles in the series (100)

View More

Related ebooks

Reviews for 지향성 그라디언트 히스토그램

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    지향성 그라디언트 히스토그램 - Fouad Sabry

    1장: 방향성 기울기의 히스토그램

    컴퓨터 비전 및 이미지 처리에서 HOG(Oriented Gradients)의 히스토그램은 객체 감지에 사용되는 기능 설명자입니다. 이 방법은 이미지의 불연속 영역에 있는 그라데이션의 방향을 사용하여 발생 횟수를 집계합니다. 가장자리 방향 히스토그램, 배율 불변 기능 변환 설명자 및 셰이프 컨텍스트와 비교할 때 이 기술은 균일한 간격의 셀로 구성된 조밀한 그리드에서 계산되고 겹치는 로컬 대비 정규화를 사용하기 때문에 더 정확합니다.

    HOG의 아이디어는 1986년 Wayland Research Inc.의 Robert K. McConnell이 HOG라는 이름 없이 처음 설명했습니다. 그러나 2005년이 되어서야 프랑스 국립 컴퓨터 과학 및 자동화 연구소(INRIA)의 연구원 Navneet Dalal과 Bill Triggs가 컴퓨터 비전 및 패턴 인식 컨퍼런스에서 HOG 디스크립터에 대한 추가 작업을 발표하고 널리 채택되었습니다(CVPR). 처음에는 스틸 사진에서 보행자를 감지하는 데 집중했지만, 이후 비디오에서 사람을 감지하고 스틸 사진에서 다양한 일반 동물과 차량을 감지하도록 테스트를 확장했습니다.

    방향성 그래디언트 디스크립터의 히스토그램은 이미지 내부의 로컬 수준에서 객체의 모양과 모양이 강도 그라데이션 또는 가장자리 방향의 분포로 표현될 수 있다는 아이디어를 기반으로 합니다. 그래디언트 방향의 히스토그램은 이미지의 각 픽셀을 셀이라고 하는 작은 연결된 섹션으로 분해하여 구축됩니다. 이러한 히스토그램을 하나의 단일 메트릭으로 결합하면 설명이 됩니다. 로컬 히스토그램은 먼저 이미지의 더 큰 부분(블록)에 대한 강도 측정값을 계산한 다음 이 값을 사용하여 블록 내의 모든 셀을 정규화함으로써 정밀도를 높이기 위해 대비 정규화할 수 있습니다. 이 표준화의 결과는 밝은 패치와 어두운 패치에 대한 내성 증가입니다.

    HOG 설명이 경쟁업체와 차별화되는 몇 가지 중요한 이점이 있습니다. 주변 셀에만 영향을 미치기 때문에 회전을 제외하고는 스케일이나 조명의 변화에 따라 변하지 않습니다. 더 큰 지역에서만 이러한 종류의 변화를 볼 수 있습니다. 또한 Dalal과 Triggs는 보행자가 몸을 거의 똑바로 세운 상태로 유지하는 한 거친 공간 샘플링, 미세한 방향 샘플링 및 강력한 국소 측광 정규화 덕분에 보행자의 움직임을 무시할 수 있음을 발견했습니다. 그렇기 때문에 HOG 디스크립터는 사진에서 사람을 찾는 데 탁월합니다.

    많은 특징 검출기에서 색과 감마 값을 정규화하는 것은 사진 전처리에서 계산의 초기 단계입니다. 그러나 HOG 디스크립터 계산에서 Dalal과 Triggs는 후속 디스크립터 정규화가 동일한 목표를 달성하기 때문에 이 단계가 필요하지 않다고 주장합니다. 따라서 이미지 전처리는 성능에 미치는 영향이 미미합니다. 대신 그래디언트 값의 계산이 먼저 이루어집니다. 1차원 중심, 점 불연속 파생 마스크를 가로 또는 세로 방향으로 적용하는 것이 가장 일반적인 방법입니다. 이 기술이 작동하려면 다음 커널을 사용하여 이미지의 색상 또는 강도 데이터를 필터링해야 합니다.

    {\displaystyle [-1,0,1]{\text{ and }}[-1,0,1]^{\top }.\,}

    Dalal과 Triggs는 3x3 Sobel 마스크와 대각선 마스크와 같은 더 정교한 마스크를 사용했지만 사진 속 인물을 식별하는 데 덜 효과적이라는 것을 발견했습니다. 또한 파생 마스크를 적용하기 전에 가우시안 스무더를 사용해 보았지만 스무딩이 전혀 없으면 실제로 더 나은 결과를 얻을 수 있다는 것을 발견했습니다.

    셀 히스토그램은 프로세스의 두 번째 단계로 생성됩니다.

    셀 내의 각 픽셀은 그래디언트 값을 사용하여 방향을 기반으로 하는 히스토그램의 구간에 대한 가중치 투표를 합니다.

    셀 자체는 정사각형 또는 원형 구성을 취할 수 있으며 히스토그램의 채널은 그래디언트가 부호 없음 또는 부호 있음인지 여부에 따라 균일한 0-180도 또는 0-360도에 걸쳐 있습니다.

    Dalal과 Triggs의 인간 검출 시험에서 가장 좋은 결과는 부호 없는 기울기를 9개의 히스토그램 채널과 결합했을 때 달성되었으며, 부호 있는 기울기는 자동차 및 오토바이와 같은 방식으로 다른 범주에 대한 객체 인식을 크게 향상시킨다는 점을 지적했습니다.

    각 투표의 중요성 측면에서 픽셀은 그라디언트의 크기나 크기의 크기 또는 함수에 기여할 수 있습니다.

    테스트에서 최상의 결과는 일반적으로 기울기 크기에만 집중하여 얻을 수 있습니다.

    그라데이션 크기의 제곱근 또는 제곱은 투표 가중치의 두 가지 잠재적 측정값 또는 동일한 측정값의 잘린 측정값입니다.

    기울기 강도는 조명과 대비의 변화를 설명하기 위해 국부적으로 정규화되어야 하며, 이를 위해서는 셀을 지리적으로 연결된 더 큰 블록으로 클러스터링해야 합니다. 마지막으로, HOG 디스크립터는 각 블록에 대한 정규화된 셀 히스토그램 성분의 벡터 합입니다. 각 셀은 종종 이러한 블록의 중첩 특성으로 인해 여러 가지 방법으로 최종 설명에 기여합니다. 블록의 가장 일반적인 모양은 R-HOG 블록의 경우 정사각형 또는 직사각형이고 C-HOG 블록의 경우 원형입니다. R-HOG 블록은 일반적으로 정사각형 그리드이며, 여기서 셀 수, 픽셀 수 및 히스토그램 채널 수가 정의 특성입니다. 9개의 히스토그램 채널이 있는 블록당 4개의 8x8 픽셀 셀(16x16 픽셀 블록)은 Dalal과 Triggs가 수행한 인간 검출 실험에서 가장 우수한 것으로 나타났습니다. 또한 히스토그램 투표를 집계하기 전에 각 블록 내에서 가우스 공간 프레임을 사용하여 블록 가장자리 근처의 픽셀에 더 적은 가중치를 제공하면 성능이 약간 향상될 수 있음을 발견했습니다. R-HOG 블록과 SIFT(Scale-Invariant Feature Transform) 디스크립터는 언뜻 보기에는 비슷해 보일 수 있지만 형식은 다릅니다. SIFT 디스크립터는 일반적으로 희소한 스케일 불변 키 이미지 포인트에서 계산되고 방향을 정렬하기 위해 회전되는 반면, R-HOG 블록은 방향 정렬 없이 일부 단일 스케일의 조밀한 그리드에서 계산됩니다. 또한 단독으로 사용되는 SIFT 디스크립터와 달리 R-HOG 블록은 공간 형식 정보를 나타내기 위해 함께 사용됩니다.

    원형 HOG 블록(C-HOG)에는 단일 중앙 셀이 있는 블록과 각진 셀이 있는 블록의 두 가지 유형이 있습니다. 이러한 C-HOG 블록을 특징짓는 네 가지 요인은 각도 및 방사형 Bin의 개수, 중앙 Bin의 반지름, 추가 방사형 Bin의 반지름에 대한 확장 인자입니다. Dalal과 Triggs는 두 가지 기본 변형 간에 성능 차이가 없음을 발견했으며, 4개의 각도

    Enjoying the preview?
    Page 1 of 1