ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • SuperPoint: Self-Supervised Interest Point Detection and Description
    논문 정리 2022. 3. 9. 18:27
    반응형

    SuperPoint를 설명하기 앞서 이미지 특징점 (keypoint)란 무엇인지 알아야 한다.

     

    이미지 keypoint이란 말 그대로 이미지에서 특징이 되는 부분을 의미한다. 이미지 매칭 시, 즉 이미지끼리 서로 매칭이 되는지 확인을 할 때 각 이미지에서의 특징이 되는 부분끼리 비교를 한다. 보통 특징점이 되는 부분은 물체의 모서리나 코너인데, 그래서 대부분의 특징점 검출을 코너 검출을 바탕으로 하고 있다.

    이러한 keypoint는 크게 samantic keypoint와 interset point로 나뉘는데, samantic keypoint는 그림과 같이 사람의 골격, 물체의 의미론적인 특정 위치를 기반으로 하기 때문에 정의하기가 쉽지만 interset point의 경우 모서리, 꼭짓점과 같은 low-level point들로 의미론적인 정의가 어려워 이를 supervised learning으로 다루는 것이 어렵다.

     

    따라서 이러한 interset point를 러닝으로서 학습하는 SuperPoint는 아래와 같은 단계의 self-supervised learning을 이용해 이러한 문제를 해결한다.

     

    먼저 MagicPoint를 찾는 모델을 pre-training 한다.

     

     

    먼저 위 그림과 같이 간단한 파이썬 코드를 사용하여 정육면체 선 별 및 바둑판과 같은 간단한 기하학적 모양을 포함하는 합성 데이터 세트를 생성한다. 이 과정으로 label과 함께 기하학적 모양 이미지를 만든다. 이러한 점들을 이용해 MagicPoint라 불리는 Base Detector를 학습시킨다.

     

    문제는 이러한 방법으로 학습된 모델은 합성된 이미지에서는 잘 동작하지만 실제 이미지에서는 일반화가 어렵다는 문제가 있다. 이러한 일반화 문제를 해결하기 위해 저자들은 Homographic Adaptation이라 불리는 multi-scale, multi-transform 기술을 적용한다.

     

     

    Homographic Adaptation은 Homography에 강인한 interest point를 찾기 위한 과정으로 psuedo ground truth interest point를 찾는 방법이다. 위 그림과 같이 unlabeled 이미지를 다양한 homography를 적용하여 이미지를 변형 시킨다. 이 다음 pre-train된 MagicPoint에 집어넣어 예측 interest point들을 뽑고 이 결과들을 모두 합쳐 (원래 이미지로 역변환을 시킨다.) psuedo ground truth interest point를 생성한다.

     

    이 과정을 합치면 아래 그림과 같다. 이렇게 생성된 interest point들은 MagicPoint 학습에 다시 사용된다.

     

     이제 모델의 전체 구조는 아래와 같다.

     

    SuperPoint는 다수의 이미지 페어들에서 좋은 keypoint matching이 되는 것을 목적이기 때문에 matching이 잘 되는 keypoint만을 추출하는 것이 중요하다.

     

    우선 Keypoint matching을 하기 위해서는 keypoint의 2D location을 추출해주는 keypoint detector와 keypoint의 매칭을 위한 정보를 추출해주는 keypoint descriptor가 필요하다. 여기서, 같은 keypoint를 다른 각도에서 바라보아도 비슷한 keypoint descriptor가 뽑히며, 다른 keypoint의 descriptor와는 차이가 나타나야한다.

     

    위 과정을 요약하자면 keypoint detector는 keypoint label을 supervised learning으로 학습하였으며 keypoint detector로 찾은 keypoint location에서 descriptor를 추출하여 비교한 후 descriptor 학습을 수행한다. 이때 keypoint descriptor 학습은 contrastive loss를 이용한 metric learning 기법을 사용한다.

     

    반응형

    댓글

Designed by black7375.