논문 리뷰/Vision
-
Learning Deep Features for Discriminative Localization논문 리뷰/Vision 2021. 9. 7. 17:18
1. Introduction - 최근 연구는 물체의 위치가 제공되지 않았음에도 CNN의 convolutional unit이 object detector처럼 행동한다는 것을 보여줌 - 그러나 이러한 능력은 분류를 위해 fully-connected 레이어를 거치며 사라짐 - Network in Nerwork (NIN), GoogLeNet은 fully-connected 레이어를 거치지 않는 대신 global average pooling 사용 - 높은 성능은 유지하면서 파라미터 수를 줄이기 위함 - Global average pooling은 오버피팅을 막기 위한 structural regularizer처럼 행동 - 본 연구는 global average pooling가 마지막 레이어까지 localization 능..
-
Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout Convolutions논문 리뷰/Vision 2021. 8. 9. 11:35
1. Introduction - Computer Vision 분야에서 pixel-level dense prediction task를 위한 다목적 convolution-free Transformer backbone network 제안 * Convolutional Neural Network (CNN) - Computer vision 분야의 거의 모든 task에서 지배적인 방법 - Depth가 증가할수록 receptive field 증가 * PVT & ViT 공통점 - pure Transformation models without convolutional operation * Vision Transformer (ViT) - ViT[10]는 image classification을 위해 convolution-fr..