분류 전체보기
-
Toward Explainable Deep Neural Network based Anomaly Detection논문 리뷰/XAI for Anomaly detection 2021. 11. 23. 16:23
- DNN + LRP - supervised anomaly detection (binary classification) 1. Introduction - 적기.. 귀찮.. 2. Explainable Deep Neural Networks * DNN의 explainability와 interpretability - 두 용어 거의 같은 뜻으로 쓰임, 본 논문에서도 구분하지 않고 사용 * XAI가 답해야하는 질문 (D. Gunning) 1) Why did it do that? 2) Why didn't it do something else? 3) When does it succeed? 4) When does it fail? 5) When can it be trusted? 6) How can an e..
-
-
Neural Sign Language Translation based on Human Keypoint Estimation수화 프로젝트 2021. 9. 13. 12:20
1. Introduction - Sign language recognition & translation : visual language를 구어로 해석하는 것 * 수화 특징 - 수화는 고유한 문법으로 손의 모양과 움직임을 통해 언어적 의미를 나타냄 - 얼굴의 표현으로 감정과 특정한 의도를 표현함 - 많은 수화는 손과 얼굴 표정의 연속적인 표현으로 구어의 단어와 문장을 표현 - 손(손가락) 언어는 한 손 모양으로 알파벳의 각 문자를 표현 - 즉, 같은 의도여도 수화로 표현하는 것에는 셀 수 없을 정도로 많은 조합 존재 * 문제점 - 수화를 이해하는 것은 높은 수준의 spatial & temporal 지식이 요구됨 - 현재 인공 신경망 기반 컴퓨터 비전 수준으로는 어려운 테스크 - 거기다 인공 신경망을 학습할..
-
GAP공부 2021. 9. 9. 16:43
* Pooling layer - Pooling layer는 주로 convolution layer를 input으로 받음 - Convolution layer는 각 필터 당 하나의 feature map이 형성되고, 그 feature map을 스택처럼 쌓아둔 것 - 복잡한 데이터셋으로 CNN을 구현하는 경우 매우 많은 수의 필터 필요 - 필터가 많다는 것은 CNN의 차원이 매우 크다는 것을 의미함 - 고차원을 구현하려면 그에 상응하는 더 많은 수의 파라미터 필요 - 오버피팅을 초래할 수 있음 - 차원을 감소하기 위한 방법 중 하나가 pooling layer * Global Average Pooling Layer (GAP) - 각 feature map 상의 노드 값들의 평균을 계산하여 급격하게 CNN의 차원을 줄..
-
Learning Deep Features for Discriminative Localization논문 리뷰/Vision 2021. 9. 7. 17:18
1. Introduction - 최근 연구는 물체의 위치가 제공되지 않았음에도 CNN의 convolutional unit이 object detector처럼 행동한다는 것을 보여줌 - 그러나 이러한 능력은 분류를 위해 fully-connected 레이어를 거치며 사라짐 - Network in Nerwork (NIN), GoogLeNet은 fully-connected 레이어를 거치지 않는 대신 global average pooling 사용 - 높은 성능은 유지하면서 파라미터 수를 줄이기 위함 - Global average pooling은 오버피팅을 막기 위한 structural regularizer처럼 행동 - 본 연구는 global average pooling가 마지막 레이어까지 localization 능..
-
[논문 리뷰] Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition수화 프로젝트 2021. 8. 13. 11:28
1. Introduction - 본 논문은 continuous sign language recognition (CSLR)에 집중 CSLR : 일련의 sign을 일치하는 sign gloss sentence로 번역이 목적 - Sign language는 양 손의 shape, position, orientation, movement를 포함하는 manual element와 eye gaze, mouth shape, facial expression, body pose를 포함하는 non-manual element가 동시에 이뤄짐 - 인간은 이러한 반응에서 복잡한 정보를 쉽게 처리하고 분석할 수 있음 - Deep neural network가 다중의 visual cue의 implicit collaboration을 발견하는..
-
-
Transformer공부 2021. 8. 9. 13:47
Minsuk Heo 허민석님의 유튜브 강의 "트랜스포머 (어텐션 이즈 올 유 니드)"를 듣고 정리한 내용입니다. https://www.youtube.com/watch?v=mxGCEWOxfe8 * Transformer 가장 큰 특징 - Encoder / Decoder 기반 - RNN 사용 안함 - 병렬화 * 전통적인 RNN based Encoder / Decoder - context vector는 고정된 크기를 가짐 * RNN based Encoder / Decoder with attention - 고정된 크기의 context vector 사용하지 않음 - 대신 단어 하나씩 번역할 때마다 동적으로 encoder 출력값에 attention mechanism 수행하여 효율적으로 번역 - 긴 문장 번역 성능 개..