목록Vision AI (12)
ShuyaVision
DETR은 Object Detection 분야에 Transformer를 도입한 논문이다. DETR은 기존의 object detection 모델들이 사용하는 복잡한 샘플링, post processing 단계를 제거하고, Transformer를 사용하여 전체 이미지에 대한 detection을 수행한다. Object와 bounding box를 직접 예측하고 bi-partite matching을 이용하여 예측된 객체와 실제 객체를 matching 시키면서 end-to-end로 학습을 진행한다. Abstract & Introduction DETR은 기존의 object detection 방법에서 벗어나, 새로운 접근법을 제시한다. 기존의 방법들은 주로 객체들의 bounding box를 예측하기 위해 anchor b..
Introduction 논문은, 기존의 classification tasks 들과는 달리, 다른 visual tasks들 특히, biomedical image processing의 경우 각 pixel에 class label 예측이 필요하다고 말하며, fully convolutional network를 제안한다. 특히, 매우 적은 수의 학습 데이터로도 학습이 가능하면서도, 더 정확한 segmentation 성능을 보여준다고 한다. U-Net 또한 FCN의 아디이어를 기반으로 효율적인 Segmentation Model을 제안한다. FCN에서는 CNN에 successive layers(==deconv Layers), 즉 pooling 연산자 대신 upsampling 연산자로 대체한 Layer를 추가함으로써 공..
Introduction Conv Net은 classification 뿐만 아니라, object detection, part and key-point prediction, local correspondence 등에서 꾸준한 성과를 내고 있다. 더 세밀한 추론을 위해서, 모든 픽셀별로 예측을 수행하는 것이 Semantic Segmentation Task다. 이 논문에서는, 픽셀 단위의 예측을 위한 최초의 end-to-end 방식이자, 지도 사전 학습을 진행한다. 또한, 기존의 CNN을 활용한 모델들은 고정된 크기의 입력을 가지고 출력을 생성하는 모델이었지만, FCN에서는 임의 크기의 입력 이미지를 가지고 출력을 생성할 수 있다. 또한 upsampling Layer를 가지고 있기 때문에 출력을 입력과 동일한 ..
Introduction Transformer가 나온 이후로, NLP 영역에서는 Bert, GPT 등, 엄청난 발전들이 이루어 진다. 특히 Transformer의 연산 방식은 수 많은 parmameters들을 활용할 수 있게 했고, 수 많은 데이터를 학습할 수 있게 만들었다. Computer Vision 영역에서도, 이러한 NLP 영역이 부러웠는지, Transformer를 적용하기 위한 노력을 지속적으로 시도했다. 이를 성공한 논문이 https://openreview.net/pdf?id=YicbFdNTTy ViT(Vision Transformer)이다. 논문에서는 image를 여러 patches로 나누고, Transformer에게 input으로 이러한 patches들의 sequence of linear e..