목록전체 글 (19)
ShuyaVision
Abstract 해당 논문은 convolutional NN을 INT weights와 activations로 quantization하는 기술에 대한 개요를 제시한다. 1. 다양한 CNN NN에 대해 weights를 Channel별 quantization, activations의 Layer별 quantization을 하여 8 bits로 양자화 후, post-training을 통해 floating NN에 비해 2% 내의 분류 정확도를 달성한다. (Section 3.1) 2. 8 bits로 양자화하여 모델의 크기를 4배 이상 줄인다. 8bits 연산이 지원되지 않는 경우에도, post-training을 통해 이를 달성할 수 있다. (Section 3.1) 3. CPU 및 DSP에서 quantized 된 모델의 ..
Section A에서는, common notations 과 problem setup에 대해서 소개하고, B ~ F에서는 basic quantization concepts과 methods를 소개한다. 그리고 G에서는 fine-tuning methods를 소개하고, H에서는 stochastic quantization을 소개한다. A. Problem Setup and Notations 신경망은 학습 가능한 매개변수를 갖는 L개의 층으로 구성되어 있다고 가정한다. 이러한 매개변수는 {W1, W2, ..., WL}으로 표시하며, θ는 이러한 모든 매개변수의 조합을 나타낸다. L(θ) = 1/N ∑ Lossㅣ(xi, yi; θ) 여기서 (x, y)는 input data와 해당 레이블을 나타내며, Loss()는 손실..
DETR은 Object Detection 분야에 Transformer를 도입한 논문이다. DETR은 기존의 object detection 모델들이 사용하는 복잡한 샘플링, post processing 단계를 제거하고, Transformer를 사용하여 전체 이미지에 대한 detection을 수행한다. Object와 bounding box를 직접 예측하고 bi-partite matching을 이용하여 예측된 객체와 실제 객체를 matching 시키면서 end-to-end로 학습을 진행한다. Abstract & Introduction DETR은 기존의 object detection 방법에서 벗어나, 새로운 접근법을 제시한다. 기존의 방법들은 주로 객체들의 bounding box를 예측하기 위해 anchor b..
Abstract 본 논문은 추상적인 수학적인 계산(abstract mathematical computations)을 디지털 컴퓨터로 적용(특히 AI model을 활용해서)하면서 발생하는 수치 값의 효율적인 표현, 조작, 그리고 데이터 전송 문제에 대해 다룬다. 특히 신경망 모델의 뛰어난 성능 때문에, 연속적인 실수 값을 고정된 이산적인 숫자 집합에 어떻게 배분할 지 결정하는 Quantization 문제가 중요해졌다. 이 문제는 메모리와 연산 resource가 매우 제한된 상황에서 특히 중요하다. 본 논문에서는 신경망의 계산과 관련된 양자화 문제에 대한 접근법을 조사하고, 현재의 방법들의 장단점을 고찰한다. Introduction 서론에서는 Neural Networks의 효율성과 정확도를 높이기 위해 다양..
Introduction 논문은, 기존의 classification tasks 들과는 달리, 다른 visual tasks들 특히, biomedical image processing의 경우 각 pixel에 class label 예측이 필요하다고 말하며, fully convolutional network를 제안한다. 특히, 매우 적은 수의 학습 데이터로도 학습이 가능하면서도, 더 정확한 segmentation 성능을 보여준다고 한다. U-Net 또한 FCN의 아디이어를 기반으로 효율적인 Segmentation Model을 제안한다. FCN에서는 CNN에 successive layers(==deconv Layers), 즉 pooling 연산자 대신 upsampling 연산자로 대체한 Layer를 추가함으로써 공..
Introduction Conv Net은 classification 뿐만 아니라, object detection, part and key-point prediction, local correspondence 등에서 꾸준한 성과를 내고 있다. 더 세밀한 추론을 위해서, 모든 픽셀별로 예측을 수행하는 것이 Semantic Segmentation Task다. 이 논문에서는, 픽셀 단위의 예측을 위한 최초의 end-to-end 방식이자, 지도 사전 학습을 진행한다. 또한, 기존의 CNN을 활용한 모델들은 고정된 크기의 입력을 가지고 출력을 생성하는 모델이었지만, FCN에서는 임의 크기의 입력 이미지를 가지고 출력을 생성할 수 있다. 또한 upsampling Layer를 가지고 있기 때문에 출력을 입력과 동일한 ..
Convolution 이란 1. Mathematically : inner product (곱하고, 더하고, 곱하고, 더하고를 반복) + sliding 2. Physically : filtering linear spatial filtering은 sum of product with a specific filter로 정의할 수 있다. Box filtering (average filter) * Box filtering은 각 필셀 주변의 값을 평균내어 해당 픽셀의 새로운 값을 계산하면서, 이미지의 노이즈를 제거하고, 부드러운 효과를 줄 수 있다. 하지만 이는 경계선 부근에서 경계가 뚜렷하지 않은 흐릿한 효과를 만들 수 있다. Gaussian filter kernels -> 거리를 더 고려하게 된다 ( exp() ..
Transformation 수식 : g(x, y) = T[f(x, y)] Basic Functions 1. Image negatives - 색상 반전 2. Log transformation 수식 : s = clog(1 + r) ( log 0 은 -inf 라서 방지 용 1 ) 물리적으로 특성이 변화되지 않기 때문에, 많이 사용된다. --> 이미지의 sparcity(희소성)은 유지하면서도 어두운 부분을 확대하는 데 사용할 수 있다. ( 이미지의 밝기 값이 더 넓은 분포로 변환되기 때문에, 대비가 향상되기 때문 ) 3. Gamma transformation 수식 : s(출력) = cr^(gamma) r은 입력 이미지의 픽셀 값이고, s는 출력 이미지의 픽셀 값이다. Gamma는 변환에 사용되는 gamma값으로..