분류 전체보기 9

[CV] YOLO

1. Introduction1.1. 배경 및 필요성컴퓨터 비전에서 “빠르고 정확한 객체 탐지 알고리즘”은자율주행, 보조기기, 범용 로봇 등 다양한 분야에서 필수적임!1.2. 기존 시스템의 한계기존의 객체 탐지 시스템: 분류기를 여러 위치와 크기에 반복 적용하거나, Region Proposal 방식을 사용ex. DPM은 슬라이딩 윈도우 방식으로 분류기를 전체 이미지에 적용하고,R-CNN 계열은 Region Proposal을 생성 후 각 영역에 분류기를 적용한다.이런 방식들은 파이프라인이 복잡하고 각 구성 요소를 별도로 훈련해야 하므로최적화가 어렵고 속도도 느리다.1.3. YOLO의 혁신객체 탐지를 이미지 픽셀에서 바운딩 박스 좌표와 클래스 확률로의 단일 회귀 문제로 재정의함!→ 이미지를 한 번만 보고 모든..

카테고리 없음 2026.05.12

[CV] Fast R-CNN

1. Abstract + Introduction기존 논문의 한계객체 탐지 Task → “위치 후보” 감지, “정확한 위치” 보정R-CNN다단계 훈련 파이프라인→ 컨볼루션 신경망의 특징에 SVM(객체 탐지기 역할, 소프트맥스 분류기 대체) 학습→ 바운딩 박스 회귀기 학습로그 손실로 객체 후보에 대해 ConvNet 미세 조정막대한 시공간 비용수백기가의 저장공간, 이미지 당 47초의 시간연산 공유 없이 각 제안 영역에 대해 순전파SPPNet그러나, 컨볼루션 레이어 업데이트 불가능 → 정확도 하락연산 공유 제안, R-CNN에 비해 속도 크게 향상Fast R-CNN의 제안RoI Pooling Layer: 서로 다른 크기의 제안 영역들을 고정된 크기의 특징 벡터로 변환하여, 전체 이미지에 대해 한 번만 CNN을 돌..

카테고리 없음 2026.05.12

[CV] SPPNet

1. 초록, Intro1. 기존 방식의 한계당시 AlexNet, VGG 등 대부분의 CNN 모델들은 입력 이미지의 크기가 고정되어야 함(FC layer 때문에)강제적인 데이터 변형: 다양한 크기와 비율을 가진 원본 이미지를 특정 크기로 맞추기 위해 Crop(자르기) / Warp(왜곡/비율 조정) 필수정보 손실 및 왜곡:Crop: 이미지의 일부를 잘라내면서 물체의 중요한 정보가 유실Warp: 이미지의 가로세로 비율을 강제로 맞추면서 기하학적인 왜곡비효율적인 객체 탐지: 당시 주류였던 R-CNN 방식은 수천 개의 후보 영역을 각각 CNN에 통과시켜야 했으므로 연산량이 매우 많고 속도가 느림2. 해당 논문의 제안논문은 이러한 문제를 해결하기 위해 Spatial Pyramid Pooling (SPP) 레이어를 ..

카테고리 없음 2026.05.12

[NLP] BERT

1. Abstract + Introduction1. 기존 접근법양방향 문맥 파악 불가단방향: 기존 모델(예: GPT-1)은 왼쪽에서 오른쪽으로만 텍스트를 읽는 단방향 구조→ 문맥을 파악할 때 해당 단어의 뒤에 오는 정보를 활용하지 못함얕은 양방향: ELMo 같은 모델은 왼쪽→오른쪽, 오른쪽→왼쪽 방향의 결합을 시도했으나,이는 두 개의 독립적인 모델을 단순히 이어 붙인 것에 불과하여 깊은 층에서의 상호작용 부족특정 태스크에 국한된 성능: 문장 수준의 태스크(예: 감성 분석)에서는 단방향 모델도 괜찮지만,질문 답변(QA)처럼 양방향 문맥이 필수적인 태스크에서는 성능 한계가 뚜렷사전학습 전략다음 단어 예측 (단방향성)서로 다른 문장 간의 관계는 잘 이해 X사전학습 후 다운스트림에 사용되는 전략Unsupervi..

카테고리 없음 2026.05.07

[NLP] GPT

1. Abstract + Introduction기존의 한계라벨링된 질좋은 데이터의 부족딥러닝을 위해선 “라벨링된” 데이터가 “많이” 필요함하지만 라벨링되지 않은 데이터가 인터넷에 넘쳐나고… 이걸 너무 활용하고 싶음!!!비지도 학습 후의 지도학습으로의 전이학습(준지도학습)을 시도: 이미 학습된 모델의 지식을 새로운 태스크에 적용하는 기법데이터 효율성: 적은 데이터로도 좋은 성능을 얻을 수 있음범용적 적용 가능: 사전 학습된 모델을 다양한 NLP 태스크에 적용할 수 있음계산 비용 절감: 기존에 학습된 모델을 활용하여 일부만 미세 조정하는 것이 훨씬 효율적전이학습의 난관최적화 목적 함수의 불확실성하지만 비지도학습에서는…?지도학습에서는 라벨과의 오차를 줄이는 뚜렷한 최적화 목표가 있음전이 방법의 부재한 번 학습..

카테고리 없음 2026.05.07

Transformer - Attention is All you need

1. Abstract + Introduction기존 모델의 한계당시 최첨단 모델들은 주로 RNN, LSTM, GRU 기반의 인코더-디코더 구조RNN - 단어를 순서대로 처리 → 병렬화 불가능 → 학습 시간 매우 긺장기 의존성 문제: 문장이 길어질수록 멀리 떨어진 단어 사이의 관계를 학습하기 어려움CNN의 시도: CNN을 활용해 병렬화 시도(두 단어 사이 거리가 멀수록 많은 계산이 필요)해당 논문의 제안복잡한 구조를 다 걷어내고 'Attention' 하나에 집중재귀나 컨볼루션을 완전히 제거하고, 오직 Attention 메커니즘에만 기반한 'Transformer' 구조 제안Self-Attention: 문장 내의 각 단어가 서로 어떤 관련이 있는지 스스로 계산하여 문맥을 파악Multi-Head Attentio..

카테고리 없음 2026.05.07

[CV] ResNet

https://arxiv.org/abs/1512.03385 Deep Residual Learning for Image RecognitionDeeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions witharxiv.org 오늘은 CV 분야의 큰 획을 그었던 ResNet 논문을 리뷰할 것이다. ResNet은 잔여학습이라는..

카테고리 없음 2026.04.07