DeepSeek-OCR: Contextual Optical Compression 논문리뷰

dandan·2026년 1월 20일

AI 논문 리뷰

목록 보기

2/4

1. Introduction

DeepSeek-OCR 논문은 기존 OCR 및 VLM 기반 문서 이해 모델들이 시각 토큰 수가 과도하게 많다는 문제의식에서 출발한다. 고해상도 문서 이미지를 그대로 토큰화하면, 모델은 불필요한 시각 정보까지 처리해야 하고 이는 곧 비용 증가와 추론 지연으로 이어진다.

저자들은 이 문제를 단순히 “모델을 더 크게” 혹은 “토큰을 줄이자”로 접근하지 않는다. 대신, 문맥적으로 중요한 시각 정보만 남기고 나머지는 압축할 수 있지 않을까? 라는 질문을 던진다.

이 부분을 읽으면서 나는 기존 OCR 파이프라인이 사실상 이미지 → 텍스트 변환에만 집중해 왔고, 이미지 자체를 정보 압축의 대상으로 본 시각은 상대적으로 적었다는 점을 다시 생각하게 됐다.

dandan

hustle

이전 포스트

Deep Residual Learning for Image Recognition 논문리뷰

다음 포스트

DeepSeek-OCR: Contextual Optical Compression 논문리뷰

AI 논문 리뷰

1. Introduction

Deep Residual Learning for Image Recognition 논문리뷰

Attention Is All You Need 논문리뷰

0개의 댓글