Tech

PDF가 자산이 되는 순간: 차세대 OCR이 바꾸는 기업 문서 지식화

#DeepSeek OCR 2#문서 이해#OCR#기업 비정형 문서#PDF 파싱#문서 구조화#지식베이스
Dongha Lee
Dongha Leedonalee@yonsei.ac.kr
Jan 30, 20265 min read
PDF가 자산이 되는 순간: 차세대 OCR이 바꾸는 기업 문서 지식화

PDF·스캔 문서, 왜 이렇게 안 읽히지? 비정형 문서 데이터와 OCR의 한계

기업들이 보유한 데이터의 80~90%는 비정형(unstructured) 데이터로 추정되며, 2025년까지 전 세계 비정형 데이터량은 175제타바이트에 이를 것으로 전망됩니다. 이러한 방대한 문서 이미지, PDF, 스캔 자료 등을 효과적으로 파싱하고 지식화하는 것은 AI 시대에 중요한 과제가 되었습니다. 그러나 기존 OCR(광학 문자 인식) 기술에는 한계가 있습니다. 전통적인 OCR 시스템은 이미지를 픽셀 그리드 순서(좌상단→우하단)로 단순 스캔하며 텍스트를 추출하는데, 이 방식은 단순한 문단에서는 동작하지만 복잡한 문서 레이아웃에서는 의미 맥락이 깨질 수 있습니다. 예를 들어 다단으로 구성된 문서나 표, 수식이 있는 페이지를 일렬로 펼쳐 읽으면 원래 의도가 왜곡되어 버립니다. 실제로 “2차원 문서를 일률적인 1차원 순서로 펼치면 의미 구조를 잃어버린다”는 지적이 있을 정도로, 전통 OCR은 레이아웃 구조나 문맥 이해가 필요한 업무 문서 처리에 한계를 보여왔습니다.

DeepSeek OCR 2은 뭐가 달라졌나?

이러한 한계를 극복하기 위해 2026년 1월 새로운 접근법의 OCR 모델 DeepSeek OCR 2가 등장했습니다. 중국의 AI 스타트업 DeepSeek이 공개한 이 모델은 30억 개 파라미터 규모의 최신 비전-언어 OCR 모델로, 단순히 글자를 읽는 데 그치지 않고 이미지→텍스트 전환 과정에서 시각적 추론 능력을 크게 강화한 것이 특징입니다. 쉽게 말해 ‘무엇을 읽는가’뿐 아니라 ‘어떻게 읽는가’까지 배우는 OCR이라고 할 수 있습니다. DeepSeek OCR 2는 사람처럼 문서를 이해하는 OCR을 목표로 설계되어, 기존 버전에 비해 구조 이해력과 정답률이 향상되었으며 복잡한 문서에서도 최첨단(SOTA) 수준의 문서 이해 성능을 보여줍니다.

특히 DeepSeek OCR 2는 전통 OCR 시스템과 달리 눈에 보이는 글자만 일렬로 읽어내는 것이 아니라, 문서의 레이아웃과 의미 구조를 함께 파악하여 포괄적인 이해를 제공합니다. 예를 들어 표나 양식에서 레이블과 값을 서로 연관짓고, 여러 단락이 있는 페이지에서 논리적인 읽기 순서를 따르며, 복잡한 페이지도 사람이 읽는 흐름에 가깝게 처리할 수 있습니다. 이러한 능력 덕분에 DeepSeek OCR 2는 단순 OCR을 넘어 문서 이해(Document Understanding) 단계로 진화한 모델로 평가받고 있습니다. 기업 입장에서는 단순 텍스트 추출을 넘어서 문서의 맥락과 구조까지 이해하는 AI를 활용함으로써 비정형 문서를 곧바로 지식베이스화하거나 문서 내용을 정확히 질의응답하는 AI 에이전트를 만드는 것이 한층 수월해질 전망입니다.

Haoran Wei, Yaofeng Sun, Yukun Li. DeepSeek-OCR 2: Visual Causal Flow. arXiv:2601.20552 (2026)
Haoran Wei, Yaofeng Sun, Yukun Li. DeepSeek-OCR 2: Visual Causal Flow. arXiv:2601.20552 (2026)

혁신적 구조: DeepEncoder V2와 인간 수준 읽기 순서

DeepSeek OCR 2의 가장 큰 혁신은 새로운 인코더인 DeepEncoder V2의 도입입니다. 이 인코더는 사람의 읽는 방식을 모방하도록 설계되었는데, 기존 모델이 픽셀 위치 기반으로 기계적으로 읽는 것과 달리 문서 전체를 먼저 조망한 후 사람처럼 논리적인 순서로 시각 정보를 탐색합니다. 구체적으로는, 모델이 처음부터 격자 순서로 훑지 않고 전역적인 이해→세부적인 읽기 2단계를 거치는 것입니다. DeepEncoder V2는 '어디를 먼저 볼지, 다음에 볼지'를 학습함으로써, 마치 독자가 제목을 먼저 보고 중요한 표나 그림을 참조하며 본문을 읽어나가는 것과 비슷한 동작을 수행합니다. 이 Visual Causal Flow라고 불리는 새로운 방식 덕분에 다단 편집된 문서나 복잡한 양식도 컬럼을 따라 자연스럽게 읽고, 폼의 레이블-값을 연결하고, 표를 행과 열 단위로 논리적으로 해석할 수 있게 되었습니다. DeepSeek OCR 2를 만든 팀은 “모델이 이미지를 인간과 동일한 논리적 순서로 ‘볼 수 있게’ 되었다”고 설명합니다.

이를 가능하게 한 비결 중 하나는 모델 인코더에 언어 모델을 활용한 점입니다. 초기 DeepSeek OCR(1세대)은 OpenAI의 CLIP 기반 비전 인코더를 사용했으나, 2세대에서는 이를 Alibaba Cloud의 경량 언어모델 Qwen2-0.5B로 교체했습니다. 언어 모델은 순차적 패턴 이해와 논리적 추론 능력이 뛰어나므로, 시각 피처 추출에만 머물렀던 인코더를 시각적 추론 모듈로 탈바꿈시킨 것입니다. DeepSeek 연구진에 따르면, Qwen2-0.5B 도입으로 모델이 유연하면서도 의미적으로 일관된 스캔 패턴을 따르게 되었고 결과적으로 인간의 읽기 전략을 모방할 수 있었다고 합니다. 요약하면, DeepEncoder V2는 이미지 정보를 한 번에 다 보는 양방향 처리와 순차적으로 따라가는 단방향 처리를 결합하여, 무엇이 보이는지(내용)어떤 순서로 읽을지(순서)를 동시에 모델이 학습하도록 한 것입니다. 이러한 듀얼 어텐션 설계를 통해 인코더가 시각 정보의 논리적 순서를 재구성하고, 그 정돈된 토큰 시퀀스만 디코더(언어 모델)에 전달함으로써 최종 출력의 정확성과 일관성을 높였습니다.

Haoran Wei, Yaofeng Sun, Yukun Li. DeepSeek-OCR 2: Visual Causal Flow. arXiv:2601.20552 (2026)
Haoran Wei, Yaofeng Sun, Yukun Li. DeepSeek-OCR 2: Visual Causal Flow. arXiv:2601.20552 (2026)

이처럼 ‘읽는 법’을 배우는 OCR이라는 개념 덕분에 DeepSeek OCR 2는 단순히 텍스트를 인식하는 단계를 넘어 진정한 문서 이해로 나아가는 교두보를 마련했습니다. 연구 논문에서는 “2차원 문서 이해를 두 단계의 1차원 인과적 추론으로 분해할 수 있다”고 표현하며, 인코더가 시각적 인과 추론, 디코더가 언어적 인과 추론을 담당하는 체계를 강조했습니다. 이는 향후 이미지와 언어, 나아가 음성까지 멀티모달을 자연스럽게 아우르는 통합 AI 아키텍처의 가능성도 시사합니다.

성능 향상과 벤치마크 결과

모델 구조의 혁신은 객관적인 성능 지표 향상으로 이어졌습니다. DeepSeek OCR 2는 문서 이해 평가인 OmniDocBench v1.5에서 이전 버전 대비 종합 점수 +3.73% 상승을 달성하며, 특히 읽기 순서 정확도, 텍스트/수식/테이블 추출 성능에서 큰 개선을 보였습니다. 이는 더 적은 수의 시각 토큰으로 이룬 결과여서 효율성 측면에서도 진전을 이루었음을 의미합니다. 실제로 DeepSeek OCR 2는 동일 벤치마크에서 경쟁 모델인 Gemini-3 Pro보다도 높은 점수를 기록, 현시점 최고 수준의 문서 OCR 성능을 입증했습니다. 그럼에도 모델 크기는 3B로 비교적 경량이어서, 복잡한 레이아웃이나 표가 많은 문서에서도 더 큰 모델들을 능가하는 성과를 보여준 점이 주목할 만합니다.

또한 이 모델은 실제 적용을 위한 정교화(fine-tuning) 측면에서도 뛰어난 잠재력을 보였습니다. 공개된 리포트에 따르면, 특정 언어/도메인에 맞게 파인튜닝했을 때 언어 이해 능력이 86~88% 향상되고, 문자 오류율(CER)은 57~86%까지 감소하는 놀라운 개선이 확인되었습니다. 예를 들어 페르시아어 문서를 대상으로 미세조정을 한 결과, 파인튜닝 전후로 오류율이 86% 줄어드는 성능 향상이 보고되었습니다. 이처럼 도메인 특화 학습을 통해 의료 기록, 법률 문서 등 특수한 문서에서도 높은 정확도를 기대할 수 있습니다. 특히 표준 Vision-Language 모델과 달리 구조화된 출력(예: 마크다운 표나 JSON 형태)을 생성할 수 있다는 점도 실용적 성능을 높여주는 요소입니다. DeepSeek OCR 2에 특정 태그(<|grounding|>)와 프롬프트를 사용하면 문서를 구조까지 살린 마크다운 형태로 변환해주기 때문에, 추출 결과를 바로 데이터베이스나 검색 시스템에 넣어 활용하기가 수월합니다. 예컨대 한 번의 추론으로 문서의 표, 항목, 이미지 주석 등을 포함한 Markdown 결과를 얻을 수 있어, 추가 후처리 없이도 바로 지식베이스화하거나 검색 인덱싱에 활용할 수 있습니다.

이러한 성능과 유연성 덕분에 DeepSeek OCR 2는 연구용으로만 머무는 것이 아니라 상용 환경에서도 충분히 활용될 수 있는 수준(“production-ready”)으로 평가받습니다. 실제 배포를 위해 Hugging Face에 모델 가중치와 상세 문서가 공개되어 있으며, vLLM이나 HuggingFace Transformers, Unsloth 등 다양한 환경에서 구동과 튜닝이 가능하도록 지원됩니다. 적절한 GPU 자원만 갖추면 기업 내 방화벽 안에서 모델을 실행하여 데이터를 처리할 수 있고, 오픈소스이므로 추가 라이선스 비용 없이 필요한 만큼 확장할 수 있다는 것도 매력적입니다.

기업 환경에서의 활용 가능성

DeepSeek OCR 2는 기업 내 비정형 문서 처리에 매우 유망한 도구입니다. 오픈소스이므로 사내 서버에 직접 설치하여 온프레미스 환경에서 운용할 수 있어, 민감한 문서 데이터를 외부로 보내지 않고도 AI 처리를 수행할 수 있습니다. 이는 개인정보나 기밀 문서가 많은 금융, 의료, 공공기관 등에서 프라이버시와 보안 요건을 준수하면서 AI를 활용할 수 있음을 의미합니다. 또한 모델을 자체 도메인에 맞게 파인튜닝하여 용어 체계나 서식 스타일에 최적화하면, 일반 모델을 그대로 쓸 때보다 훨씬 높은 정확도로 내부 문서를 구조화할 수 있습니다. 예컨대 의료기관은 의료용어와 서식에 맞춰 모델을 재학습시켜 진료기록, 처방전, 검사결과 등을 자동으로 파싱하고 축적된 지식을 바탕으로 의료 AI 비서를 운영할 수 있을 것입니다. 금융 기업이라면 수천 장에 이르는 계약서나 재무제표를 모델이 구조화된 데이터로 변환하도록 학습시켜, 법무/회계 분석이나 내부 감사에 활용하는 시나리오도 가능합니다.

기존 상용 OCR API와 비교하면 처리속도 측면에서는 약간의 딜레이가 있을 수 있지만, vLLM과 같은 최적화된 추론 엔진을 사용하면 배치(batch) 형태로 다수 문서를 동시에 빠르게 처리할 수도 있습니다. 실제 벤치마크에 따르면 DeepSeek OCR 2를 vLLM으로 구동할 경우 클라우드 OCR API에 필적할 만큼 빠른 속도를 내면서도, 완전 로컬 환경에서 운용할 수 있었습니다. 물론 대용량 트래픽이 실시간으로 요구되는 서비스에서는 여전히 MistralOCR 같은 전문 API가 유리할 수 있지만, 사내 문서 디지털화나 지식관리 시스템 구축처럼 일정량의 문서를 지속적으로 처리하는 업무에는 DeepSeek OCR 2의 속도도 충분합니다.

기업에서 DeepSeek OCR 2를 활용하는 구체적인 예로, 한 지식을 다루는 기업을 생각해보겠습니다. 우선 사내에 산재한 PDF 보고서, 스캔 문서, 이미지 자료들을 DeepSeek OCR 2로 한꺼번에 처리하여 텍스트+구조가 보존된 출력을 얻습니다. 모델의 <|grounding|> 기능을 활용하면 문서 레이아웃에 맞춰 표, 제목, 항목 리스트 등이 Markdown이나 HTML로 변환되므로 곧바로 검색 가능한 문서 DB로 활용할 수 있습니다. 이렇게 구축된 문서 지식베이스는 사내 검색 플랫폼(예: 엔터프라이즈 검색)에 연결하여 직원들이 필요한 정보를 빠르게 찾도록 하거나, 나아가 QA 챗봇이나 AI 비서와 연동해 “회사 정책 중 연차 휴가 규정이 뭐야?”, “최근 분기별 매출 추이는?” 같은 질문에 대해 관련 문서를 찾아 근거와 함께 답변하도록 만들 수 있습니다. 결국 DeepSeek OCR 2가 사내 정보를 구조화된 지식으로 바꾸는 핵심 엔진 역할을 하게 되는 것이죠.

또한 문서 내 의미 파악이 필요한 업무 자동화(RPA) 측면에서도 이 모델을 활용할 수 있습니다. 예를 들어 보험사의 경우 청구서류를 처리할 때 DeepSeek OCR 2로 청구서 내 보험가입자 정보, 청구 항목, 금액 등을 추출하고 비즈니스 로직과 연동하면 수작업 검증을 대폭 줄일 수 있을 것입니다. 제조업에서는 설계 도면이나 매뉴얼의 텍스트+도형을 읽어 내고 필요한 정보를 추출해 부품 관리나 유지보수 지식으로 축적할 수도 있습니다. 이처럼 비정형 문서 데이터의 활용 범위는 기업 전반의 프로세스에서 매우 넓으며, DeepSeek OCR 2와 같은 AI OCR 기술은 이러한 혁신을 실현하는데 핵심적인 역할을 할 것입니다.

향후 전망과 결론: 기업을 위한 문서 AI의 도약

DeepSeek OCR 2의 등장은 OCR 기술이 단순 문자 인식 단계를 넘어 ‘문서를 이해하는 AI’ 시대로 접어들었음을 알리는 신호탄이라 할 수 있습니다. 모델이 글자를 읽을 뿐 아니라 읽는 방법을 배우게 함으로써 OCR의 정확도와 활용도가 비약적으로 향상될 수 있다는 것을 실증한 사례입니다. 이러한 방향성은 앞으로 멀티모달 AI 발전의 중요한 흐름이 될 전망이며, 궁극적으로는 사람처럼 문서와 이미지를 보고 듣고 이해하는 통합 지능으로 이어질 수도 있습니다. 기업 입장에서는 이제 최신 오픈소스 기술을 활용하여 사내 데이터 자산을 최대한 활용하려는 노력이 더욱 중요해졌습니다. 특히 비정형 문서로 숨어있는 80%의 지식을 끌어내어 업무에 활용하는 기업은 경쟁에서 앞서나갈 가능성이 높습니다.

마지막으로, 저희 연구실에서도 이러한 흐름에 발맞춰 Struct4Search와 같은 솔루션을 통해 기업의 문서 데이터를 구조화된 정보로 변환하고 AI로 활용할 수 있도록 돕고 있습니다. DeepSeek OCR 2와 같은 최신 모델을 통합한 저희의 플랫폼은 문서 자동 파싱, 지식베이스 구축부터 AI 에이전트를 통한 질의응답까지 end-to-end 솔루션을 제공합니다. 관심 있는 기업 담당자분들께서는 비정형 데이터 AI 활용의 가능성을 적극 검토해보시길 권합니다. 앞으로도 DeepSeek OCR 2와 같은 혁신 기술의 발전을 지켜보며, 이를 현장에 적용해 더 똑똑한 기업 지식 시스템을 구축해나가는 것이 디지털 시대의 경쟁력이 될 것입니다.

참고문헌

  1. https://www.forbes.com/councils/forbestechcouncil/2025/11/24/the-untapped-power-of-unstructured-data-in-enterprise-ai/
  2. https://arxiv.org/abs/2601.20552
  3. https://medium.com/data-science-in-your-pocket/deepseek-ocr-2-here-03d0f619584f
  4. https://unsloth.ai/docs/models/deepseek-ocr-2
  5. https://dev.to/czmilo/deepseek-ocr-2-complete-guide-to-running-fine-tuning-in-2026-3odb
  6. https://www.scmp.com/tech/article/3341437/deepseek-taps-alibaba-open-source-ai-technology-boost-ocr-performance