
#DeepSeek OCR 2#문서 이해#OCR#기업 비정형 문서+4
TechJan 30, 2026• 5 min read
PDF가 자산이 되는 순간: 차세대 OCR이 바꾸는 기업 문서 지식화
PDF를 ‘검색 가능한 지식’으로 바꾸려면 텍스트 추출만으로는 부족합니다. DeepSeek OCR 2의 DeepEncoder V2와 구조화 출력을 중심으로, 기업 문서 지식화 파이프라인과 솔루션 선택 기준(로컬 vs API)을 한 번에 정리합니다.


PDF를 ‘검색 가능한 지식’으로 바꾸려면 텍스트 추출만으로는 부족합니다. DeepSeek OCR 2의 DeepEncoder V2와 구조화 출력을 중심으로, 기업 문서 지식화 파이프라인과 솔루션 선택 기준(로컬 vs API)을 한 번에 정리합니다.


사용자 행동의 변화와 AI 기술의 발전은 '에이전틱 커머스(Agentic Commerce)'라는 새로운 흐름을 만들어냈습니다. Adobe Business에 따르면, 2025년 10월 생성형 AI 소스에서 리테일 웹사이트로 유입된 트래픽은 전년 대비 1,200%나 급증했습니다. 더 주목할 점은 AI를 통해 유입된 방문자들의 구매 전환율이 일반 트래픽 대비 16% 더 높았다는 것입니다.


그렇다면 딥리서치 시스템이란 정확히 무엇일까요? 단순히 "검색해서 알려줘" 수준을 넘어, 복잡하고 답이 정해져 있지 않은 문제를 해결하기 위해 AI가 스스로 연구 계획을 세우고 실행하는 시스템을 말합니다. 최근 공개된 연구 "Fathom-DeepResearch"는 놀랍게도 단 4B(40억) 파라미터 크기의 작은 오픈 소스 모델(SLM)로도 최상위권의 딥리서치 성능을 낼 수 있음을 증명했습니다. 오늘은 이 논문을 바탕으로, 어떻게 작은 모델이 거대 모델들을 제치고 강력한 리서치 에이전트가 될 수 있었는지, 그 구체적인 레시피를 하나씩 뜯어보겠습니다.
