
'관련 페이지 찾기'에서 '정확히 읽기'로: 기업 문서 AI를 위한 다음 단계
비정형 데이터 80% 시대, 기업 문서 AI는 페이지 검색을 넘어 '정확한 읽기'로 진화 중입니다. 관련 페이지를 찾아오는 데까지는 성공했지만, 정작 그 안에서 답을 읽어내는 일은 또 다른 문제입니다. 작은 글씨, 복잡한 표, 흩어진 시각 요소까지 놓치지 않으려면 모델은 어디를 어떻게 읽어야할까요?


비정형 데이터 80% 시대, 기업 문서 AI는 페이지 검색을 넘어 '정확한 읽기'로 진화 중입니다. 관련 페이지를 찾아오는 데까지는 성공했지만, 정작 그 안에서 답을 읽어내는 일은 또 다른 문제입니다. 작은 글씨, 복잡한 표, 흩어진 시각 요소까지 놓치지 않으려면 모델은 어디를 어떻게 읽어야할까요?


Karpathy의 autoresearch는 실험 루프를, Sakana AI의 AI Scientist는 아이디어부터 논문까지를 AI 에이전트에게 통째로 넘긴다. 메트릭 최적화의 한계는 분명하지만, 연구자의 역할이 실행에서 방향 설계로 이동하고 있다는 신호는 뚜렷하다.


AI가 웹에서 직접 행동하는 시대, 핵심은 모델의 지능이 아니라 그 지식을 행동으로 바꾸는 파이프라인이다. OpenClaw의 부상과 WebFactory의 intelligence compression을 통해 웹 에이전트 경쟁의 새로운 축을 짚는다.


초개인화시대, 사용자는 이제 추천 리스트보다 ‘나에게 맞는 진행 방식’을 기대한다. 전통적 후보 노출 최적화에서 에이전트형 장기 상호작용 정렬로 넘어가며, 사용자 맞춤형 선호 기준을 학습 가능한 신호로 만드는 개인화 보상모델링과 P-Check의 인사이트.


PDF를 ‘검색 가능한 지식’으로 바꾸려면 텍스트 추출만으로는 부족합니다. DeepSeek OCR 2의 DeepEncoder V2와 구조화 출력을 중심으로, 기업 문서 지식화 파이프라인과 솔루션 선택 기준(로컬 vs API)을 한 번에 정리합니다.


사용자 행동의 변화와 AI 기술의 발전은 '에이전틱 커머스(Agentic Commerce)'라는 새로운 흐름을 만들어냈습니다. Adobe Business에 따르면, 2025년 10월 생성형 AI 소스에서 리테일 웹사이트로 유입된 트래픽은 전년 대비 1,200%나 급증했습니다. 더 주목할 점은 AI를 통해 유입된 방문자들의 구매 전환율이 일반 트래픽 대비 16% 더 높았다는 것입니다.


그렇다면 딥리서치 시스템이란 정확히 무엇일까요? 단순히 "검색해서 알려줘" 수준을 넘어, 복잡하고 답이 정해져 있지 않은 문제를 해결하기 위해 AI가 스스로 연구 계획을 세우고 실행하는 시스템을 말합니다. 최근 공개된 연구 "Fathom-DeepResearch"는 놀랍게도 단 4B(40억) 파라미터 크기의 작은 오픈 소스 모델(SLM)로도 최상위권의 딥리서치 성능을 낼 수 있음을 증명했습니다. 오늘은 이 논문을 바탕으로, 어떻게 작은 모델이 거대 모델들을 제치고 강력한 리서치 에이전트가 될 수 있었는지, 그 구체적인 레시피를 하나씩 뜯어보겠습니다.
