UX 평가에 들어온 가상 사용자: AI는 실제 사용자를 대신할 수 있을까?

"사용자 테스트 언제 할 수 있어요?"라는 질문을 받을 때마다 답이 항상 같습니다. 일정 잡고, 인터뷰이 모집하고, 최소 2주. 초기 아이디어 단계라면 더 오래 걸립니다. 그 사이 개발은 계속 진행되고, 리서치는 결국 뒤를 쫓습니다.

그래서 최근 한 가지 흐름이 생기고 있습니다. 실제 사용자를 만나기 전에 AI에게 먼저 물어보는 것입니다. "이 온보딩 화면, 처음 쓰는 사람한테 헷갈릴까?" "이 가격 정책에 대해 20대 사용자가 어떻게 받아들일까?" LLM으로 만든 가상 사용자에게 먼저 돌려보는 방식입니다. 빠르고, 저렴하고, 언제든 반복할 수 있습니다.

그런데 이 방식, 어디까지 믿을 수 있을까요?

이 글에서는 Generative Agents에서 Silicon Sampling과 Synthetic Users로 이어지는 흐름을 정리합니다. AI 사용자 시뮬레이션이 어떤 가능성을 갖는지, 어디서 실제 사용자와 달라지는지, 그리고 사용자 리서치의 어느 단계에서 쓸 수 있고 어디서는 멈춰야 하는지입니다.

Generative Agents: 기억하고 계획하는 LLM

LLM은 원래 질문에 답하고 문장을 생성하는 모델이었습니다. Generative Agents(Park et al., 2023)는 LLM이 기억, 반성, 계획을 바탕으로 가상 환경 안에서 사회적 행동을 시뮬레이션할 수 있음을 보여준 대표적인 연구입니다.

25명의 에이전트가 살아가는 작은 가상 마을을 만들었습니다. 각 에이전트는 이름, 직업, 성격, 관계를 가집니다. 한 에이전트가 발렌타인데이 파티를 열고 싶다는 설정을 주면, 다른 에이전트들이 소식을 듣고 초대하고, 약속을 조율하고, 실제로 모입니다. 단순히 "그럴듯한 답변"을 만드는 것이 아니라, 사회적 맥락 안에서 행동하는 것처럼 보입니다.

Generative Agents가 기억, 반성, 계획을 바탕으로 AI 에이전트의 사회적 행동을 시뮬레이션하는 구조

구조는 크게 세 가지로 볼 수 있습니다.

Memory: 에이전트가 본 것, 들은 것, 겪은 일을 자연어 기억으로 저장합니다.
Reflection: 단순 사건들을 묶어 더 높은 수준의 생각이나 판단으로 정리합니다.
Planning: 저장된 기억과 반성을 바탕으로 다음 행동을 계획합니다.

이후 연구들은 이런 가상 인간 시뮬레이션을 더 인간답게 만들기 위한 요소도 탐색했습니다. 예를 들어 Wang et al. (2023)은 기본 욕구, 감정, 관계의 친밀도 같은 요소를 넣어 에이전트가 더 동적으로 행동하도록 설계했습니다.

다만 여기서 조심할 점이 있습니다. Shanahan et al. (2023)은 LLM의 행동을 인간성의 증거로 보기보다, 특정 역할을 수행하는 role-play로 이해하는 것이 더 적절하다고 설명합니다.

Generative Agents의 의미는 "AI가 진짜 사람이 되었다"가 아닙니다. 페르소나, 기억, 계획이 결합되면 사람처럼 보이는 행동을 시뮬레이션할 수 있다는 것입니다. 이 가능성이 자연스럽게 다음 질문으로 이어집니다.

"그렇다면 특정 사용자 집단의 반응도 대신 시뮬레이션할 수 있을까?”

Silicon Sampling과 Synthetic Users: 시뮬레이션을 리서치에

Synthetic Users가 다양한 페르소나의 UX 반응과 사용자 행동을 빠르게 시뮬레이션하는 과정

이 질문은 크게 두 흐름으로 이어집니다.

하나는 Silicon Sampling입니다. LLM을 특정 인구집단의 응답자처럼 조건화해 설문이나 사회과학 실험의 반응을 시뮬레이션하는 접근입니다. "30대 여성, 대도시 거주, 중산층, 진보 성향"같은 정보를 주고 이 사람이 어떤 질문에 어떻게 답할지를 생성하게 합니다.

Horton(2023)은 LLM을 경제 실험 속 시뮬레이션 에이전트로 사용하며 "Homo Silicus"라고 불렀습니다. Aher et al.(2022)은 LLM이 기존 인간 대상 실험 결과를 어느 정도 재현할 수 있는지 살폈고, Argyle et al. (2022)는 GPT-3를 특정 인구집단의 응답 분포를 흉내 내는 silicon samples로 활용할 수 있는지 탐색했습니다.

다른 방향은 Synthetic Users입니다. 설문 응답자가 아니라 특정 서비스나 인터페이스를 보고 반응하는 사용자 역할입니다. "이 앱의 첫 화면은 초보 사용자에게 헷갈릴까?", "이 가격 정책을 20대 대학생은 어떻게 받아들일까?"처럼 실제 사용자에게 물어볼 질문을 먼저 시뮬레이션하는 방식입니다.

최근에는 LLM 에이전트를 persona에 맞춘 synthetic user로 활용해 UI/UX 평가를 수행하려는 연구도 나오고 있습니다(Bougie et al., 2026). 또한 추천 시스템이나 정보 소비 환경에서도 LLM 기반 에이전트를 이용해 사용자 행동을 시뮬레이션하려는 시도가 나타나고 있습니다 (Wang et al., 2023).

정리하면, Generative Agents가 "LLM이 사회적 맥락을 가진 가상 인간처럼 행동할 수 있는가"를 보여줬다면, Silicon Sampling과 Synthetic Users는 그 가능성을 "특정 연구나 평가 태스크에서 사용자 역할로 쓸 수 있는가"로 확장한 흐름입니다.

왜 사용자 리서치에 AI 시뮬레이션을 쓰려 할까?

사용자 리서치는 제품 개발에서 중요합니다. 하지만 현실적으로는 늘 빠르게 하기 어렵습니다.

먼저 사용자를 모집해야 합니다. 특정 조건을 가진 사용자를 찾고, 일정을 조율하고, 인터뷰나 테스트를 진행해야 합니다. 정량 A/B 테스트를 하려면 충분한 트래픽과 시간이 필요합니다. 초기 아이디어 단계에서는 아직 제품이 완성되지 않았기 때문에, 실제 사용자를 많이 모집하기도 어렵습니다.

이 지점에서 가상 사용자는 매력적으로 보입니다. 실제 사용자를 만나기 전에, 여러 페르소나의 초기 반응을 빠르게 살펴볼 수 있기 때문입니다. 예를 들어 새 앱의 온보딩 화면을 만든다고 해봅시다. 실제 사용자 테스트를 하기 전, 모바일 앱 사용에 익숙한 사용자, 기술에 익숙하지 않은 사용자, 개인정보 제공에 민감한 사용자, 가격에 예민한 사용자 등 여러 가상 페르소나를 설정해 예상 반응을 비교할 수 있습니다.

하지만 이때 가상 사용자가 주는 것은 정답이 아닙니다. “어떤 사용자가 어디서 막힐 수 있는지”, “어떤 표현이 오해를 만들 수 있는지”, “어떤 질문을 실제 인터뷰에서 물어봐야 하는지”를 정리해주는 것입니다.

즉, AI 시뮬레이션의 장점은 정답을 주는 데 있는 것이 아니라, 더 빠르게 가설을 만들고 실제 리서치를 더 잘 설계하게 해주는 데 있습니다.

가상 사용자가 실제 사용자와 다른 5가지

가상 사용자의 응답은 매우 그럴듯합니다. 그래서 더 조심해야 합니다. 그럴듯함과 예측 가능성은 다릅니다.

1. Sycophancy: 듣고 싶은 말을 할 수 있다

LLM은 종종 사용자의 기대나 질문 방향에 맞춰 동조적인 답변을 생성합니다. 이를 sycophancy라고 부릅니다. “이 기능이 사용자에게 유용할 것 같지 않아?”라고 묻는다면, 가상 사용자는 실제보다 더 긍정적인 피드백을 줄 수 있습니다.

Sharma et al. (2023)는 인간 피드백으로 학습된 모델이 사용자의 견해에 맞춰 동조하는 경향을 보일 수 있음을 분석했습니다. UX 평가에서 이 문제는 특히 위험합니다. 가상 사용자가 “이 화면은 직관적입니다”, “사용자가 좋아할 것 같습니다”처럼 듣기 좋은 말을 반복하면, 기획자는 실제 사용자의 불편을 놓칠 수 있습니다.

2. Skin in the game의 부재: 실제 비용을 부담하지 않는다

실제 사용자는 선택에 비용이 따릅니다. 돈을 쓰고, 시간을 들이고, 실패의 리스크를 감수합니다. Taleb and Sandis(2013)가 말한 "skin in the game"입니다.

반면 가상 사용자는 결제하지 않고, 환불하지 않고, 조용히 이탈하지도 않습니다. 그래서 "이 제품을 구매할 것 같다"는 가상 사용자의 말이 실제 구매 행동과 다를 수 있는 이유입니다.

따라서 전환율, 구매율, 장기 유지율 같은 지표를 가상 사용자만으로 대체하는 것은 위험합니다. GenAI 기반 usability 평가가 일부 유효한 문제를 찾을 수 있더라도, 전통적인 usability testing을 완전히 대체하기 어렵다는 결과도 이 점을 뒷받침합니다 (Pourasad and Maalej, 2024).

3. Communication friction의 부재: 너무 정돈된 응답

실제 사용자는 망설이고, 말을 바꾸고, 불완전하게 표현하고, 감정적으로 반응합니다. 가상 사용자는 지나치게 정돈된 응답을 만드는 경향이 있습니다.

Liu et al. (2026)은 simulated users가 실제 사용자 대화에서 나타나는 communication friction을 충분히 포착하지 못할 수 있으며, 그 결과 시뮬레이션 기반 평가는 실제보다 낙관적으로 흐를 수 있다고 지적합니다.

즉, 가상 사용자가 막힘 없이 답변한다고 해서 실제 사용자도 같은 방식으로 제품을 이해하거나 사용할 것이라고 보기는 어렵습니다.

4. WEIRD 편향과 고정관념: 집단을 평평하게 만들 수 있다

LLM은 학습 데이터에 포함된 언어와 문화의 영향을 받습니다. "50대 여성 사용자", "저소득층 사용자" 같은 페르소나를 넣었을 때 모델이 실제 집단의 다양성을 반영하는 것이 아니라 학습 데이터 속 고정관념을 재생산할 수 있습니다.

Santurkar et al. (2023)는 LLM의 의견이 여러 인구집단의 실제 의견과 상당히 어긋날 수 있음을 보여주며, 특정 demographic group으로 steering해도 misalignment가 남을 수 있음을 분석합니다.

5. 말과 행동의 괴리: 선호 표현이 실제 행동을 보장하지 않는다

"이 기능이 있으면 쓸 것 같다"고 말하는 사용자가 실제로는 쓰지 않는 경우는 흔합니다. 가상 사용자는 주로 언어적 응답을 생성하기 때문에 "무엇을 말할지"는 흉내 낼 수 있지만 "실제로 무엇을 할지"는 보장하지 못합니다.

Yoon et al. (2024)은 대화식 추천 환경에서 LLM 기반 synthetic user를 평가하면서, 모델이 인간 행동을 얼마나 정확히 모사하는지를 별도의 프로토콜로 점검해야 한다고 강조합니다.

핵심은 “답변이 자연스러운가”가 아니라 “실제 사용자 행동과 어디서 달라지는가”를 구분하는 것입니다. 가상 사용자의 답변이 자연스럽다고 해서 실제 행동 예측력이 높다고 볼 수는 없습니다.

가상 사용자, 어디까지 믿고 쓸 수 있을까?

그렇다면 가상 사용자는 쓸모없는 걸까요? 그렇지는 않습니다. 문제는 어디에 쓰느냐입니다.

비교적 안전한 활용

초기 아이디어 단계에서 페르소나별 예상 반응 비교
UX 체크리스트 보조 및 예상 불편 지점 탐색
실제 인터뷰 전 질문 초안 검토
제품 메시지나 설명 문구의 약점 점검
가설 생성 및 리서치 설계 준비

조심해야 할 활용

실제 사용자 만족도 측정의 대체
구매 전환율·이탈률 예측
정량 A/B 테스트 결과 대체
민감 집단(노인, 장애인, 비영어권 등)의 행동 일반화
고위험 제품 의사결정의 단독 근거

쉽게 말하면, 가상 사용자는 “무엇을 물어봐야 할지”를 찾는 데는 유용하지만 “사용자가 실제로 이렇게 행동할 것이다”를 확정하는 근거로 쓰기에는 위험합니다.

좋은 사용자 시뮬레이션을 설계하려면 무엇이 필요할까?

실제 사용자 맥락, 제품 화면, 사용자 데이터를 바탕으로 AI 사용자 시뮬레이션을 설계

"20대 대학생 사용자처럼 답해줘"라는 프롬프트만으로는 부족합니다. 나이와 직업으로 사람을 설명할 수는 없습니다.

1. 맥락이 페르소나보다 중요하다

가상 사용자에게 나이, 성별, 직업만 주는 방식은 쉽게 고정관념으로 흐를 수 있습니다. 더 중요한 것은 그 사용자가 어떤 상황에 놓여 있는지입니다.

예를 들어 “30대 직장인”보다 다음 설명이 훨씬 유용합니다.

퇴근길 지하철에서 앱을 처음 설치함
결제 전에 개인정보 제공 화면을 만남
이전에 비슷한 서비스에서 해지를 어렵게 경험한 적이 있음
가격에는 민감하지만 시간을 아끼는 기능에는 비용을 지불할 의향이 있음

이런 맥락이 있어야 가상 사용자의 반응도 더 구체적이 됩니다.

2. 실제 사용자 데이터로 context를 주입해야 한다

좋은 가상 사용자는 프롬프트만으로 만들어지기 어렵습니다. 가능하다면 실제 사용자 인터뷰, 설문, 행동 로그, 고객 문의, 사용 기록을 context나 memory로 활용해 시뮬레이션을 보강할 수 있습니다. 모델에게 “이런 사람이야”라고 말하는 것을 넘어, 실제 사용자가 남긴 흔적을 바탕으로 응답하게 만드는 것입니다.

다만 실제 사용자 데이터를 넣을 때는 개인정보와 동의 문제가 중요합니다. 로그나 인터뷰 데이터를 사용할 경우 익명화, 목적 제한, 접근 권한 관리가 필요합니다.

3. 실제 데이터와 calibration해야 한다

가상 사용자가 예측한 불편 지점이 실제 UX 테스트에서도 나타나는지 검증해야 합니다. Bougie et al.(2026)처럼 persona-conditioned UI/UX evaluation을 시도하는 연구도 있지만, 실제 사용자 데이터와의 비교 없이는 신뢰하기 어렵습니다.

좋은 사용자 시뮬레이션의 핵심은 “더 사람처럼 말하게 하는 것”이 아닙니다. "실제 사용자 행동과 얼마나 맞는지" 계속 검증하는 것입니다.

글을 마치며: 가상 사용자는 리서치의 출발점을 바꾼다

가상 사용자의 가치는 실제 사용자를 완벽하게 대신하는 데 있지 않습니다. 오히려 실제 사용자를 만나기 전, 더 많은 가능성을 빠르게 탐색하게 해준다는 데 있습니다.

어떤 사용자가 불편을 느낄지, 어떤 설명이 오해를 만들지, 어떤 페르소나가 특정 흐름에서 막힐지 미리 살펴볼 수 있다면 사용자 리서치는 더 정교해질 수 있습니다. 가상 사용자는 정답을 주는 도구라기보다, 더 나은 질문을 준비하게 만드는 도구에 가깝습니다.

앞으로 AI 사용자 시뮬레이션은 사용자 리서치를 없애기보다 그 앞단을 넓힐 가능성이 큽니다. 실제 사용자를 만나기 전에 더 많은 가설을 만들고, 더 다양한 관점을 점검하고, 더 좋은 실험을 설계하게 만드는 방식으로요.

결국 AI 사용자 시뮬레이션의 가능성은 사람을 대체하는 데 있는 것이 아니라, 사람을 더 잘 이해하기 위한 출발점을 넓히는 데 있는 것 아닐까요?

참고문헌

Generative Agents: Interactive Simulacra of Human Behavior (Park et al., 2023) https://dl.acm.org/doi/10.1145/3586183.3606763
Role-Play with Large Language Models (Shanahan et al., 2023) https://www.nature.com/articles/s41586-023-06647-8
Humanoid Agents: Platform for Simulating Human-like Generative Agents (Wang et al., 2023) https://arxiv.org/abs/2310.05418
Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? (Horton, 2023) https://www.nber.org/papers/w31122
Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies (Aher et al., 2022) https://arxiv.org/abs/2208.10264
Out of One, Many: Using Language Models to Simulate Human Samples (Argyle et al., 2022) https://www.cambridge.org/core/journals/political-analysis/article/out-of-one-many-using-language-models-to-simulate-human-samples/035D7C8A55B9871B7E9A58E80B6FF1F3
User Behavior Simulation with Large Language Model based Agents (Wang et al., 2023) https://arxiv.org/abs/2306.02552
User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation (Balog and Zhai, 2025) https://arxiv.org/abs/2501.04410
Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation (Yoon et al., 2024) https://arxiv.org/abs/2403.09738
Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations (Liu et al., 2026) https://arxiv.org/abs/2605.02624
Does GenAI Make Usability Testing Obsolete? (Pourasad and Maalej, 2024) https://arxiv.org/abs/2411.00634
Whose Opinions Do Language Models Reflect? (Santurkar et al., 2023) https://proceedings.mlr.press/v202/santurkar23a.html
Towards Understanding Sycophancy in Language Models (Sharma et al., 2023) https://openreview.net/forum?id=tvhaxkMKAn
PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation (Bougie et al., 2026) https://arxiv.org/abs/2606.05697
The Skin In The Game Heuristic for Protection Against Tail Events (Taleb and Sandis, 2013) https://arxiv.org/abs/1308.0958