Synthetic Personas: Enhancing Demographic Response Simulation through Large Language Models and Genetic Algorithms 요약

문정현·2025년 9월 2일

논문

목록 보기
10/46

2025년 3월, International Journal on Cybernetics & Informatics (IJCI), Vol. 14 No. 2, 게재 (Morten Grundetjern et al.)

초록. 다양한 인구 통계 그룹을 이해하는 것은 시장 조사에서 중요한 과제입니다. 본 연구에서는 대규모 언어 모델과 유전 알고리즘을 통 합하여 실제 인간 응답을 근사하는 피드백을 생성할 수 있는 합성 인물을 생성하는 새로운 시스템을 소개합니다. 실험적 평가 결과, 합성 인격체는 문서화된 트렌드와 일치하는 연령별 기술 사용 패턴을 보여주며, 유전 알고리즘 최적화를 통해 응답 정확도가 훈련 질문에서 60.4%에서 78.5%로, 숨겨진 질문에서 62.6%에서 68.8%로 향상되었습니다. 이는 인간 추정치를 초과하는 성능을 보여줍니다. 또한 최적화된 페르소나는 무작위 프로필에 비해 실제 소득 분포와의 일치도가 51.1% 더 높습니다. 이 접근 방식은 참가자 없이 신속하게 피드백을 생성할 수 있으며, 반복적인 후속 조사를 용이하게 하고 인구 통계적 대표성을 체계적으로 향상시킵니다.

1 서론

이 연구는 LLMs(대규모 언어 모델)와 유전 알고리즘(GAs)을 결합하여 실제 인간 반응과 유사한 피드백을 생성할 수 있는 합성 페르소나를 생성하는 것에 대한 효과를 조사함.

이 연구는 세 가지 기여를 함: 첫째, LLM과 유전 알고리즘을 통합하여 합성 페르소나 선택을 최적화하는 새로운 접근 방식을 개발함. 둘째, 이 시스템이 전통적인 방법으로는 효율적으로 지원할 수 없는 반복적 대화 기능을 가능하게 함을 보여줌. 셋째, 합성 페르소나 응답의 인구 통계학적 일관성에 대한 정량적 증거를 제공함.

2 문헌 검토

2.1 NLP 기술의 진화

모델은 기본적인 통계적 방법인 Naive Bayes 분류기에서 BERT와 Generative Pre-trained Transformers와 같은 복잡한 신경망 아키텍처로 진화하는 등 큰 변화를 겪었음. 초기 모델은 언어적 패턴을 보이는 출력을 생성했지만, 의미적 일관성이 부족했음.

2.2 NLP를 위한 신경망 아키텍쳐

RNN의 기울기 소실 및 폭발 문제를 해결하기 위해 LSTM이 등장했고, 이후 seq2seq 아키텍처가 나왔음.

2.3 트랜스포머 아키텍처와 대규모 언어 모델

재귀적 연결을 다중 헤드 어텐션 메커니즘으로 대체함으로써 트랜스포머는 위치 관계에 대한 인식을 유지하면서 전체 시퀀스를 병렬로 처리할 수 있게 되었음.

BERT의 양방향 특성이 등장함.

생성 모델의 후속 발전, 특히 GPT-3와 그 후속 모델들은 텍스트 생성 능력을 확장하여 상호작용 대화, 창의적 글쓰기 등 복잡한 응용 분야를 포함하게 됨.

2.4 프롬프트 전략 및 기술

CoT이 등장함.

모델이 단계별 추론 경로를 생성하도록 명시적으로 훈련하는 지시문 미세 조정 접근법을 탐구함. CoT 절차와 결합할 대 효과가 큼.

복잡도 기반 프롬프트 기술을 도입하여 프롬프트 기술이 정교화됨. 이 접근 방식은 프롬 프트 내 추론 체인의 복잡도를 체계적으로 변동시켜, 복잡한 프롬프트가 어려운 작업에서 일관되게 성능을 향상시킨다는 것을 보여줌.

자기 일관성 방법을 도입함. 이 방법은 단일 추론 경로에 의존하는 대신 여러 잠재적 해결책을 생성하고 가장 일관된 답변을 선택함.

2.5 전통적인 시장 조사 방법

설문조사와 질문지는 인구통계학적 통찰을 수집하는 주요 도구로 역사적으로 사용되어 왔으며, 데이터 수집을 위 한 구조화된 프레임워크를 제공함.

포커스 그룹과 심층 인터뷰는 인구 표본과의 상호작용을 통해 질적 깊이를 제공함.

3. 방법론

3.1 시스템 아키텍처 개요

그림 1은 워크플로우를 보여준다: (1) 합성 페르소나 생성, (2) 응답 수집, (3) 유전 알고리즘 최적화, (4) 숨겨진 테스트 질문에 대한 평가.

3.2 합성 페르소나 구축

합성 페르소나를 인구 통계적 특성, 성격 특성, 행동 경향을 나타내는 설명으로 조건화된 LLM 인스턴스로 정의함. 각 페르소나는 다음을 포함한다:

– 인구통계적 특성: 연령, 성별, 거주지, 교육 수준, 직업, 소득
– 성격 특성: OCEAN 모델 파라미터
– 선호 패턴: 취미, 미디어 소비, 생활 방식 특성

구현은 구조화된 프로필 생성을 통해 노르웨이의 인구 통계 분포를 모방함. 성별 이름은 국가별 분포 패턴을 따르며, 노르웨이 데이터베이스에서 이름 선택에 영향을 미침. 연령 값은 18세에서 70세 사이이며, 지리적 분포는 노르웨이 주별 실제 인구 밀도를 반영함.

성격 특성은 비현실적인 응답 패턴을 방지하기 위해 중간 범위(100점 만점 중 40-60)로 제한됨. 응답 생성을 위해 각 페르소나는 Chain of Thought 메커니즘을 활용한 프롬프트 엔지니어링을 통해 인구 통계적 일관성을 강화하는 특수한 조건화를 받음.

3.3 유전 알고리즘 최적화 프레임워크

유전 알고리즘은 이산적 검색 공간을 탐색할 때 지역 최적점에 갇히지 않고 효과적으로 이동함으로 이 최적화 문제에 특히 적합함.

합성 페르소나의 최적 하위집합을 식별하기 위해 유전 알고리즘을 적용하는데, 이 집합은 실제 인구통계학적 응답 분포와 일치하는 피드백 패턴을 집합적으로 생성함. 우리의 프레임워크에서 개별 페르소나는 유전자(gene)로 기능하고, 페르소나 그룹은 염색체(chromosome)로 작동하며, 다수의 그룹은 상위 집단(supergroup, population)을 형성함.

최적화 과정은 50개의 후보 염색체로 시작하며, 각각은 서로 다른 합성 페르소나 구성을 나타냄. 적합도 함수는 다음을 기준으로 염색체를 평가한다:

여기서 DistributionSimilarity(C, R)은 후보 페르소나 C의 총체적 응답 분포가 실제 인구통계 데이터의 참조 분포 R과 얼마나 밀접하게 일치하는지를 측정하며, 정규화된 맨해튼 거리로 계산함. n은 모든 질문에 걸친 응답 옵션의 수를 의미함. ResponseDiversity(C)는 후보 집단 내 응답의 변이를 정량화하여, 시각 관점의 이질성을 보장하는데, 이는 페르소나 응답 집합 간 평균 쌍별 자카드 거리로 계산됨. 두 지표의 값이 클수록 전체 적합도는 높아짐.

여기서 C는 후보 염색체를, R은 참조 인구통계학적 응답을, 그리고 α와 β는 각각 0.8과 0.2로 수동 하이퍼파라미터 튜닝을 통해 결정된 가중치 매개변수를 의미함.

토너먼트 선택(tournament selection, k=3), 단일 지점 교차(single-point crossover, 교차율 0.8), 그리고 무작위 페르소나 치환을 통한 변이(mutation, 변이율 0.2)를 사용함. 이러한 GA 매개변수는 계산 제약 내에서 탐색과 활용의 균형을 맞추는 예비 실험을 통해 설정됨. 과정은 100~120 세대(generation) 동안 또는 수렴(연속 5세대 동안 적합도 향상 < 0.001)할 때까지 진행되며, 엘리트 보존(elitism)을 통해 세대 간 상위 2개의 염색체를 유지하여 반복 과정 전반에서 해의 품질을 보장함.

3.4 평가 방법론

질문은 충분한 통계적 샘플 링을 위해 무작위로 훈련 세트(75%)와 숨겨진 테스트 세트(25%)로 분할되며, 최적화는 훈련 세트에서만 수행됨.

각 평가 사이클마다 세 가지 핵심 지표를 측정함: 합성 응답과 실제 응답 간의 분포 유사성, 페르소나 그룹 내 응답 다양성, 훈련 및 테스트 질문 간의 성능 격차.

4 결과

4.1 인간 기준 실험

현실적인 성능 기준을 제공하기 위해 인간 평가 실험을 수행함. 8명의 참가자가 각각 약 20개의 질문에 응답하였고, L1 거리를 사용해 가중 평균 오차를 계산하요 평가한 결과 인간 기준 정확도는 63.5%였음.

4.2 실험 1: 합성 인격체의 인구 통계적 일관성

이 실험은 합성 인격체가 할당된 인구 통계적 속성과 일치하는 응답 패턴을 보이는지 조사하며, 특히 연령과 온라인 행동 간의 관계를 중점적으로 분석함. 두 가지 연구 질문을 탐구한다:
1. 합성 인격체는 할당된 특성에 따라 의미 있는 인구 통계적 변동을 반영하는 응답을 생성할 수 있나요?
2. 특정 인구 통계학적 변수(연령)를 변경하면 확립된 행동 경향과 일치하는 예측 가능한 응답 패턴의 변화가 발생하나요?

4개의 연령대(18-29세, 30-49세, 50-64세, 65세 이상)에 각각 50개씩 총 200개의 합성 인물을 생성함. 기타 모든 인구통계학적 속성은 현실적인 분포에 따라 무작위로 할당됨. 각 페르소나는 "항상 온라인에 있습니까?"라는 질문에 세 가지 가능한 응답 중 하나를 선택했다: "하루에 몇 번", "주에 몇 번", 또는 "더 적게".

관찰된 응답 패턴은 실증 연구에서 기록된 연령별 기술 사용 트렌드와 밀접하게 일치함.

이 실험은 단일 변수(연령)로 구분된 경우 다른 요인을 통제할 때 합성 페르소나가 인구 통계적으로 일관된 응답을 생성할 수 있음을 강력히 입증함.

4.3 실험 2: 유전 알고리즘 최적화 효과

이 실험은 유전 알고리즘 최적화가 합성 페르소나 응답과 실제 인간 설문 응답 간의 일치도를 향상시키는 데 얼마나 효과적인지 평가함. 20개 질문으로 구성된 설문 데이터셋을 훈련 세트(75%, 15개 질문)와 테스트 세트(25%, 5개 질문)로 분할하여 교차 검증 접근법을 구현함. 유전 알고리즘 최적화 과정은 훈련 세트에서만 수행되었으며, 테스트 세트는 일반화 성능을 객관적으로 평가하는 데 사용됨.

순차적 질문의 순서 효과 가능성을 고려하기 위해 두 가지 별도의 평가 프로토콜을 수행했다: (1) 무작위 질문 분할, 테스트 질문을 전체 세트에서 무작위로 선택하는 방법과 (2) 순차적 분할, 최종 5개 질문을 테스트 세트에 일관되게 할당하는 방법임. 각 프로토콜은 서로 다른 무작위 시드(random seed)를 사용한 10개의 독립된 실험에서 반복되어 통계적 안정성을 확보함.

최적화 과정은 훈련 세트 정확도에서 상당한 개선을 보여주었으며, 초기 평균 값 60.4% (표준편차=2.3%)에서 수렴 후 78.5% (표준편차=1.7%)로 증가했음. 테스트 세트 정확도가 62.6%(표준편차=3.5%)에서 68.8%(표준편차=2.9%)로 개선되어 미지 질문에 대한 효과적인 일반화 능력을 보여주었음.

피어슨 상관 계수도 훈련 정확도와 테스트 정확도 모두 매우 높은 유의성을 보임.

4.4 실험 3: 인구 통계적 분포 일치

이 실험은 최적화된 합성 인격체가 최적화 목표와 무관하게 실제 인구 통계 데이터와 일치하는 속성 분포를 어느 정도 나타내는지 조사함.

세 그룹의 소득 구간 분포를 비교함: (1) 최적화 없이 무작위로 생성된 합성 페르소나, (2) 응답 정확도를 기반으로 GA 최적화를 통해 선택된 "최고 점수 페르소나" 그룹, (3) 노르웨이 통계청(SSB)의 2017년 실제 노르웨이 인구 데이터.

GA 최적화 "최고 점수 페르소나" 그룹은 최적화되지 않은 무작위 프로필에 비해 실제 세계의 소득 분포와 훨씬 더 가까운 일치를 보여줌. 실제 세계 백분율과의 평균 절대 편차는 무작위 프로필의 9.0 백분율 포인트에서 최적화 그룹의 4.4 백분율 포인트로 감소했으며, 이는 분포 정확도가 51.1% 개선된 것을 의미함.

이 일치도 개선은 특히 최고 소득 구간(900,000+ NOK)에서 두드러짐.

최적화 적합도 함수에 소득 분포를 명시적으로 포함하지 않았음에도 불구하고, 유전적 알고리즘(GA) 선택 과정은 간접적으로 더 현실적인 인구통계적 특성을 가진 페르소나 구성을 식별함.

5 논의

5.1 핵심 결과 해석

언어 모델 응답에서의 순서 효과 합성 페르소나는 다중 선택 질문에 직면했을 때 초두 효과를 보임. LLMs를 설문 응답 시뮬레이션에 활용하는 연구자들은 무작위 옵션 순서 지정, 균형 잡힌 실험 설계, 위치 편향에 대한 통계적 보정 등 기술을 통해 잠재적인 순서 효과를 엄격히 통제해야함.

최적화를 통한 인구 통계적 일치성의 출현 유전 알고리즘 최적화를 통해 합성 페르소나 속성이 실제 세계의 인구 통계적 분포와 점진적으로 일치함.

응답 정확도만을 기준으로 페르소나를 선택하는 과정에서 유전 알고리즘은 간접적으로 더 현실적인 인구통계적 프로필을 가진 구성체를 선호함.

최적화된 페르소나가 단순히 더 정확한 응답을 생성하는 것뿐 아니라 목표 인구 구성의 실제 구성을 더 잘 반영한다는 것을 시사함.

5.2 이론적 및 실용적 함의

인구통계학적 추론 능력 응답 정확도를 최적화한 합성 패르소나가 자연스럽게 현실적인 인구통계학적 분포로 수렴한다면, 이 관계를 역전시켜 관찰된 응답 패턴으로부터 가능한 인구통계학적 특성을 추론할 수 있다는 것을 시사함. 이는 강화된 시장 세분화, 인구 모델링, 개인화 콘텐츠 전달을 가능하게 함.

개인정보 보호 및 동의와 관련된 윤리적 문제에 주의해야함.

조사 방법론에 대한 함의 합성 페르소나가 본 질문과 본 적이 없는 질문 모두에서 인구 통계적으로 일관된 응답을 생성할 수 있다는 사실은 조사 설계(조사 사전 테스트), 테스트(표본 보강), 분석(탐색적 분석)에 대한 잠재적 응용 가능성을 시사함.

5.3 한계점 및 향후 방향

방법론적 한계

– 계산 자원 제약

– 실용적 구현 장애물: 계산 자원 외에도, 이 접근 방식을 구현하는 데는 다중 모델 인스턴스 간 일관성 유지, 프롬프트 엔지니어링 복잡성 관리, 합성 응답에 대한 검증 방법 수립과 관련된 도전 과제가 존재함.

– 인구 통계적 대표성: 문화적 맥락, 삶의 경험, 인간 반응에 영향을 미치는 상황적 요소는 현재 구현에서 완전히 반영되지 않았음.

– 모델 특이적 편향과 환각

– 질문 도메인 제한 사항: 우리의 실험은 주로 기술 사용 및 선호도와 관련된 질문에 초점을 맞췄으며, 이는 건강 행동, 정치적 태도, 소비자 선호도 등 다른 도메인과 다른 인구 통계적 응답 패턴을 보일 수 있음.

미래 연구 방향

– 멀티모달 통합: 합성 인물을 시각적 선호도, 음성 패턴, 상호작용 행동 등 텍스트 외 응답을 포함하도록 확장하면 표현 정확도를 높일 수 있음.

– 동적 페르소나 적응: 변화하는 맥락이나 새로운 정보에 따라 응답을 진화시킬 수 있는 페르소나를 개발하면 인간의 응답 패턴의 적응적 특성을 더 잘 반영할 수 있음.

– 문화 간 검증: 방법론을 다양한 문화적 맥락으로 확장하면 접근법의 일반화 가능성을 테스트하고 인구 통계적 속 성과 응답 패턴 간의 관계에서 문화적 차이를 식별할 수 있음.

– 명시적 인구 통계 최적화: 미래 구현에서는 인구 통계 분포 일치를 적합도 함수에 직접 통합함으로써 응답 정확도를 유지하면서 더 높은 대표성을 갖춘 합성 페르소나 그룹을 생성할 수 있음.

– 계산 효율성 향상

6 미래 연구

표현 능력 향상, 방법론적 개선이 필요함.

7 결론
세 가지 실험은 여러 중요한 결과를 도출했음. 첫째, 합성 페르소나는 할당된 인구 통계적 속성에 따라 체계적으로 변하는 응답을 생성할 수 있음을 보여줌. 특히 연령에 따른 기술 사용 패턴의 변동은 실제 세계에서 기록된 추세와 밀접하게 일치했음. 둘째, 유전 알고리즘 최적화는 응답 정확도를 크게 향상시켰으며, 훈련 세트 일치율을 60.4%에서 78.5%로, 테스트 세트 정확도를 62.6%에서 68.8%로 증가시켜 미지 질문에 대한 효과적인 일반화 능력을 확인했음. 셋째, GA 최적화 페르소나는 최적화 함수에 명시적으로 포함되지 않은 속성에도 실제 인구 통계 분포와의 일치도가 개선되었으며, 이는 응답 패턴 최적화를 통해 현실적인 인구 통계적 표현이 형성되었음을 시사함. 이러한 결과들은 종합적으로, 적절히 구성되고 최적화된 합성 페르소나가 인구 통계 그룹 전반에 걸쳐 실제 인간 응답을 근사하는 피드백을 생성할 수 있다는 기본 가설을 뒷받침함.

합성 페르소나 관련 응용 분야를 전통적인 인간 중심 연구 방법의 대체물이 아닌 보완적 도구로 보고 있음.

profile
이화여자대학교 인공지능융합 석사과정

0개의 댓글