Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models 요약

문정현·2025년 10월 21일

논문

목록 보기

24/46

Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models Myra Cheng Stanford University myra@cs.stanford.edu Esin Durmus Stanford University Dan Jurafsky Stanford University [Submitted on 29 May 2023]

1 서론

LLM의 고정관념을 측정하기 위한 기존 방법들은 인위적으로 구성된 데이터셋에 의존 – 고정관념적 연관을 측정하기 위해 만들어진 비자연적 템플릿, 고정관념을 포함하는 자연어 기반 인간 작성 문장

제안: Marked Personas, 비지도적이고 사전(lexicon)이 필요 없는 방법으로 LLM의 고정관념을 측정. 자연어 프롬프트를 활용, 교차된 인구통계 집단에 대한 특정 고정관념 포착.

Personas: LLM이 페르소나를 생성하도록 프롬프트를 제시

Marked Words: LLM이 주변화된 집단을 지배적 집단과 다른 방식으로 묘사하는지 파악하기 위해 페르소나들 간의 차이를 특성화하고 묘사 속에 존재하는 고정관념 드러냄(man – 비표지, 나머지 성별 – 표지).

생성된 페르소나 데이터셋과 Marked Personas 사용 코드, 재현 가능한 결과: github.com/myracheng/markedpersonas

2 배경 및 관련 연구

표지성(markedness): 남성(성별에서의 비표지 기본값), 백인(인종 기본값). 지배적 집단은 언어적으로 비표지화됨.

고정관념: 특정 인구 집단에 광범위하게 연관되어 사회적 위계를 재생산하는 특성(Deaux and Kite, 1993; Heilman, 2001; Caliskan et al., 2017; Blodgett et al., 2021; Weidinger et al., 2021).

LLM의 사회적 편향과 고정관념을 측정하기 위한 다양한 방법들이 개발됨. Cao et al.(2022)는 이들 방법을 비교하여 다섯 가지 평가 기준(desiderata) 중 최대 세 가지까지 충족했는데, Marked Personas는 네 가지를 충족함. (1) 새로운 인구 집단으로 일반화할 수 있고, (2) 사회과학 이론에 기반하고, (3) 자연어 기반 LLM 입력을 사용하고, (4) 특정 고정관념을 포착(Appendix A 참조)

교차적 집단에 대한 패턴도 포착. 교차성: 성차별과 인종차별과 같은 억압 체계가 상호 관련되어 있음.

3 방법

3.1 Personas: Generating Intersectional Portrayals

열린 생성(open-ended generation) 설정에서 고정관념을 측정하고자 제로샷 환경에서 프롬프트 유도함 - Imagine you are an Asian woman. Describe yourself. -> 이 출력 결과가 페르소나.

전체 프롬프트 목록(표 A9)

인간 작성 페르소나(Human-written Personas)

Kambhatla et al.(2022)의 연구에서 영감.

Prolific 참여자, 평균 연령 30세. 백인과 흑인 참여자에게 자기 인종 정체성(self-identified racial identity)으로서 또는 상상된 인종 정체성(imagined racial identity)으로서 자신을 묘사하도록 요청(프롬프트는 표 A10에 수록) -> (1) Self-Identified Black, (2) Self-Identified White (“Describe yourself”), (3) Imagined Black, (4) Imagined White (“Imagine you are [race] and describe yourself”).
-> Imagined Black이 가장 많은 고정관념과 일반화 포함.

3.2 표지 단어(Marked Words): 사전 없이 고정관념 측정하기

Monroe et al. (2008)의 Fightin’ Words 방법 사용.

Informative Dirichlet prior를 기반으로 각 비표지 텍스트 집합 간의 단어 가중 로그 오즈 비율(weighted log-odds ratios) 계산, 데이터셋 내의 다른 텍스트를 사전 분포로 사용.
단어 빈도 분산 통제하고 z-score 이용해서 통계적 유의성 측정. (z-score > 1.96면 유의)
인종/민족(단일집단), 교차조합(예: Black woman)별로 계산

3.2.1 견고성 검증(Robustness Checks): 다른 측정 방법들

Marked Words로 도출된 단어들의 신뢰성을 검증하기 위해 여러 보조 방법 사용. Marked Words와 달리, 이러한 방법들은 통계적 유의성에 대한 이론적 근거를 제공하지 않음(자세한 분석은 부록 B에 제시).

분류(Classification)

SVM 분류로 (1) 특정 집단의 페르소나가 데이터셋 내 다른 모든 페르소나와 구별 가능한지, (2) 구별을 가능하게 하는 특징이 무엇인지 식별.

분류를 위해, 데이터는 익명화되고 문장 부호, 대문자, 대명사, 성별, 인종, 민족에 대한 명시적 서술어(descriptor)는 Smith et al. (2022)가 제시한 전체 목록을 참고하여 제거. 각 페르소나 p는 bag-of-words 형태로 표현. 즉, 단어 상대빈도(relative frequencies)를 구성요소로 하는 희소 벡터.

모든 단어가 분류기의 피처(feature)이므로, 이 표현은 분류에서 가장 높은 가중치를 가지는 단어를 식별할 수 있게 함.

Jensen–Shannon Divergence (JSD)

각 표지화된 집단에 대해, 우리는 Shifterator 구현(Gallagher et al., 2021)을 사용하여, 해당 집단의 페르소나와 비표지 페르소나를 구별하는 상위 10개 단어 계산.

4 실험

OpenAI의 API를 통해 제공되는 다양한 최신(state-of-the-art) 모델들 사용. 본문은 GPT-4와 GPT-3.5(text-davinci-003) 결과 보고, 모델 간의 세부적인 차이 및 추가 결과는 부록 D에서 논의.

5개의 인종/민족(Asian, Black, Latine, Middle-Eastern (ME), White),

3개의 성별(man, woman, nonbinary),

15개의 성별-인종/민족 결합 집단(각 인종/민족마다 “man”/“woman”/“nonbinary person”, 예: Black man 또는 Latina woman)에 집중.

각 조합에 대해 총 2700개의 페르소나 생성(15개의 성별-인종/민족 결합 집단 각각에 대해, 그리고 두 모델 모두에 대해, 표 A9에 제시된 6개의 프롬프트마다 15개의 샘플씩, 90개를 생성).

Marked Words를 사용하여, 빈도 측면에서 표지화된 집단을 비표지 집단과 통계적으로 유의미하게 구별하는 단어들을 찾음.

견고성 검증으로서, 우리는 JSD를 사용해 표지화된 집단의 상위 단어들을 계산하고, 또한 인종/민족, 성별, 성별-인종/민족 집단 전반에서 one-vs-all SVM 분류를 수행. -> 서로 다른 인구통계 집단의 묘사가 서로를 쉽게 구분할 수 있음, SVM은 각각 GPT-4와 GPT-3.5 페르소나에서 정확도 0.96 ± 0.02 및 0.92 ± 0.04(평균 ± 표준편차)를 달성

5 페르소나 평가: 인간 작성 페르소나와의 비교

Ghavami와 Peplau(2013)가 제시한 흑인(Black) 및 백인(White) 고정관념적 특성 목록 사용. -> 3.1절에서 설명한 인간 작성 응답과 생성된 흑인 및 백인 페르소나 비교

-> 각 페르소나에서 흑인 및 백인 고정관념 사전에 포함된 단어들이 차지하는 평균 비율 계산. 생성된 페르소나는 인간이 작성한 것보다 더 많은 고정관념 포함.

GPT-4 페르소나들 간 비교에서, 흑인 고정관념은 흑인 페르소나에 더 많이 나타나며, 백인 고정관념은 백인 페르소나에 더 많이 나타남.

사전의 한계

서로 다른 묘사에서 사용된 사전 단어들의 분포. 인간이 작성한 페르소나는 더 넓은 범위의 고정관념 단어를 포함하는데, 생성된 페르소나는 감정적으로 긍정적인 것으로 보이는 단어들만 포함하고 있음.

흑인 페르소나에는 이 사전이 포착하지 못하는 우려스러운 패턴들이 존재할 수 있음. 이러한 문구들이 흑인 페르소나에만 반복적으로 나타나고 백인 페르소나에서는 나타나지 않는다면, 이는 흑인에 대한 해롭고 단편적인 서사를 더욱 강화하는 셈. -> 비지도적 Marked Personas 프레임워크 설계한 이유.

GPT-4와 달리 GPT-3.5에서는 예상 밖의 결과. 생성된 백인 페르소나가 생성된 흑인 페르소나보다 더 많은 흑인 고정관념 단어를 포함함. 생성된 흑인 페르소나에서 발견된 긍정 단어들(tall, athletic 등)은 생성된 백인 페르소나에서도 동일하게 사용됨.

6 Marked Words 분석: 교묘한 긍정적 묘사들(Pernicious Positive Portrayals)

Marked Personas에 의해 식별된 상위 단어들(표 3)을 질적(qualitative)으로 분석하고, 그 의미를 논의함.

감정(sentiment)과 긍정적 고정관념(positive stereotyping)

우리의 방법은 감정에 영향을 받지 않지만(sentiment-agnostic), 식별된 상위 단어들은 대부분 감정적으로 긍정적인 경향을 보임. -> 아마 OpenAI의 편향 완화 정책 때문.

NLTK의 VADER(Valence Aware Dictionary and sEntiment Reasoner) 감정 분석기(텍스트에 −1(부정)에서 +1(긍정) 사이의 점수를 부여, 0은 중립)를 사용하여 생성된 페르소나의 감정 점수를 평가함. -> GPT-4와 GPT-3.5의 페르소나 평균 점수는 각각 0.83과 0.93이었으며, 표준편차는 각각 0.27과 0.15. 표 3의 단어들에 대한 평균 감정 점수는 0.05, 표준편차는 0.14였고, 감정 점수가 0 미만(부정적)인 단어는 존재하지 않았음.

그러나 이런 긍정적 감정의 단어들도 위험할 수 있음. -> 성 소수자에게 부적절한 칭찬, 체계적 인종주의 지속하는 논리.

외모(Appearance)

백인 집단의 단어들은 비교적 객관적인 묘사에 국한된 반면, 표지화된 집단의 단어들은 비표지 집단과의 차이를 암묵적으로 전제.

백인: blue, blond, light, fair와 같은 뚜렷한 외모 관련 단어, 이상화됨.

아시아 여성 페르소나: almond-shaped, petite, smooth, 이국적, 순종적이고 과도하게 성적화된 존재로 재현.

라티나 여성: GPT-4의 경우 vibrant, curvaceous, rhythm, curves, GPT-3.5에서는 vibrant. SVM의 상위 특성으로는 passionate, brown, culture, spicy, colorful, dance, curves가 포함. -> tropicalism과 관련된 서사. 갈색 피부, 밝은 색상, 리드미컬한 음악 등의 요소를 포함하여 해당 정체성을 균질화하고 과도하게 성적화(hypersexualize).

표지성(Markedness), 본질화(Essentialism) 및 타자화(Othering)

중동: 종교 관련 단어(faith, religious, headscarf)를 불균형하게 많이 언급.

논바이너리: gender, identity, norms, expectations은 전적으로 묘사된 개인의 성 정체성과의 관계에만 초점.

LLM이 표지화된 집단을 본질적 속성으로만 정의하고, 내부 다양성을 지우는 본질화와 타자화를 강화함.

회복력의 신화(The Myth of Resilience)

교차적 집단(intersectional groups)에 대해 특정 전형(archetype) 나타남.

strength와 resilient 같은 단어들은 비백인 페르소나, 특히 흑인 여성 페르소나에서 통계적으로 유의하게 많이 사용됨. 이러한 단어들은 역경에 맞서 회복력(resilience)을 보이는 인물을 구성함. 수십 년간 “회복력”이라는 언어는 빈곤, 불평등, 기타 사회 문제의 해결책으로 주목받아옴. – 강한 흑인 여성.

반(反)고정관념의 한계(Limitations of Anti-stereotyping)

식별된 단어들 중 일부는 명시적으로 반고정관념적(anti-stereotypical)으로 보임.

논바이너리 집단: embrace와 authentic 같은 단어로 묘사.

GPT-3.5의 경우, 상위 단어 중 independent는 여성 페르소나(특히 중동 여성)에서만 나타나고, leader와 powerful은 흑인 페르소나에서만 나타남. -> 편향 완화 메커니즘(bias mitigation mechanisms)의 결과일 가능성. 역사적으로 권력과 독립성을 결여한 집단의 묘사에만 powerful이나 independent와 같은 단어가 등장하고, 비표지 집단의 묘사에는 전혀 나타나지 않기 때문.

그라이스(Grice, 1975)의 협동 원리(Cooperative Principle) 중 관련성의 격률(Maxim of Relation)을 위반하는 것으로 해석될 수 있음. 과거에 결여되어 있던 속성을 그 집단에 대해서만 언급함으로써, 결과적으로 그 집단이 여전히 그 속성을 “결여한” 것으로 암묵적으로 정의.

7 Downstream Applications: Stories

GPT가 생성한 이야기 속 편향을 주제 모델링(topic modeling)과 사전 기반 분석으로 연구한 선행 연구(Lucy and Bamman, 2021)에 영감. -> 생성된 페르소나처럼 생성된 이야기에도 사전에 포함되지 않은 표지성과 고정관념 패턴이 나타나는지 탐구.

15개의 성별-인종/민족 결합 집단 각각에 대해 표 A14의 프롬프트를 사용해서 30개의 이야기를 생성.

Marked Words를 적용한 결과, 본질화된 서사(essentializing narratives)와 고정관념적 패턴 발견. 비표지 집단의 경우, 명시적 묘사어 외의 유의미한 단어는 town, shop처럼 중립적인 단어뿐, 표지화된 집단에서는 고정관념적 단어들.

8 권고사항(Recommendations)

긍정적 고정관념과 본질화 서사 다루기
교차적 관점
편향 완화 기법의 투명성: OpenAI는 자사 모델의 편향 완화 기법을 공개하지 않기 때문에, 긍정적 고정관념이 편향 완화 노력의 결과인지, 훈련 데이터의 산물인지, 혹은 모델의 다른 구성요소 때문인지 명확하지 않음.

9 한계(Limitations)

OpenAI API를 통해 접근 가능한 모델만을 평가함.

본 연구의 사전과 질적 분석은 미국의 고정관념에만 기반하며 영어 데이터에만 적용됨.

우리의 방법은 현재 비표지 집단(default/unmarked class)을 비지도적으로 탐지하는 것이 아니라, 어떤 정체성이 (비)표지화되어 있는지를 사전에 정의해야 한다는 제약이 있음.

특정 인구집단에 대한 피해를 연구함으로써 사회적으로 구성된 범주들을 오히려 재확인(reify)할 위험.

문정현

이화여자대학교 인공지능융합 석사과정

이전 포스트

The Self-Perception and Political Biases of ChatGPT 요약

다음 포스트

Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models 요약

논문

The Self-Perception and Political Biases of ChatGPT 요약

PERSONALIZED LANGUAGE MODELING FROM PERSONALIZED HUMAN FEEDBACK 요약

0개의 댓글