llm의 등장으로 편향
이유
1) 데이터셋의 영향
2) 모델의 영향
현재 연구방향
1) 편향을 어떻게 식별하지?
2) 어떤 때에 편향을 하는거지?
문제점
langchain으로 외부 데이터를 사용하면 어떻게 영향을 줄까???
이렇게 되어있으면 low-ses혹은 high-ses를 답변을 해야하는 것임.
특정 집단에 대한 편견을 반영하여 이를 드러냄을 알 수 있음
분명한 맥락이 제공된 경우에는 :
데이터의 편향성과 프롬포트 템플릿의 차별적 요소로 인하여 계속 편견/편향성 보임
(Bias Benchmark for Question)


**A+Q:** ambiguous context + non-negative questions
**A+NQ:** ambiguous context + negative questions
**DA+Q:** disambiguous context + non-negative questions
**DA+NQ:** disambiguous context + negative questions
NB는 Non-bias, B는 Bias
저 위에서는
Unkown이라고 답하면 Non-bias, 그 이외는 Bias인 것 같다.

CBBQ같은 그런 template들을 가지고, board를 가지고 어떻게 아웃풋을 도출할까 생각을 하는 것임. 그래서 결국 과연 rag를 쓰는 게 편향성을 가지는가?
어떻게 NTU-PTT board 데이터를 가지고 올건가?
Keyword Identification
: 14개의 범주 각각에 대한 두 개의 주요 키워드 선정
<aside>
👉
[Region]
- '北部學生的個性' (북부 학생들의 성격 특성)
- 南部學生的個性' (남부 학생들의 성격 특성)
</aside>
결론적으로, 편향이 어떻게 해서 제거?