Part1) AI 윤리-1

ehekaanldk·2025년 1월 5일

aimers

목록 보기
1/21

데이터 처리 및 수집에서 윤리 이슈

데이터를 다룰 때 데이터 전처리, 수집, 해석의 전반적인 과정에서 주의해야 하는 사항에 대해서 알아보자.

1. 데이터를 잘 해석하고 있는가?
데이터 간의 상관관계인가? 인과관계인가? 이를 혼용해서 사용하고 있지 않은가?

2. 데이터 전처리와 분석방법이 적절한가?
에러바가 없는 도표인가? 적합한 통계 톄스트를 찾는다. 너무 크거나 작은 값은 제거하였는가? 데이터를 정규화하는 과정을 하였는가? EDA 분석을 하였는가?

  • 에러바란? (에러바에 대한 기본적인 지식이 부족하여 이를 좀 찾아서 정리해 보았다.)
    에러바, 즉 오차 막대는 하나의 실험 결과값에 대해 하나의 표준편차의 범위를 나타내는데 이용된다. 말이 좀 어렵게 느껴져서 좀 자세히 찾아보면 나온 평균이 얼마나 일정하게 나올 수 있는지 표시하는 값이라고 생각하면 쉽다.
    측정값이 가지고 있는 불확실성이나 변동성을 시각적으로 나타내는 도구로 사용되며, 간단히 말해 '이 값이 정확히 여기에 있다고는 할 수 없고, 이 정도 범위 내에서 값이 있을 가능성이 크다'는 것을 보여준다.
    • 에러바가 짧을수록, 데이터의 신뢰도가 높고, 오차가 작음을 의미
    • 에러바가 길수록, 데이터가 변동성이 크고, 신뢰도가 낮음을 의미
  • 강의에서 "C와D의 값은 평균은 다르지만 상당수 오차범위가 겹치기 때문에 통계적으로 유의미하다고 보기 어렵다" 에 대한 의미를 파악해보자.
    • C의 값: 평균이 50, 오차범위가 ±10이면 실제 값은 40~60 사이일 가능성이 높다
    • D의 값: 평균이 55, 오차범위가 ±10이면 실제 값은 45~65 사이일 가능성이 높다
    • 즉, 45~60 구간에서 겹치기 때문에 C와 D가 서로 비슷한 값을 가질 가능성이 있다는 걸 의미한다

3. 학습에 쓰는 데이터가 충분한가?
인공지능 알고리즘은 100만 데이터 건에 대해서 많은 수의 파라미터를 학습할 수 있다.

  • 언더피팅 : 모델이 너무 단순하여, 충분히 학습되지 않아서 모델에 대해서 적절한 선택이 불가능한 경우
  • 오버피팅 : 너무 과하게 학습을 하게 되면 데이터만 특화된 모델이 되어 데이터가 조금만 달라져도 쓸 수 없음
  • 적절한 피팅 : 데이터가 약간 변하거나 시간에 따른 오차가 발생해도 유연하게 대처할 수 잇다.
    학습 데이터와 테스트 데이터는 달라야 한다.

4. black box algorithm
학습 결과물을 어떻게 실제로 받아들이는지, 블랙박스 알고리즘에 대해서 알아본다.

  • 블랙박스 알고리즘 : 의사결정나무는 어떤 경로를 바탕으로 결정을 하였는지 알 수 있다. AI 모델의 의사결정나무와 달리 내부의 수많은 파라미터 값에 따라 결정이 되기에 해석이 어렵다. 이런 모델을 블랙박스 알고리즘이라고 한다.

  • 딥러닝 알고리즘 : 블랙박스 형태의 모델에 AI 모델의 결정에 설명력을 더해준다.

  • 사후 설명력 : 알고리즘의 내면을 가시화해서 보여준다.

  • 처음부터 해석이 가능한 모델도 만들 수 있지만 어려운 문제이다.
    사후 모델들을 검증할 때, one pixel attack과 같은 문제가 발생할 수 있다. 이는 하나의 픽셀만 바뀔 경우 알고리즘 학습의 결과가 달라지는 것을 확인할 수 있다. 노이즈에 대해 민감한 경우이다.

5. handling the wed data
웹데이터 인터넷 데이터에서 주의해야할 점이다.

  • 정보의 대표성 : 대중의 의견을 반영하였는가?
    의견의 대표성 sprial of silence : 강한 의견에 의해서 소수의 의견으로 판단하여 침묵하여 편향 현상이 발생하는 것을 의미한다.
  • 인포데믹 : 오정보는 사실 정보보다 빠르게 확산된다. 사실 정보와 더불어 오정보의 양이 늘어서 구분이 어려워지는 정보 과부화 현상이다.
  • 사용자의 어려움을 증가시키지 않는가?
  • 오랜 시간 잊혀진 정보에 대해서 꼬리를 물고 늘어져 현재의 영향을 미치는 경우를 유의해야 한다.

6. 윤리에 대한 법적 제도
GDPR : 유럽에서 적용하는 개인정보와 관련한 데이터 관리 제도

7. AI and ethical decisions

  • 인공지능의 결정을 얼마나 신뢰할 수 있는가?
    알고리즘이 인종차별과 같이 편향적이지 않은지 확인해야 한다. 민감한 데이터

정리)

  • 데이터의 품질이 알고리즘의 학습 품질을 결정하기 때문에 데이터의 확보, 전처리, 분석, 해석의 전과정이 중요하다. 오차의 범위, 특이점, 대표성
  • 알고리즘이 가지는 설명력과 편향, 신뢰의 문제에 대해 윤리적 의사결정을 가지는지 주의해야 한다.

0개의 댓글