목표: 데이터 분석에서 놓치기 쉬운 문제들과 Ai를 통한 서비스의 부작용을 알아보자
1.1 데이터 처리 및 수집에서 윤리 이슈
데이터 처리
다양한 실수들
1. 상관 관계와 인과 관계 혼돈
- 상관 관계: 특정 변수의 증감이 다른 변수의 증감과 얼마나 관련이 있는지 계수를 통해 확인
양의 상관 관계: 증가 - 증가
음의 상관 관계: 증가 - 감소
독립 : 0
- 인과 관계: 원인과 결과가 되는 변수의 관계를 나타냄
조건
- 원인이 결과보다 시간으로 앞서야 한다.
- 원인과 결과는 서로 관련 있어야 한다.
- 결과는 원인이 되는 변수만으로 설명되어야 한다.
예) 규칙적인 운동은 체중 감소를 유발한다.
- 전처리와 분석 방법이 적절한가?
- Error bar를 통해 믿을 수 있는 정보인가
- 적절한 통계 테스트
- 아웃 라이어 제거 방식 선택
- 표준화 및 정규화
- EDA의 중요성
학습에 사용되는 데이터의 품질이 좋을수록 더 좋은 성능
- 학습에 사용되는 데이터의 수가 충분한가?
- 모델의 복잡도에 따라 필요한 데이터의 수가 달라짐
Under-fitting: 데이터의 수 부족으로 충분한 학습이 되지 않음
Over-fitting: 학습 데이터에 대해서 과도한 학습으로 데이터가 조금만 달라져도(테스트 데이터) 예측 불가
Ai 서비스 부작용
- 모델의 해석력
Ai 모델의 결정(예측)을 해석하기 위해 제공되는 기술들이 생겨남
- post-hoc explainability
- interpretable model
특정 부분에서 모델 결정의 신뢰성이 떨어지는 결과를 확인
- one pixel attack: 사진의 객체를 판별하는 모델에서 인풋 데이터 픽셀값을 의도적으로 변경하였을때(attack) 예측 결과가 크게 달라짐을 보임
빅데이터를 다룰 때, 주의점
1. 의견의 대표성 : Spiral of silence
누군가가 강한 의견을 주장하면 다른 의견을 가진 사람들이 자신이 소수라 착각하여 침묵하게 되고 강했던 의견이 대표성을 가지게 되는 편향 현상
2. 오정보의 빠른 전파 : infodemic
루머와 사실 정보가 인터넷에서 확산되는 과정은 다르게 나타나는데,
사실 정보의 경우 정확한 정보를 제공하기 위해 꼼꼼하게 검토하여 시간이 느리고 출처를 남기는 반면,
루머는 자극적인 정보가 많아 확신이 빠르고 출처 없는 점조직 형태로 넓게 퍼진다.
- 오정보가 빠르게 확산되면서 사실과 오 정보를 분간하지 못하는 경우를 인포데믹이라 한다.
3. 윤리에 대한 법적 제도(GDPR)
GDPR은 유럽 연합에서 개인 데이터의 수집, 처리, 저장, 전송에 대한 개인 정보 보호법이며 빅데이터를 사용하게 되면서 윤리적 가치에 대한 법 제도가 개선 및 변화되고 있다.
4. 학습 데이터의 편향
- COMPAS (미국 범죄 위험도 예측 모델): 인종에 따른 편향 현상이 나타남
- 아마존 Recruiting AI: 성별에 따른 점수 편향이 나타남
- Chatbot Tay (Microsoft): 특정 그룹이 차별 및 혐오 발언을 하도록 공격하여 학습시킴
결론
1. 데이터의 확보, 전처리, 분석, 해석의 모든 과정이 중요
- Garvige in, Garvige in: 고품질의 데이터가 유의미한 학습 결과를 생성
- 데이터가 갖는 오차와 특이점 및 대표성에 대한 충분한 이해가 필요
2. 알고리즘의 설명력이 중요
- 블랙박스 알고리즘이 단순히 좋은 결과를 만든다는 것을 넘어서 결정 원인과 이유 등을 설명할 수 있어야 추후 환경이 변하더라도 대처가 가능하며 윤리적 의사결정을 고려할 수 있음