Module 1. 『AI 윤리』 1. 데이터 분석과 AI학습에서 유의할 점

YSL·2023년 1월 2일

LG Aimers

목록 보기

1/30

📍 강의 자료 출처 : LG Aimers

1. 데이터 처리 및 수집에서 윤리 이슈

1. 데이터를 잘 해석하고 있는가

예) 초콜릿, 인지기능과 노벨상 수상의 인과관계
→ 상관 관계와 인과 관계를 혼용해서는 안된다.

2. 데이터 전처리와 분석방법은 적절한가

예) 에러바가 없는 그래프
→ Error bar 추가하기, 적합한 통계 테스트 사용하기, 데이터 전처리(아웃라이어 제거), 데이터 표준화, EDA

3. 학습에 쓰는 데이터가 충분한가

보통의 인공지능은 millions scale로, 100만 데이터 건은 있어야 많은 수의 파라미터를 학습할 수 있다.

모델이 너무 단순하다면 충분한 학습이 이루어지지 않음 = 언더피팅

→ 잘 학습된 모델을 찾기 위해 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다. 또 학습데이터와 테스트데이터는 달라야 한다.

4. Black box alogorithm

AI 모델은 그 안에 있는 수많은 파라미터 값에 따라 결정되기 때문에 내부를 알기 어렵다는 단점이 있다.
예) 탈세범 검출
→ 실제 사례에서는 성능(정확도)만 중요한 것이 아니라 "설명력"도 중요하다. 실제 알고리즘을 만들 때 설명력을 높이기 위해 노력해야 한다. 노이즈 민감도를 신경써야 한다.

사후 설명력(post-hoc explainability) : 완성된 모델이 왜 그런 결과를 도출했는지 이유를 제시함
단점 : 모델의 결과가 신뢰성이 없어보임
예) one pixel attack = 하나의 픽셀만 바뀌었을 뿐인데 알고리즘 학습 결과가 아예 달라지는 경우

5. Handling the Web data

정보의 대표성(Spiral of silence) : 웹 상에서 수집하는 글 ≠ 대중의 의견, 많이 언급되는 토픽 ≠ 중요한 토픽
→ 인터넷 상의 의견이 대표성이 있는 의견이 아닐 수 있음을 인지해야 하고 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화(편향) 현상을 주의해야 한다.
오정보의 빠른 확산으로 인한 인포데믹 현상 : 오정보는 사실 정보에 비해 더 빠른 속도로 전파되기 때문에 주의해야 한다.
*인포데믹(infodemic) : 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부하 현상
사용자의 의견 반영 : 데이터 사용과 서비스 개발에 사용자의 어려움을 반영해야 한다. 특히 개인 정보 보호 측면을 신경써야 한다(잊혀질 권리; The right to be forgotten).