LG Aimers 6기 수강중.
KAIST 전산학부 차미영 교수님 강의를 들으며 정리한 글입니다.
Part 1. 데이터 분석과 AI학습에서 유의할 점
데이터를 잘 해석하고 있는가?
- 상관관계와 인과관계는 다르다.
- ex) A와 B가 서로 정비례하게 나올수 있음.
하지만 A(B)가 많으면 무조건 B(A)라는 건 아님
데이터 전처리와 분석방법은 적절한가?
- error bar 사용하기
- 적합한 통계 테스트 찾기
- 아웃라이어 제거하기
- 데이터 정규화
- EDA(Exploratory Data Analysis)
- 정의 : 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정
학습에 쓰는 데이터가 충분한가?
- Appropirate-fitting인가? (Under-fitting, Over-fitting X)
- training, test 데이터는 달라야한다.
Black Box Algorithm
- 성능만 중요함 X,
설명력도 높아야한다.
- 사후 설명력(post-hoc explainablility)
- ex) Grad-CAM
- One pixel attack : 픽셀 하나만 바뀌었는데 결과가 달라짐. -> 모델이 얼마나
민감한지 고려해야함.
Handling the Web Data
- Spiral of silence
- : 한명이 큰소리로 극단적의견냄 > 내 의견은 반대지만 다수가 아닌가보다 > 조용히함 > 큰소리낸 한명이 더 부각됨
=> 편향현상
- 인터넷 상의 의견이
대표성 있는 의견이 아닐 수 있다.
- 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화 현상 주의
- Infodemic(인포데믹) :
사실정보와 더불어 오정보의 양이 늘어서, 어떤게 사실인지 구분이 어려워지는 정보 과부화 현상
- 데이터 사용과 서비스 개발에 사용자 어려움을 반영해야된다.
- 잊혀질 권리 -> 정보가 자동 복제되니까 삭제는 힘들지만, 검색은 안되는식으로 권리를 보장할 수 있음.
윤리에 대한 법적 제도
- GDPR (EU)
- 정의 : 개인정보 보호, 과다광고에 노출 혹은 혐오 표현 규제하는 플랫폼 단속 법
- EU에 있는 제도, 하지만 인터넷으로 연결되니 우리도 알아야함.
- Digital Services Act (EU)
- 네티즌의 성별, 인종, 종교 등에 기반한 알고리즘으로 개인화 추천 광고를 노출하지 않음
- 어린이 대상 개인화 추천 광고는 전면 금지
- 디지털서비스 사업자는 혐오 발언, 아동 학대, 테러 선동 등 불법 콘텐츠 유통도 막아야함.
AI and Ethical Decisions
- COMPAS(Correctional Offender Management Profiling for Alternative Sanctions) (미국 법)
- 피고의 미래 범죄 위험을 점수로 예측하는 Software Tool -> 판사가 결정내릴 때 참고하는 점수
- 2017년 기준 미국 12개(캘리포니아 주, 뉴욕주, 워싱턴 ...) 기타권할권 법원에서 사용 중
- 아마존 -> AI 기반 채용시스템 -> 기존 직원들 남성 대다수 -> 성차별적 예측.. -> 폐기!
summary
- 데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요
- 알고리즘의 설명력, 편향, 신뢰의 문제에 주의