📍 강의 자료 출처 : LG Aimers
예) 초콜릿, 인지기능과 노벨상 수상의 인과관계
→ 상관 관계와 인과 관계를 혼용해서는 안된다.
예) 에러바가 없는 그래프
→ Error bar 추가하기, 적합한 통계 테스트 사용하기, 데이터 전처리(아웃라이어 제거), 데이터 표준화, EDA
보통의 인공지능은 millions scale로, 100만 데이터 건은 있어야 많은 수의 파라미터를 학습할 수 있다.
모델이 너무 단순하다면 충분한 학습이 이루어지지 않음 = 언더피팅
→ 잘 학습된 모델을 찾기 위해 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다. 또 학습데이터와 테스트데이터는 달라야 한다.
AI 모델은 그 안에 있는 수많은 파라미터 값에 따라 결정되기 때문에 내부를 알기 어렵다는 단점이 있다.
예) 탈세범 검출
→ 실제 사례에서는 성능(정확도)만 중요한 것이 아니라 "설명력"도 중요하다. 실제 알고리즘을 만들 때 설명력을 높이기 위해 노력해야 한다. 노이즈 민감도를 신경써야 한다.
정보의 대표성(Spiral of silence) : 웹 상에서 수집하는 글 ≠ 대중의 의견, 많이 언급되는 토픽 ≠ 중요한 토픽
→ 인터넷 상의 의견이 대표성이 있는 의견이 아닐 수 있음을 인지해야 하고 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화(편향) 현상을 주의해야 한다.
오정보의 빠른 확산으로 인한 인포데믹 현상 : 오정보는 사실 정보에 비해 더 빠른 속도로 전파되기 때문에 주의해야 한다.
*인포데믹(infodemic) : 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부하 현상
사용자의 의견 반영 : 데이터 사용과 서비스 개발에 사용자의 어려움을 반영해야 한다. 특히 개인 정보 보호 측면을 신경써야 한다(잊혀질 권리; The right to be forgotten).
GDPR : 개인 정보를 보호하고 과다 광고에 노출, 혐오 표현에 노출을 규제하는, 플랫폼을 단속하는 EU의 법 제도
예) COMPAS, 아마존의 AI 기반 채용시스템, 챗봇 Tay
→ 인공지능 알고리즘이 사회의 편향을 조장하는 것은 아닌지 유의해야 한다. 알고리즘의 결과들이 우리의 윤리 규범과 잘 맞는지, 상충되지는 않는지 살펴볼 필요가 있다.
