: 밀리언 스케일(백만 데이터건) 정도는 되어야 많은 수의 파라미터를 학습할 수 있다. 모델이 단순하면 충분히 학습이 안될 수 있다. (언더피팅)
오버피팅은 데이터에 너무 과적합되어서 다른 상황에 대해서는 잘 처리하지 못하는 단점이 있다. 또한 학습데이터와 테스트데이터는 달라야 한다.
: 성능만 중요한 것이 아니라 설명력도 중요하다.
Post-hoc explainability 사후 모델 -> 학습 결과가 바뀔 수 있는 위험성
Interpretable model -> 처음부터 설명 가능한 모델
: 정보의 대표성. Spiral of silence -> 한가지 의견만 대표성을 가진다는 착각을 불러 일으킴. 편향 현상!!! (소셜네트워크는 특히 더 그럼. 몰아가기가 심하다)
: 오정보는 더 빠르게 확산되기 때문에 주의해야 함. 이 정보가 가진 대표성이 있는지 진실성이 있는지 유의해야 함. 인포데믹 중요 (거짓과 참인 정보를 걸러내는 것)
: 사용자의 어려움을 반영해야 한다.
: 잊혀질 권리를 보장해야 한다. 그러나 한번 올라간 데이터는 삭제가 힘들다. 데이터가 확산이 되기 때문. 그러나 검색을 했을 때 그 결과가 나오지 않게는 할 수 있다. 데이터를 안전하게 보관하고 개인정보를 지켜줄 수 있어야 한다.
: GDPR, 개인정보를 보호하고 과다 광고에 노출, 혐오 표현의 노출을 규제하는 플랫폼들을 단속하는 법 제도. 데이터 과학자는 윤리적인 가치에 대해 민감하게 알고 법 제도의 변화도 따라갈 줄 알아야 한다.
: COMPAS. 판사가 형량 결정하는 데에 도움을 주는 소프트웨어 솔루션. 그러나 편향 현상이 있었음. 알고리즘이 어떤 편향을 가지고 있는지, 사회의 편향을 조장하는 것은 아닌지 유의해야 한다. 아마존에서도 남성 지원자에 대한 점수를 더 주는 편향이 있었음.