상관관계: 두 변수 간의 연관성.
인과관계: 하나의 변수가 다른 변수에 직접적인 영향을 미침.
예시: 초콜릿 소비와 노벨상 수상자 수의 상관관계는 있지만, 인과관계를 의미하지는 않음.
유의점: 상관관계는 반드시 인과관계를 의미하지 않음. 데이터 분석 시, 이를 명확히 구분해야 하며, 잘못된 결론을 도출하지 않도록 주의해야 함.
에러 바: 데이터의 신뢰도를 나타내는 시각적 가이드.
통계적 유의미성을 판단할 때 에러 바를 활용해 정확한 해석 필요.
유의점: 에러 바를 통해 데이터의 변동성을 이해하고, 이를 반영하여 신뢰할 수 있는 결론을 도출해야 함.
비정상적으로 큰 값이나 작은 값을 제거해 데이터의 품질을 높임.
EDA(탐색적 데이터 분석) 과정을 통해 데이터의 이상치를 찾아내고 정제함.
유의점: 데이터 정제 과정에서 발생할 수 있는 손실을 최소화하고, 분석의 정확성을 높이기 위해 데이터를 세심하게 다루어야 함.
언더피팅: 모델이 너무 단순해 충분히 학습되지 않은 상태.
오버피팅: 모델이 너무 복잡해 특정 데이터에만 특화된 상태.
적절한 데이터 양과 모델 복잡성을 유지해야 함.
유의점: 모델의 성능을 최적화하기 위해 데이터 양과 모델 복잡성의 균형을 맞추는 것이 중요함.
AI 모델의 내부 작동 방식을 이해하기 어려움.
예시: WCO의 탈세범 잡는 알고리즘에서 설명력이 부족해 세관원들이 신뢰하지 못했던 사례.
유의점: 블랙박스 모델의 한계를 극복하기 위해 설명력을 높이는 노력이 필요함.
사후 설명력: 모델의 결정 과정을 시각화해 제공.
해석 가능한 모델: 처음부터 설명 가능한 형태로 설계된 모델.
유의점: 설명 가능한 AI 모델을 통해 사용자 신뢰를 높이고, 더 나은 의사결정을 지원할 수 있음.
스파이럴 오브 사이런스: 소수의 강한 의견이 다수의 의견처럼 보이는 편향 현상.
오정보의 빠른 확산과 인포데믹 문제.
유의점: 데이터의 대표성과 진실성을 확보하기 위해 편향된 정보를 걸러내는 노력이 필요함.
개인 정보의 안전한 보관과 필요 최소한의 정보 요청.
과거의 정보가 계속 노출되지 않도록 검색 결과에서 제거하는 법적 권리.
유의점: 데이터의 보안과 개인 정보 보호를 위해 최신 법률과 규정을 준수해야 함.
피고의 재범률을 예측하는 콤파스 알고리즘의 인종적 편향 사례.
유의점: 알고리즘이 사회적 편향을 반영하지 않도록 데이터의 편향을 제거하고, 공정성을 확보해야 함.
아마존의 채용 알고리즘이 남성 중심의 데이터를 학습해 여성 지원자를 차별한 사례.
유의점: 채용 과정에서의 성차별 문제를 해결하기 위해 알고리즘의 편향을 주의 깊게 점검해야 함.
챗봇의 편향 문제
MS의 챗봇 테이가 사용자들에게 편향된 데이터를 학습해 차별적 발언을 한 사례.
유의점: 챗봇 등의 AI 서비스가 편향된 정보를 학습하지 않도록 지속적으로 모니터링하고 관리해야 함.
데이터 확보, 전처리, 분석, 해석의 전 과정에서 주의해야 함. 데이터의 품질이 바로 알고리즘의 학습 품질을 결정하기 때문에 데이터에 대한 많은 노력을 드려야 함. 특히 오차 범위, 특이점, 대표성 문제를 항상 고민해야 함.
성능만 높은 것이 아니라 설명력과 신뢰성을 겸비한 알고리즘이 필요함. AI가 인간의 결정을 돕거나 대체하는 경우, 윤리적이고 사회적 규범에 맞는 의사결정을 지원할 수 있도록 노력해야 함.
알고리즘이 사회적 편향을 조장하지 않도록 주의해야 함. 이를 위해 데이터의 편향을 제거하고, 공정성을 유지하는 것이 중요함.
이 요약본은 LG Aimers Academy의 교육 내용을 바탕으로 작성되었습니다. 데이터 과학과 AI 학습에서 윤리적 소양을 중요하게 여기는 모든 분들에게 도움이 되길 바랍니다.