0. 데이터 핸들링 for AI

wandajeong·2024년 4월 15일
0

Data Handling

목록 보기
1/15

AI에 대한 관심과 활용도가 요즘 특히 챗GPT를 기점으로 급격하게 증가하고 있다.
AI에 처음 공부하는 사람들은 알고리즘이나 최신 SOTA 기술 등의 모델 자체에 현혹(?)될 가능성이 높다. (내가 그랬다.) 하지만 막상 현업에서 다루는 데이터를 가지고 AI 모델을 구축해보면 중요한 것은 모델이 아니라 데이터라는 것을 깨닫게 된다. 즉, 데이터를 어떻게 전처리(preprocessing)하는지, 어떻게 데이터를 모았는지, 크기가 어떤지, 얼마나 퀄리티가 좋은지, 어떻게 학습/평가 셋을 나누었는지 등이 AI 시스템 개발에 큰 영향을 끼친다는 것을 알 수 있다.
앤드류 응(Andrew Ng) 교수님의 세미나 '머신러닝 시스템 개발: 모델 중심에서 데이터 중심으로' 에서도 데이터의 중요성을 강조했다. 모델 성능을 개선하기 위해 모델 관점에서 접근하는 방식보다 데이터 관점에서 접근하는 방식이 결과적으로 성능 개선 폭이 훨씬 크다는 것을 보여주셨다.

그러므로 데이터 핸들링과 데이터 기반의 문제 해결 능력은 좋은 AI 모델을 만드는 데 필수적인 역량이다. 데이터 핸들링이란 데이터를 수집하고 정제하고 변환하고 저장하는 등의 과정을 통해 원하는 형태로 가공하는 것을 말한다. AI는 데이터를 기반으로 학습하고 예측하고 의사결정을 하는 시스템이므로, 데이터의 품질과 양이 AI의 성능에 큰 영향을 미친다(Garbage-In, Garbage-Out).

현업에서 데이터 핸들링과 AI프로젝트 PM을 담당하면서 느끼고 배웠던 내용을 복기하면서 블로그에 정리해보고자 한다. 구체적으로, 실무에서 데이터를 다루기 위해 필수적인 부분을 기초부터 단계별로 정리하면서 python 기반으로 데이터를 다루는 과정에 따라 중요한 부분, 유의해야할 사항, 유용한 코드 등을 누구나 이해하기 쉽게 정리해볼 생각이다. 기존에는 시간이 없다는 핑계로 나만 알아볼 수 있는(?) 글로 블로그에 코드를 끄적이는 수준이었다면, 앞으로는 다른 여러 사람들과 함께 공유하고 논의할 수 있는 수준의 블로그가 되었으면 좋겠다. 나아가 집단 지성으로 글의 질을 높여가게 된다면 더할 나위 없다.


reference

https://jiho-ml.com/weekly-nlp-35/

profile
ML/DL swimmer

0개의 댓글