2023 그린스타트업타운 창의인재양성 아카데미
INNOST Digital Academy 빅데이터 과정
명확한 목표를 설정하고 해결하고자 하는 과제를 명확히 정의하여 그 범위를 설정하는 것을 말한다.
이 단계가 없다면 어떤 데이터를 수집해야 하는지, 무엇을 통해 지식을 창출하고 싶은지 알 수 없다.
아래와 같은 질문을 통해 분석 목표를 설정한다.
수집 방법을 결정하고 수집 방법에 따른 수집 기술을 선택해 적용한다.
분석에 필요한 데이터의 요건을 정의하고 이에 해당하는 데이터를 확보해야 한다.
수집한 데이터를 원하는 형태로 가공, 정제하여 분석에 사용한다.
데이터 가공은 데이터 전처리, 데이터 정제라고도 부른다.
데이터 오류나 구조 부적합, 항목 누락 등의 다양한 원인으로 데이터의 가공이 필요하다.
중복값 제거, 결측값 보정, 데이터 연계/통합, 데이터 구조 변경 등의 다양한 전처리 방법으로 데이터를 가공할 수 있다.
🤯 데이터 가공은 매우 힘든 과정이다.
Kaggle 창립자 안토니 골드블룸이 "데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다." 라고 말할 정도!
정량은 수치를 중시하는 것, 정성은 상황 묘사를 중시하는 것!
통계분석과 이를 기반으로 한 머신러닝, 딥러닝 등의 인공지능을 활용할 수 있다.
좀 더 구체적인 분석 방법들에는 이런 것들이 있다.
차트, 그래프, 맵 등의 시각적 요소를 사용해 데이터 분석 결과를 쉽게 확인할 수 있도록 표현하고 전달되는 데이터 분석 프로세스의 마지막 과정이다
각 데이터의 특징에 맞는 시각화 요소를 선택하는 게 중요하다!
예를 들어, 시간과 관련된 데이터라면?
시간에 따른 변경 사항을 표시할 수 있는 선형 그래프나 차트, 타임라인과 같은 요소를 선택하는 것이 효율적이다.
이 외에도 시각화에 사용되는 요소에는 막대형 그래프, 파이차트, 도넛차트, 누적영역, 지도 등등 다양하다.