2023 그린스타트업타운 창의인재양성 아카데미
INNOST Digital Academy 빅데이터 과정
복잡한 정보를 쉽고 직관적으로 이해하려면 데이터 시각화가 필요하다.
빅데이터 기술이 발전하면서 시각화 기술이 매우 중요하게 여겨지고 있다.
모든 데이터를 상세히 살펴보는 것은 어려운 일이기에, 데이터 요약이나 시각화가 필요하다.
데이터 시각화를 통해 패턴이나 관계를 빠르게 파악하여 더 나은 의사 결정을 할 수 있다.
정보를 명확하고 간결하게, 효과적으로 파악하여 전달하는 것이 목적이다.
데이터 시각화를 위해서는 다양한 종류의 그래프를 알아야 한다.
모든 그래프의 소스라고 할 수 있다. 행과 열로 구성되며, 변수와 데이터의 양이 적고 비교, 구성 또는 관계 분석에 적합하다.
크고 작음을 한눈에 이해할 수 있어서 비교분석에 사용한다. 데이터를 간단하게 시각화할 수 있지만 범주의 개수가 많아지면 시각적으로 혼란스러워진다.
데이터의 추이와 변화를 시각적으로 보여주기 위해 사용한다. 시간, 순서, 연속된 데이터에 대한 분석 시각화에 매우 적합한 그래프로 x축과 y축을 갖고있다. 시간 경과에 따른 데이터의 추이를 파악하기에 적합하다. ex) 일일 판매량, 월별 매출액, 연간 온도변화, 주식 가격 변동 등(시계열 데이터)
두 변수간의 관계를 시각적으로 나타내기 위해 사용한다. 주로 연속형 변수를 가지는 데이터에서 두 변수의 상관관계, 분포, 패턴 등을 파악하는 데에 유용하다. x축과 y축에 각각 두 변수의 값을 나타내고 데이터 포인트들을 점으로 표현한다.
전체에 대한 부분의 비율을 표현한다. 카테고리가 너무 많거나 비슷한 비율을 가지는 경우, 시각적으로 구분하기 어려울 수 있다. 매출액, 인구 구성 비율, 이용자 선호도, 생산량 등의 데이터 비율을 파악할 수 있다.
도수 분포를 그래프로 나타내기 위해 사용한다. 주로 데이터의 분포, 빈도수, 밀도 등을 확인할 때 유용하다. 가로축에 변수의 범위, 세로축에 해당 범위에 속하는 데이터의 빈도수를 나타낸다.
데이터의 중앙값, 이상치, 분위수 등을 보여주는 그래프이다.