데이터 분석 Study - 01

이성현·2023년 1월 9일
0

모집단과 표본
모집단 : 통계분석 방법을 적용할 관심 대상의 전체.
모수 : parameters. 모집단을 분석해 얻어지는 결과 수치.
표본 : 표본추출(sampling)을 통해 직접적인 조사 대상이 된 모집단의 일부
통계량 : Statistics. 표본을 분석해 얻어지는 결과 수치.
통계량을 통해 모수를 추정한다. 늘 오차가 있을 수밖에 없다.

변수(feature, attribute)
범주형 : Categorical. 연산이 안됨. 빈도기반 접근
연속형 : Continuous. 연산 가능.

독립변수: 종속변수를 구하는데 영향을 주는 변수
종속변수: 우리가 맞추고 싶어하는 변수

변수는 분석 내용에 따라 다른 역할을 가진다.
1. 평균 기온이 20도일 때, 음료별 판매량은 얼마나 되나?-> 평균 기온으로 판매량을 설명하려는 분석->평균기온을 X변수, 판매량을 Y변수로 설정 (연속형)
2. 평균기온,음료명, Hot/Ice, 판매량으로 상권을 알 수 있을까?->상권을 분류하려는 분석->평균기온, 음료명, Hot/Ice, 판매량을 X변수, 상권을 Y변수로 설정 (범주형)

자료의 정리 방법
통계표 - 수집된 자료의 전체적 특성을 파악하기 위해 자료를 정리하고 요약하는데 사용하는 도구. 보고서의 본론에 많이 쓰인다.

도수분포표, 상대도수, 히스토그램

분할표(contingency table), 교차표 등으로 표현. 두 개 이상의 변수를 동시에 고려해 관측개체의 빈도를 정리

질적자료의 해석- 도수분포표, 막대그래프, 원형그래프 등. 빈도기반으로!
양적자료의 해석 - 줄기잎그림, 도수분포표, 히스토그램 등

중요한 그래프 3가지
1. 히스토그램. 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것. 분포로 그룹, 이상치 존재 여부 확인 가능.
2. 상자그림. 데이터를 사분위수(Quartile)로 쪼개는 것. 상자그림의 수가 그룹의 수이고, 상한, 하한을 벗어난 점이 이상치이다. 모든 데이터가 같은 값을 가지고 있다면, 사분위수가 1개의 값으로 같아 선도 1개만 나온다. 중간값만 보인다.
3. 산점도. 데이터를 점으로 표현한 것으로 분포나 그룹, 이상치를 알 수 있다. 그러나 인과관계는 알 수 없다.

profile
삼성전자 C-Lab 21기 Creative Leader SW개발자 (쪼랩)

0개의 댓글