데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료. 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화/수치화된 자료.단위(Unit): 관찰되는 항목 또는 대상관측값(Observation): 각 조사단위별 기록정보 또는 특성변수(Variable):
통계분석의 신뢰성을 위해서는 기본적으로 데이터와 변수가 많으면 많을수록 좋지만, 너무 많으면 분석모형을 구성하고 유지하는 데에 많은 비용이 들기 때문에, 어느정도의 설명력이 유지되는 선에서는 변수를 적게 선택하는 것이 효율적이다.변수를 선택하는 다양한 방법들을 알아보자
01 데이터 탐색의 기초 1. 데이터 탐색의 개요 1) 탐색적 데이터 분석(EDA: Exploratory Data Analysis) 수집한 데이터를 다양한 방법으로 관찰하고 이해하는 과정. 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정 2)
공간적 정보에 시간의 흐름이 결합된 다차원 데이터를 의미함.유효 시간: 데이터가 발생하거나 소멸된 시간거래 시간: 관리시스템을 통해 처리된 시간사용자 정의 시간: 유효 시간이나 거래 시간이 없는 경우 사용자가 정의한 시간스냅샷 데이터: 시간개념이 필요하지 않아서 거래/
기술통계(Descriptive Statistics)는 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법을 의미한다.분석에 앞서 데이터의 특성을 파악해 그 특성을 정량화함으로써 데이터를 체계적으로 요약하는 과정이 필요하다.기술통계의 종류중심화 경향(Central
통계학을 이용해 모집단의 특성을 추측하는 통계적 추론은 추정(estimation)과 가설검정(testing hypothesis)으로 나누어진다.추정(estimation): 표본을 통해 모집단 특성을 추측하는 과정가설검정(testing hypothesis): 모집단에 대