정형 데이터, 반정형 데이터여러 요소의 결합의로 의미 부여, 주로 객관적 내용수치나 기호 / 데이터베이스, 스프레드 시트 형태DBMS, 로컬 시스템 내부통계 분석 용이비정형 데이터객체 하나가 함축된 의미 내포, 주로 주관적 내용문자나 언어 / 웹 로그, 텍스트 파일 형
https://www.data.go.kr/https://www.data.go.kr/tcs/opd/ndm/view.dohttps://data.seoul.go.kr/https://data.gg.go.kr/portal/mainPage.do

https://www.youtube.com/watch?time_continue=205&v=ESEToaAHHuo
전수 조사가 사실상 불가해 무작위로 일부 상품을 골라 조사하는 것을 표본 조사 방식이라고 한다.아무리 정교하게 표본 조사를 해도 전수 조사와 오차가 발생할 수 밖에 없다.통계학에서 표본 조사로 얻은 데이터에서 허용 오차를 보통 5%로 지정하는데 이는 유의 수준 5% 또

첨도 값이 클수록 데이터 값들이 평균으로 몰린다는 의미로 가격 변동성이 낮다고 볼 수 있다.철 스크랩 -0.91열연 0.02냉연 - 0.65\-> 열연이 가장 평균에 값이 몰려 있다.표준 편차는 데이터가 평균에서 얼마나 떨어져 있는지 나타내는 값으로 가격 변동성을 확인
Z 검정, T 검정는 평균 차이만으로 두 집단 비교를 넘어 그 차이의 정도가 통계적 유의성이 있는지 검정할 때 사용한다. Z는 모집단의 분산 값을 알고 있을 때, T 검정은 모집단의 분산 값을 모를 때 사용하며 모집단을 모를 때가 많아 주로 T가 쓰인다.대립가설: 두
서로 다른 집단 끼리 비교를 많이 하는데 특히 평균이 서로 같은지 비교하는 경우가 많다.이때 비교할 집단이 2개라면 T 검정 혹은 Z 검정으로 가설을 세워 비교하면 됩니다. 하지만 세 집단 이상의 표본을 비교/분석할 때는 분산 분석(ANOVA) 방법을 이용합니다.분산
데이터 값의 범위를 0~1 사이로 변환. 이 방법으로 데이터 군 내에서 특정 데이터의 위치를 확인할 수 있다. 이 방법은 보통 데이터 군 내에서 특정 데이터 위치를 확인하고 싶을 때 사용한다. 과거 대비 현재 데이터 위치 파악. (e.g., 과거 하루 코로나 19 확진

연속형 변수(e.g., 키, 몸무게, 나이, 소득 등)로 측정된 두 변수 간의 선형관계를 분석하는 기법.선형관계는 비례식이 성립되는 관계를 뜻한다.A가 증가함에 따라 B도 증가 혹은 감소하는지 분석.상관계수란 두 변수 사이의 관계(상관관계)의 정도를 나타내는 수치로,

두 변수의 선형관계를 나타내는 상관관계와 달리, 회귀 분석은 최적의 변수를 구하고 변수 하나를 다른 변수의 기반으로 추정합니다.독립 변수(원인 변수)를 통해 종속 변수(결과 변수)를 추정회귀 분석은 둘 이상의 변수 사이에 어떠한 관계가 있는지를 보여 주는 통계 기법이다

단순 회귀 분석을 검증하는 방법으로 T 검정과 F 검정이 있다T 검정: 회귀계수별 통계적 유의성을 검증하는 방법.F 검정: 모든 회귀계수를 한꺼번에 검증하여 회귀 모형의 통계적 유의성을 검정. 통계적 유의성 은 모집단에 대한 가설이 확률적으로 우연이라고 생각하기 어렵고

회귀식을 이용해 행복점수 Y를 계산해 볼 수 있다.Y=3.396427+2.170122X

하나의 종속 변수에 대해 독립 변수가 둘 이상인 경우.2개 이상의 연속형 독립 변수가 연속형 종속 변수 Y에 미친 영향을 검증하는 분석법.다중 회귀 분석은 베타 제로를 절편으로 갖고 베타 원, ..., 베타 케이를 기울기, 엡실론을 오차항으로 갖는 함수식으로 표현된다.

탐색적 데이터 분석은 가설을 미리 설정하고 맞는 데이터 수집과 통계 분석하는 것이 아닌, 수집하고 시각화하여 패턴을 도출한 후 결론 혹은 현상을 발견하는 분석법이다.탐색적 데이터 분석의 대표적인 방법 중 하나가 바로 시각화이다.전통적인 분석 방법, 가설을 미리 설정하고