Data Analysis <Basic>

cheonbi·2022년 2월 16일
0

Data Analysis

목록 보기
1/4

본 게시물은 코드프레소의 code.PRESS-UP 체험단 과정을 담은 게시물입니다.

해당 게시물 수강강좌 :

파이썬으로 시작하는 통계 데이터 분석

파이썬 라이브러리를 사용하여 통계 데이터 분석 시작하기

https://www.codepresso.kr/course/57

데이터 분석(Data analysis)

유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다.

오늘날 비즈니스 부문에서 데이터 분석은 의사 결정을 더 과학적으로 만들어주고 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할을 한다.

데이터를 분석하는 것은 오늘날 어느 분야에서든 빠질 수 없는 학문입니다.
데이터를 분석하기 위한 통계학의 중요도 또한 올라갔습니다.

데이터 분석을 진행하기 앞서 데이터 분석은 어떻게 해야하는지 알아봅시다.

1. 통계의 영역

통계는 데이터를 다루는 목적에 따라 크게 두가지로 구분합니다.

📊 기술통계(Descriptive statistics)
🏸 추리통계(Inferentail statistics)

1-1. 기술통계(Descriptive statistics)

기술 통계에서 기술은 Technololgy의 기술이 아닙니다.
Descriptive = '묘사하는', '그려서 설명하는'
즉, 우리가 수집한 데이터를 묘사하고 설명하는 통계 기법들을 말합니다.

여기서 기술 통계 기법은 크게 또 두가지로 구분합니다.
📊 집중화 경향에 대한 기법(Central tendency)

우리가 수집한 데이터를 대표하는 값이 무엇인지 또는 
어떤 값에 집중되어 있는지를 다루는 기법
평균(mean), 중앙값(median), 최빈값(mode)

📊 데이터가 어떻게 퍼져있는지(Variation)

우리가 수집한 데이터가 어떻게 퍼져 있는지를 설명하는 기법
분산도라고 말함 즉, 데이터가 전반적으로 어떻게 분포되어 있는지
표준편차(standard deviation), 사분위(quartile)

기술 통계 기법을 통해 수집한 데이터의 전체적인 모양을 그릴 수 있습니다.
예를 들어, 국민 1인당 평균 소득이 2만 달러라고 합시다. 이 값은 우리나라 국민의 소득 수준의 대표값입니다. 하지만 대표값만이 중요할까요?

분산도 중요합니다. 국민 1인당 평균 소득이 아무리 높아도, 소득에 대한 편차도 함께 높은 값을 가지고 있다고 가정해 봅시다. 편차가 크다는 것은 소득 분포가 넓게 분포되어 있다는 뜻이고, 다시말해 국민의 소득편차가 크다는 뜻입니다. 이를 통해
"소득의 분배가 잘 이루어지지 않고 있구나" 라고 해석이 가능합니다.

1-2. 추리 통계(Inferential statistics)

추리 통계에서 추리는 'infererntial' = '무엇을 추론하다' 라는 뜻입니다.
말 그대로 추리 통계는 수집한 데이터를 기반으로 어떠한 것을 추론하고 예측하는데 사용하는 통계 기법입니다.

대표적인 예로 대통령 선거 예측을 들 수 있습니다.

하지만 추리 통계라는 것은 결국에는 확률을 말할 뿐이지 예언을 하는 것은 아닙니다.
우리는 제한된 데이터(표본)만 사용하기 때문이죠.
그렇다고 추리통계가 중요하지 않은것은 아닙니다. 우리가 모르지만 알고 싶어하는 것을 예측하고 설명할 수 있기 때문이죠. 물론 확률적인 이야기이긴 합니다.

2. 데이터분석 프로세스

데이터분석의 진행과정은 다음 사진처럼 정리할 수 있습니다.

코드프레소 강의 中

3. 데이터수집

3-1. 변수란?

변수(Variable)
측정 가능한 속성, 그룹 또는 레벨로도 불림

값(Value)
측정시점마다 변화

관측점(observation)
측정된 정보 집합

저장구분의미
테이블/파일(table/file)데이터셋(dataset)
행(row)관측점(observation)
열(column)변수(variable)
셀(Cell)값(value)

데이터셋(Dataset)
데이터셋은 정량적이면 숫자형, 정성적이면 문자열로 저장되는 값(value)의 집합이다. 모든 값은 변수(variable) 와 관측점(observation) 에 속하게 된다.
변수에 모든 값은 동일한 속성을 측정하게 되고 (예를 들어, 키, 온도, 기간 등),
관측점은 속성마다 동일한 단위로 측정되는 값이 담겨진다 (예를 들어, 사람, 종족, 날짜).

독립변수(Independent Variable)
동의어 - 실험변수, 설명변수, 예측변수

  • 다른 변수의 변화와 관계없이 독립적으로 변하고, 다른 변수의 값을 결정하는 변수
  • 연구자가 의도적으로 조정/변화 시킬 수 있는 변수
  • 연속형 자료라면 공변량(Convariance)
  • 범주형 자료라면 요인(Factor)

종속변수(Dependent Variable)
동의어 - 반응변수, 결과변수

  • 종속적인 변수
  • 다른 변수의 변화에 따라 값이 변하는 변수
  • 독립변수에 영향을 받아서 변화하는 변수

3-2. 데이터의 형태

데이터는 실험, 관찰 혹은 조사를 통해 얻어진 데이터를 속성이나 형태에 따라 구분하는 방법이 다르다.

  • 속성에 따라 질적데이터, 양적데이터로 구분
  • 형태에 따라 연속형 데이터와 이산형 데이터로 구분
    • 연속형 : 연속인 어떤 구간에서 값을 취하는 자료
    • 이산형 : 셀 수 있는 형태의 값을 취하는 자료
    • 예) 몸무게 - 연속형, 한 페이지의 글자수 - 이산형

속성에 따른 구분
질적데이터

  • 숫자로 나타낼 수는 있으나 의미가 없음
  • 범주형 데이터(categorical data)라고도 함

양적데이터

  • 데이터 자체가 숫자로 나타남
  • 데이터의 속성을 그대로 나타내고 있음
  • 수지형 데이터(numerical data)라고도 함
  • 경우에 따라 질적 데이터의 형태로 변환 가능

범주형 데이터(=질적데이터) 소분류
명목변수/척도
대상의 범주적 속성만을 나타내는 데이터, 범주에 주어진 숫자는 범주의 이름 외에는 의미가 없다.

순서변수/척도
대상의 속성을순서로 구분할 수 있는 데이터, 범주에 주어진 숫자는 범주로서의 이름외에 순위를 나타내는것에 의미가 있다.

연속형 데이터(=양적데이터) 소분류
간격변수/척도(구간,등간변수/척도)
측정된 변수 사이에 등간성이 있고, 임의 단위가 부여되지만 절대0과 비율은 의미가없다. 더하기는 가능하나 곱하지는 못한다.

등간성 : 동일한 간격이 유지되는 형태

비율변수/척도
측정된 변수 사이에 등간성이 있고, 임의 단위가 부여되면서 절대0과 비율이 의미가 있다. 곱하기를 할 수 있다.

형태에 따른 구분
이산형 데이터(=범주형 데이터)
대상들에 대해 측정하면 대상들이 서로 떨어진 값을 갖게 하는 모든 경우에 대한 변수
이산형 데이터가 질적데이터의 특성을 가질 때는 대상을 몇 개의 범주 중 하나에 속하게 하므로 범주형 데이터라고도 한다. 특징은 이산인 값을 취하는 형태의 자료이다. 즉, 하나씩 셀 수 있는 것 데이터이다.

연속형 데이터
자료가 연속인 구간에서 값을 취하는 형태, 즉 대상들에 대해 측정하면 대상들이 서로 연속된 값을 갖게 하는 경우에 대한 변수를 말한다. 대상이 갖는값은 정해진 범위 안의 모든 실수 일 수 있다. 세기가 불가능하다.

데이터(자료)에 대한 개념은 매우 방대하다 이밖에도 정형데이터, 비정형데이터, 반정형데이터 등등 컴퓨터과학에서 사용하는 데이터의 형태에 대한 개념이 따로 있다.
이에 대한것은 차차 코드프레소 강의와 함께 알아볼 예정이다.

다음 포스팅은 데이터 전처리에 대한 내용입니다. 분석하기 좋게 데이터를 고치는 모든 작업을 일컫습니다.

코드프레소 강의와 함께 알아보도록 하죠.

profile
༼ つ ◕_◕ ༽つ

0개의 댓글