[R 기초]No.1 통계학의 개념

Dev_Sanizzang·2021년 8월 30일
0

통계응용(R)

목록 보기
1/9

문제해결을 위한 의사결정 프로세스

  1. 핵심 이슈 정리
  2. 조사 대상 선별
  3. 필요 데이터 규명, 실험/조사 방법 수립
  4. 데이터 수집, 정리, 통계 처리 -> 정보
  5. 중요한 요인(factor) 발견
  6. 통계적 모형 개발, 추정
  7. 적합성 검증, 모형 최적화 -> 해답
  8. 결론 도출, 의사결정 제안

통계학이란

통계학의 정의

  • 통계학이란 불확실한 상황 하에서 과학적인 의사결정을 도출하기 위한 이론과 방법의 체계
  • 통계학은 매우 다양한 분야의 연구에서 주어진 문제에 대하여 적절한 데이터를 수집하고 분석하여 해답을 구하는 과정을 연구하는 과학의 한 분야
  • 학문적 관점에서 보면 통계학은 응용 수학의 한 분야로서 실험 및 조사를 통하여 얻을 수 있는 데이터로부터 응용 수학의 기법을 이용해 관심 대상의 특성을 찾아내는 것
  • 통계적 기법은, 실험계획, 데이터의 요약이나 해석을 실시하는데 있어서 근거를 제공하는 학문이며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있음

통계학의 활용 분야

  • 통계학의 영역에는 데이터의 수집 분류 표현 분석 추론 해석 등 다양한 분야가 포함
  • 통계학은 공학 뿐 아니라 농업, 생명과학, 환경과학, 경제학, 경영학, 산업연구, 품질보증, 시장조사, 여론조사 등 거의 모든 분야에서 활용
  • 통계학자는 주어진 문제에 대하여 필요한 데이터의 형태, 데이터를 수집하는 방법, 문제에 대한 최선의 답을 구하기 위한 분석방법을 결정하는 등의 역할 수행
  • 오늘날 통계학은 우리의 일상생황에서 흔히 접하는 일기예보, 여론조사, 취업률 분석 등에서부터 수요예측, 주가 예측, 물가지수살출, 수주성공확률분석, 가상전쟁분석 등에 이르기까지 수많은 분야에 걸쳐 활용
  • 통계학은 불확실성을 내포하고 있는 미지의 자연현상과 현대의 복잡한 사회현상에 대한 데이터를 수집, 정리 요약하며, 수집된 데이터와 정보를 이용하여 불확실한 미래에 대해 과학적인 판단을 내릴 수 있는 방법을 제시

통계학의 연구 분야

  • 통계학의 연구 분야에는 통계이론을 연구하는 분야, 방법론을 개발하는 분야, 그리고 실제적인 문제해결을 위해 통계이론과 방법론을 응용하는 분야 등이 있음
  • 통계적 이론 연구 분야: 통계학자들이 담당하는 영역으로 통계학의 기초가 되는 이론들
    을 연구(확률론, 확률과정론, 수리통계, 점근적추론, 선형비선형모형, 회귀분석, 실험계획, 통계계산, 베이지안추론, 비모수추론, 시계열분석 등)
  • 통계적 방법론 개발: 통계응용 분야에 필요한 통계적 방법론을 개발하는 분야임(계량경제
    학, 생명정보학, 공학 등)
  • 통계적 방법론 응용: 다양한 분야에서 발생하는 실제적인 문제를 해결하기 위해 효율적으로 통계이론과 방법론을 적용하는 분야
    - 임상시험을 계획하고 그 결과를 분석하는 생물통계 유전자 관련 데이터를 분석하기 위한 생명정보학
    - 제품의 균일성을 관리하는 품질관리와 시스랩의 수명을 분석하는 신뢰성분석 및 각종 공
    학 분야에서 사용되는 공업통계

모집단과 표본

모집단과 모수

  • 모집단(population): 올바른 의사결정을 도출하기 위해 관심을 갖고 연구해야 할 대상. 즉 통계분석의 연구대상이 되는 모든 개체들의 집합
    - 모집단이란 통계분석의 연구대상이 되는 모든 개체들의 집합, 예를 들면 대선 여론조사에서는 유권자의 대선 후보에 대한 선호도가 모집단이 됨
    - 좁은 의미로 보면 연구대상이 되는 모든 가능한 관측치나 측정치의 집합을 모집단 또는 통계적 모집단이라 함.
    • 모집단이 유한개의 추출단위를 가질 때 유한모집단(finite population), 무한개의 추출단위를 가질 때 무한모집단(infinite population)이라 함.
    • 모집단의 정의에서 주의해야 할 점은 통계적 모집단은 반드시 실존하는 개체들의 집합일 필요는 없음, 예를 들어 어떤 약의 치료효과를 생각 할 경우 미래의 환자에 대한 치료효과는 실제로 존재하는 것이 아니며 이경우에 모집단은 추상적인 개념이 됨
  • 모수(parameter): 모집단의 특성을 나타내는 수치로서 평균, 표준편차, 분산, 비율 등 다양함. 통계학에서는 의사결정을 위해 특별히 관심을 갖는 모수만을 선택하여 분석대상으로 함
    - 모집단의 특성은 매우 다양하므로 이 모든 특성을 모두 표현하기는 어렵고 우리가 특별히 관심을 갖는 특성만을 선별하여 데이터 분석을 통해 추측하게 되는 데 대표적인 모수로는 평균(mean), 표준편차(standard deviation), 분산(variance), 왜도(skewness), 첨도(kurtosis), 비율(ratio) 등이 있음

표본과 통계량

  • 표본(sample): 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합
    - 구체적으로 말하면, 통계처리를 위하여 모집단에서 실제로 추출한 관측치나 측정치의
    집합을 표본이라 하고, 표본은 모집단에 비해 크기가 작기 때문에 정확한 정보를 주지
    못하는 것이 보통임
    - 모집단을 전부 조사하면 정확한 정보를 얻을 수 있겠지만, 대부분의 경우 이렇게 모두
    조사하는 것은 불가능하여 표본을 사용함
    - 통계학이란 한 마디로 일부분을 통해 전체에 대해서 판단하는 것(표본에 담긴 정보를 사
    용하여 모집단의 특성을 추측)이며 이를 통계적 추론(inference)이라 함

데이터의 종류

개체

  • 개체는 자료를 수집하는 대상, 즉 국가 통계에서 대표적인 개체는 개인이나 기업이됨

변수

  • 변수는 개체의 특징을 나타냄, 따라서 변수는 개체마다 고유의 값을 갖게 됨

자료

  • 자료는 조사대상인 각 개체로부터 각 변수에 대하여 수집된 값들을 의미, 따라서 자료라고 하면 개체의 한 변수의 값을 말 할 떄도 있고 여러 개체의 여러 변수의 값들을 말 할 때도 있음

데이터의 유형

  • 양적(quantitative) 데이터
    - 무게, 온도, 점수 등과 같이 수치로 나타낼 수 있는 데이터
    • 이산형(discrete) 데이터와 연속형(continuous) 데이터로 양분
  • 질적(qualitative) 데이터
    - 성별이나 취미와 같이 수치로 나타낼 수 없는 데이터

인문 사회적 현상이나 의견을 나타내는 데이터

  • 주로 관측이나 조사를 통해 습득
  • 실험은 필요하지 않으나, 모집단의 특성에 맞는 적절한 샘플링 방식을 선택
    예) 인구 및 주택 등에 대한 조사(census), 여론조사. 교통량조사, 각종 설문조사 등

이공학에서 다루는 데이터

  • 실험을 통해 습득
  • 실험 데이터는 신기술 개발, 프로세스개선 등의 효과 입증 시
  • 자원을 효율적으로 사용하고 오차를 최소화하기 위해 사전에 실험설계도 중요

실험설계(design of experiment)

  • 실험 계획를 통해 원하는 데이터를 정확하게 수집하고 기록할 수 있도록 준비
  • 데이터 수집의 규모와 대상 할당 방법 결정하고 적절한 데이터를 수집
  • 이공학적 실험설계 뿐 아니라 설문 작성법 등도 여기에 포함

데이터의 척도(측정수준)

  • 명목척도(nominal scale): 데이터가 순서나 크기의 의미를 갖지는 않는 경우
    예) 전화번호, 등록번호, 혈액형, 주소, 성별(성별을 1, 2로 표기시에 1, 2sms 크기와 순
    서에 무관함) 등
  • 순서척도(ordinal scale): 데이터가 순서나 차례, 서열 등의 의미를 갖지만 간격에는 의미
    가 없는 경우
    예) 직급 계급 순위, 등급
  • 구간척도(interval scale): 데이터의 순서뿐만 아니라 그 간격에도 의미가 있으나, 절대
    영점이 없으므로 비율은 의미를 갖지 못하는 경우
    예) 섭씨온도, 지능지수 등(섭씨 20도가 10도보다 두 배 덥다고 할 수 없고, 섭씨 0도는 열이 없는 온도가 아니라 얼음이 얼기 시작하는 온도임)
  • 비율척도(ratio scale): 데이터에 절대 영점이 있으며 간격뿐만 아니라 비율에도 의미를 갖
    는 경우
    예) 절대온도, 농도, 몸무게, 키 등(20% 희석액은 10% 희석액에 비해 2배 농도임

기술통계와 추측통계

  • 기술통계학(descriptive statistics)은 수집된 데이터를 정리하고 그 내용을 특정 짓는 몇가지의 대표치를 산정하거나 그래프로 나타내서 모집단의 특성을 파악하는 방법을 다루는 분야
  • 추측통계(inferential statistics)는 실험이나 조사를 통해 얻은 데이터를 어떤 모집단에서 얻어낸 확률표본이라고 보고 그 통계량으로부터 모집단의 분포를 특정 짓는 모수를 추측하려는 것, 즉, 추측통계학은 데이터에 내포되어있는 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야임
profile
기록을 통해 성장합니다.

0개의 댓글

관련 채용 정보