[청년취업사관학교 새싹]핀테커스 수업 1주차(8/30 Day-3)

장민정·2023년 8월 30일
0
post-thumbnail

<수업 내용>

통계 기본 지식

  • 통계 현상을 나타내고 있는 data로부터 유용한 정보를 도출하여 적절한 의사결정을 하게 해주는 것
  • 모집단/전수조사 & 표본/표본조사
    * 표본조사의 결과는 유의수준을 반드시 표시해야 한다
  • 표본으로 전체를 설명하는 것을 "검정통계학"이라 한다
    * 가설 검정 : 귀무가설 & 대립가설
    - 귀무가설 : 기존의 사실과 차이가 없다
    - 대립가설 : 귀무가설의 반대
    - P-value : 0.05미만이면 귀무가설 기각. 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률. 1종 오류를 범할 확률
    • 1종 오류 : 귀무가설이 참인데 기각하는 경우
    • 2종 오류 : 귀무가설이 거짓인데 기각하지 않은 경우

기술 통계

  • 엑셀 : 데이터 > 데이터분석 > 기술 통계
  • 범위 지정 : ctrl +shift +아래 화살표
  • 요약 통계량 체크


    cf)
    왜도의 개념

    - 오른꼬리 분포 : 왜도 양수, 왼꼬리 분포 : 왜도 음수
    첨도의 개념

실습 1. : 기술 통계량을 바탕으로 철스크랩, 열연, 냉연 중 가격 변동성이 작은 원자재를 알아보자


  • 가격의 변동성을 보기위해 각각의 원자재의 최빈값을 기준으로 생각해 보자

  • 철스랩, 열연, 냉연의 왜도는 각각 음수, 음수, 양수이므로 최빈값이 오른쪽, 오른쪽, 왼쪽으로 치우쳐 있다고 할 수 있다

  • 최빈값에 대해서 얼마나 값이 몰려 있는지는 첨도로 판단 할 수 있다고 생각하였다. 첨도가 양수일 수록 최빈값에 각격이 몰려있다고 생각 할 수 있고 첨도값에 따라 열연 > 냉연 > 철스크랩의 순으로 가격이 안정적이라고 판단해 볼 수 있다

  • 변동계수= 표준편차/평균

  • 변동계수를 고려하여 가격변동성을 살펴보자
    철스크랩 =24%, 열연 =13%, 냉연=15%
    열연 > 냉연 > 철스크랩 순으로 가격이 안정적이라고 판단해 볼 수 있다

상관분석

  • 상관관계가 있다고 하여 인과관계라고 할 수없다
  • 상관관계가 있으면 인과관계를 고려해 볼 수 있다
  • 우상향 : 양의 상관관계
  • 좌하향 : 음의 상관관계

실습 2. 스트레스 인지율과 우울증간 상관관계 시각화


  • 우상향 (양의 상관관계)

실습 3. 회식과 가장 높은 상관관계를 갖는 검색어 찾기

인과관계(단순회귀분석)

  • 인과 관계의 조건
    - 공변성 : 두가지 변수가 힘께 움직이는 경향
    - 시간적 선후 관계 : 시간적으로 어느 하나가 먼저 변화 했을 때 다른 하나가 뒤따라 변화하는 관계
    - 비허위성 : 공변성과 선후관계의 양상이 제 3의 다른 변인으로 설명될 수 없어야 한다

  • 실습 4. 1인당 GDP와 행복점수

  • 결정계수 (R2R^2 값: 0과 1사이의 값) : yy의 변화량이 xx의 변화량에 따라 설명될 수 있는 정도
    (위의 예시에서는 62%정도 설명될 수 있다)
  • 유의성 검정이 선행되어야 한다
    • 유의한 F <0.05
    • p-값(xx에 대한) <0.05
  • 잔차 : 표본 집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이(관측값-예측값)
    오차 : 모집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이

다중회귀분석

  • 차원의 저주 : 변수의 개수가 아주 많은 고차원 공간에서 데이터 분석 및 처리가 어려워 지는 현상
  • yy값 : 행복점수, xx값 : 1인당GDP, 가족, 건강, 자유

<오늘 내가 잘한 점>

  • 조별 실습에 즐겁게 임하고 적극적인 의견 제시와 수렴을 위해 노력하였다.
  • 강사님께 궁금한점을 미루지 않고 질의하였다.

<앞으로 개선해야 할 점>

  • 긴 시간 꾸준히 공부하기 위해 체력관리가 필요할 것 같다. 규칙적인 생활패턴을 유지하기 위해 노력해야겠다.

0개의 댓글