빅데이터

  • 가치를 추출하고 결과를 분석
  • sensor network + digital transformation + hardware evolution
  • 빅데이터를 통해 IoT, 클라우드, 머신러닝 기술이 상호 협력

머신러닝

  • 데이터라는 디지털 자료를 바탕으로 수행하는 분석 방식
  • 빅 데이터를 분석할 수 있는 강력한 툴
  • 기존 통계학 및 시각화 방법의 한계를 해결
  • 예측, 패턴 파악, 추천 시스템 등
  • 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것
    • 명시적 프로그래밍 : 데이터별로 케이스를 나눠 경우에 따라 행동하게 함
    • 머신 러닝 : 데이터가 들어왔을 때 학습이라는 과정을 통해 직접 배우도록 함
  • 머신러닝 기법
    • 지도학습 : 예측해야 할 결과에 대한 정답 데이터가 있다
      • 회귀분석(Regression)
      • 분류(Classification)
    • 비지도학습 : 예측해야 할 결과에 대한 정답 데이터가 없다
    • 강화학습 : 학습을 수행하기 위한 데이터가 없어도 학습,기계가 스스로 학습할 데이터를 만들어내고 이 데이터를 바탕으로 스스로 학습
      • ex. 알파고 최신 모델 (기존 알파고는 지도학습 모델)
  • 자료의 형태
    • 수치형 자료(Numerical data)
      • 양적 자료(Quantitative data)
      • 수치로 측정이 가능한 자료
      • ex. 키, 몸무게, 시험 점수, 나이 등
    • 범주형 자료(Categorical data)
      • 질적 자료(Qualitative data)
      • 수치로 측정이 불가능한 자료
      • ex. 성별, 지역, 혈액형 등

자료의 요약

범주형 자료의 요약

  • 필요성
    • 다수의 범주가 반복해서 관측
    • 관측값의 크기보다 포함되는 범주에 관심
  • 절차
    1. 각 범주에 속하는 관측값의 개수 측정
    2. 전체에서 차지하는 각 범주의 비율 파악
    3. 효율적으로 범주 간의 차이점 비교 가능
  • 도수분포표(Frequency Table)
    • 범주형 자료에서 범주와 그 범주에 대응하는 도수, 상대도수를 나열해 표로 만든 것
  • 도수(Frequency)
    • value_counts()
    • 각 범주에 속하는 관측값에 개수
    • 범주에 해당하는 대상(인원)
  • 상대도수(Relative Frequency)
    • value_counts(normalize=True)
    • 도수를 자료의 전체 개수로 나눈 비율
    • 도수 / 100
  • 누적 상대도수
    • 첫번째 상대도수부터 그 아래 상대도수를 쭉 더한값
    • 연속되어있는 여러 범주의 상대도수를 알기 위함

수치형 자료의 요약

  • 특징

    • 수치로 구성되어 통계값을 사용한 요약 가능

    • 시각적 자료로는 이론적 근거 제시가 쉽지 않다는 단점 보완

      ⇒ 많은 양의 자료를 의미 있는 수치(통계값)로 요약하여 대략적인 분포상태 파악 가능

  • 평균 (Mean)

    • np.mean()
    • 관측값들을 대표할 수 있는 통계값
    • 수치형 자료의 통계값 중 기초적인 통계 수치로 가장 많이 사용되는 방법
    • 극단적으로 큰 값이나 작은 값의 영향을 많이 받음
    • 모든 관측값의 합을 자료의 개수로 나눈 것 (산술평균)
  • 퍼진 정도의 측도

    • 평균만으로 분포를 파악하기엔 부족

    • 분산

      • variance()

        from statistics import variance
        variance()
      • 자료가 얼마나 흩어졌는지 숫자로 표현

      • 각 관측값이 자료의 평균으로부터 떨어진 정도

      • 분산값이 클수록 그래프가 퍼짐

    • 표준편차

      • stdev()

        from statistics import stdev
        stdev()
      • 분산의 단위 = 관측값의 단위의 제곱

        • 관측값의 단위와 불일치
      • 분산의 양의 제곱근

        • 양의 제곱근을 구해야 관측값의 단위와 일치 시킬 수 있음
profile
python

0개의 댓글