데이터 사이언스 입문

Joel Lee·2023년 5월 6일
0

AI & DS

목록 보기
3/14
post-thumbnail

데이터 사이언스 입문

[!Important]+ Goals

  • 실무에서 사용하는 데이터나 통계의 개념이라 용어를 이해한 상태
  • 비즈니스에 도움이 되는 데이터를 다루는 법을 이해한 상태
  • 데이터 분석의 어프로치가 이미지 가능한 상태

[!info]+ Subject

  • 일상적으로 데이터 분석 결과를 눈으로 보지만, 그 개념이 애매한 분
  • DX 나 데이터사이언스에 대해 기초부터 체계적으로 학습하고 싶으신 분
  • 데이터 리터러시를 높이고 싶은 분

[!abstract]+ Curriculum
1. 데이터 사이언스란?
2. 데이터의 기초와 데이터 분석 기초
3. 데이터 분석 실전
4. 데이터 활용의 주의사항


데이터 사이언스란?

Intro

  • 데이터 사이언스 : 데이터를 이용해 가치를 만들어내는 과학
    - 수학, 통계학, 기계학습, 데이터베이스 등을 이용한다.

  • 데이터 사이언티스트에게 필요한 능력 | 실제 프로젝트 구성
    - 비즈니스 능력 : 비즈니스 과제를 정리해서 해결 | 마케터 등
    - 데이터 사이언스 능력 : 여러 데이터 분석의 수법을 이해하고 이용 | 데이터 사이언티스트
    - 데이너 엔지니어링 능력 : 데이터 활용이 가능한 환경을 정비하고, 구현・운용가능 | 데이터 엔지니어

데이터 사이언스가 주목받는 배경

  • 빅 데이터를 모으기 쉬워짐 by 디바이스・센서의 보급
    - ICT : Information & Communication Tech.
    - IoT : Internet of Things
  • 데이터가 많으면 많을수록, 정확도가 높은 분석이 가능

AI 와 데이터 사이언스

  • 정의: 인간의 지능・지적행동을 모방하는 것
    - 범용 AI (강한 AI) : 스스로 여러 문제나 태스크를 처리, 상정 외 문제에 대응 가능
    - 아직 실현 불가
    - 특화 AI (약한 AI) : 특정 태스크나 영역에 특화, 상정 외 문제에 대응 불가능
    - 비즈니스에 폭넓게 사용 : 화상처리, 자연언어처리 등
  • 왜 데이터 활용이랑 관련이 있는가
    - AI 는 데이터를 사용해서 규칙성이나 관계성을 찾아낸다 (모델)
  • AI 는 데이터 사이언스의 수법 중 하나

AI 와 기계학습

  • 기계학습: 인간이 인지하지 못한 룰을 찾아낸다
    - 교사 학습, 비교사 학습, 강화 학습
  • 교사 학습
    - 학습 : 데이터의 규칙성을 찾아내 모델화
    - 요즘은 노 코드 프로그래밍도 있음
    - 추론 : 학습된 모델으로 예측

생활 속의 데이터 사이언스

  • 가계부 앱
  • 상품 추천
    - Personalization : 데이터로 개인에게 맞는 정보 서비스를 제공하는 기술

비즈니스 안에서의 데이터 사이언스

  • 예시
    - EC 사이트의 쿠폰 배포
    - 메이커의 구매행동분석
    - 복사기의 메인테넌스
  • 효과적인 데이터 활용이 가능한 곳 : 사람의 감이나 경험으로 판단해 온 일들

데이터 기초와 데이터 분석 기초

데이터 종류

형식에 따른 분류

  • 디지털, 아날로그

구조에 의한 분류

  • 구조화 데이터 : 가공・계산이 쉬움
  • 비구조화 데이터 : 분석이 어려움. 최근 증가하고 있음
    - 텍스트, 영상・사진, 음성, 센서로그 등
  • 반구조화 데이터
    - HTML, XML, JSON 등

값에 의한 분류

  • 질적 데이터
  • 양적 데이터

데이터 보관

  • 데이터베이스 : 계층형, 네트워크형, Relational
    - Relational 데이터베이스 : 표형식으로 관리, 현재 주류
    - 표는 table, 행은 record, 열은 column
  • 데이터베이스 매니지먼트 시스템
    - Relational database management sys. : 오라클 Database, MS SQL Sever
    - SQL 언어 : 데이터 추가, 제거, 갱신
    - select, delete

통계 기초

데이터의 함정

  • 데이터를 잘못 해석할 위험성이 있음
    - 평균의 함정, 그래프 척도 문제

데이터 분석 실전

데이터 활용의 프로세스

  1. 과제 알아채기 : 분석과제・방향성 설정
    • 분석 목적을 명확하게
  2. 데이터 수집・구조화 : 어떤 데이터가 필요한가
  3. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA): 가시화・기본통계량
    • 상세한 가설 세우기
  4. 통계분석 : 검정・다변량해석
    • 원인을 좀 더 깊이 파악
  5. 분석결과의 해석・검증 : 결과에서 방책을 고안
  • 예시 : 호텔 서비스 개선

STEP1 : 과제 알아채기

  • 주의점 : 과제를 데이터부터 시작해버리는 일
  • 과제 파악, 데이터 분석의 목적 설정, 분석방침의 명료화
    - 비즈니스 / 엔지니어 서로에게 중요

STEP2 : 데이터 수집・구조화

  • 데이터 수집
    - 독자조사 : 앙케이트, 로그데이터 취득 (IoT 센서, 보관 문제, 데이터가공 필요성), 웹 스크래핑 (노코드로 간단, 사용에 주의)
    - 공개정보 : e-Stat, 구글 트랜드
  • 데이터 구조화 : 행과 열으로 정형 및 정리

STEP3 : 탐색적 데이터 분석 : 데이터 집계와 가시화

  • 단순집계 : 한 변수에 대해 개수나 비율을 집계
  • 크로스 집계 : 다 변수에 대해서 집계
  • 데이터 이해 = 단순집계 or 크로스 집계 + 가시화

STEP3 : 탐색적 데이터 분석 데이터의 상관

  • 확인 방법 : 산포도, 상관계수
  • 주의점
    - 직선적 관계가 아니면 상관계수로 정량화 불가
    - 상관계수가 같아도 산포도의 모습은 다를 수 있다

STEP4 : 통계분석 가설검정

  • 가설검정 : 모집단의 특징이나 성질을 분석
  • 반대 가설이 불성립 → 증명하고 싶은 가설이 성립
    - 대립가설 : 증명하고 싶은 가설
    - 귀무가설 : 반대 가설
P 값귀무가설대립가설
5% 이하파기채택
5% 초과채택파기
  • 신약 효과측정, 공업제품 품질관리
  • 가설검정의 각 수법
    - 2 표본 t 검정 : 두 모집단을 비교
    - 남성과 여성의 만족도의 평균값의 차 등
    - 독립성 검정 : 크로스 집계표를 이용
    - 성별과 개인 또는 그룹으로 여행을 왔는가 등
    - 이 외에도 다수 존재

STEP4 : 통계분석 다변량해석 1

  • 다변량해석 : 여러 개의 데이터의 관련성을 분석해서 요약・예측하는 방법
    - 목적과 데이터에 적합한 분석수법을 선택
  • 회귀분석 : 설명변수, 목적변수. 데이터 간의 관련성을 명확하게 하거나, 예측을 행함
    - 회귀직선
    - 단회귀분석, 중회귀분석

STEP4 : 통계분석 다변량해석 2

  • 주성분분석 : 차원 축소에 사용. 변환 후 변수의 의미는 사람이 정함.
    - 장점 : 데이터 가시화, 데이터량 삭감
    - 주의점 : 차원축소 전후로, 데이터가 다를 가능성
    - 누적기여율 : 원 데이터를 표현할 수 있는가를 정량적으로 확인. 대략 70-80%

  • 클러스터링 : 데이터의 유사성으로 그룹 나누기
    - 계층적 클러스터링 : 샘플수가 적을 때 유효
    - 비계층적 클러스터링 : 데이터가 많을 때 유효
    - 결과에 기반해 사람이 판단・해석

STEP5 : 분석결과의 해석

  • 레포트 작성 : 목적, 배경, 분석결과, Next action
    - 목적 : 목적을 잃지 않고 분석결과를 볼 수 있도록 촉진
    - 배경 : 문제해결의 필요성, 현재 상태, 보충지식. 틀린 결론을 방지.
    - 분석 결과 : 동기, 수법의 설명, 고찰. 상대에 따라 조정이 필요.
    - Next action : 결과에 기반해 무엇을 해야 하는가

데이터 활용의 주의사항

데이터 활용의 주의사항

  • 자각하지 못하는 새에 부적절하게 활용해 버림

데이터와 관련된 법률

  • 시큐리티 : ISO/IEC 27000
    - 기밀성 : 정보가 새지 않도록 관리하고 허가받은 사람만 정보에 접근 가능
    - 컴퓨터 그 자체 : 자물쇠로 입실제한, 허가받은 사람만 입실
    - 인터넷 : 액세스 권한 제한, 파일 비밀번호, 데이터 암호화
    - 완전성 : 정보가 정확 및 최신의 상태를 유지하고 있음
    - UI 개선, 오입력검지, 액세스나 조작이력 취득
    - 가용성 : 허가받은 사람이 필요할 때 확실하게 정보에 액세스 가능
  • 프라이버시 : 개인정보 + 개인이나 가정내의 생활, 비밀에 대해 타인으로부터 간섭 또는 침해를 받지 않을 권리
    - 프라이버시 8 원칙 (OECD)
    - 수집제한의 원칙 : 동의
    - 데이터 내용의 원칙 : 정확・완전・최신
    - 목적 명확화의 원칙 : 목적을 명확하게
    - 이용제한의 원칙 : 개시・사용, 그 외 활용을 해서는 안 된다.
    - 안전보호의 원칙 : 합리적인 시큐리티에 의한 안전조치
    - 공개의 원칙 : 방침을 공개
    - 개인참가의 원칙 : 내용을 확인, 이의 제기
    - 책임의 원칙 : 7 개의 원칙을 엄수

마지막으로

  • 데이터 수집, 데이터 보관・처리, 데이터 분석, 전문지식, 통계학 등 각각의 전문가가 팀을 이룸
  • 본 강의의 내용은 어떤 분야에서도 필수
profile
개발자 전직을 향해 나아가고 있는 Technical Sales Engineer

0개의 댓글