데이터 사이언스 입문
[!Important]+ Goals
- 실무에서 사용하는 데이터나 통계의 개념이라 용어를 이해한 상태
- 비즈니스에 도움이 되는 데이터를 다루는 법을 이해한 상태
- 데이터 분석의 어프로치가 이미지 가능한 상태
[!info]+ Subject
- 일상적으로 데이터 분석 결과를 눈으로 보지만, 그 개념이 애매한 분
- DX 나 데이터사이언스에 대해 기초부터 체계적으로 학습하고 싶으신 분
- 데이터 리터러시를 높이고 싶은 분
[!abstract]+ Curriculum
1. 데이터 사이언스란?
2. 데이터의 기초와 데이터 분석 기초
3. 데이터 분석 실전
4. 데이터 활용의 주의사항
데이터 사이언스란?
Intro
-
데이터 사이언스 : 데이터를 이용해 가치를 만들어내는 과학
- 수학, 통계학, 기계학습, 데이터베이스 등을 이용한다.
-
데이터 사이언티스트에게 필요한 능력 | 실제 프로젝트 구성
- 비즈니스 능력 : 비즈니스 과제를 정리해서 해결 | 마케터 등
- 데이터 사이언스 능력 : 여러 데이터 분석의 수법을 이해하고 이용 | 데이터 사이언티스트
- 데이너 엔지니어링 능력 : 데이터 활용이 가능한 환경을 정비하고, 구현・운용가능 | 데이터 엔지니어
데이터 사이언스가 주목받는 배경
- 빅 데이터를 모으기 쉬워짐 by 디바이스・센서의 보급
- ICT : Information & Communication Tech.
- IoT : Internet of Things
- 데이터가 많으면 많을수록, 정확도가 높은 분석이 가능
AI 와 데이터 사이언스
- 정의: 인간의 지능・지적행동을 모방하는 것
- 범용 AI (강한 AI) : 스스로 여러 문제나 태스크를 처리, 상정 외 문제에 대응 가능
- 아직 실현 불가
- 특화 AI (약한 AI) : 특정 태스크나 영역에 특화, 상정 외 문제에 대응 불가능
- 비즈니스에 폭넓게 사용 : 화상처리, 자연언어처리 등
- 왜 데이터 활용이랑 관련이 있는가
- AI 는 데이터를 사용해서 규칙성이나 관계성을 찾아낸다 (모델)
- AI 는 데이터 사이언스의 수법 중 하나
AI 와 기계학습
- 기계학습: 인간이 인지하지 못한 룰을 찾아낸다
- 교사 학습, 비교사 학습, 강화 학습
- 교사 학습
- 학습 : 데이터의 규칙성을 찾아내 모델화
- 요즘은 노 코드 프로그래밍도 있음
- 추론 : 학습된 모델으로 예측
생활 속의 데이터 사이언스
- 가계부 앱
- 상품 추천
- Personalization : 데이터로 개인에게 맞는 정보 서비스를 제공하는 기술
비즈니스 안에서의 데이터 사이언스
- 예시
- EC 사이트의 쿠폰 배포
- 메이커의 구매행동분석
- 복사기의 메인테넌스
- 효과적인 데이터 활용이 가능한 곳 : 사람의 감이나 경험으로 판단해 온 일들
데이터 기초와 데이터 분석 기초
데이터 종류
형식에 따른 분류
구조에 의한 분류
- 구조화 데이터 : 가공・계산이 쉬움
- 비구조화 데이터 : 분석이 어려움. 최근 증가하고 있음
- 텍스트, 영상・사진, 음성, 센서로그 등
- 반구조화 데이터
- HTML, XML, JSON 등
값에 의한 분류
데이터 보관
- 데이터베이스 : 계층형, 네트워크형, Relational
- Relational 데이터베이스 : 표형식으로 관리, 현재 주류
- 표는 table, 행은 record, 열은 column
- 데이터베이스 매니지먼트 시스템
- Relational database management sys. : 오라클 Database, MS SQL Sever
- SQL 언어 : 데이터 추가, 제거, 갱신
- select, delete
통계 기초
데이터의 함정
- 데이터를 잘못 해석할 위험성이 있음
- 평균의 함정, 그래프 척도 문제
데이터 분석 실전
데이터 활용의 프로세스
- 과제 알아채기 : 분석과제・방향성 설정
- 데이터 수집・구조화 : 어떤 데이터가 필요한가
- 탐색적 데이터 분석 (Exploratory Data Analysis, EDA): 가시화・기본통계량
- 통계분석 : 검정・다변량해석
- 분석결과의 해석・검증 : 결과에서 방책을 고안
STEP1 : 과제 알아채기
- 주의점 : 과제를 데이터부터 시작해버리는 일
- 과제 파악, 데이터 분석의 목적 설정, 분석방침의 명료화
- 비즈니스 / 엔지니어 서로에게 중요
STEP2 : 데이터 수집・구조화
- 데이터 수집
- 독자조사 : 앙케이트, 로그데이터 취득 (IoT 센서, 보관 문제, 데이터가공 필요성), 웹 스크래핑 (노코드로 간단, 사용에 주의)
- 공개정보 : e-Stat, 구글 트랜드
- 데이터 구조화 : 행과 열으로 정형 및 정리
STEP3 : 탐색적 데이터 분석 : 데이터 집계와 가시화
- 단순집계 : 한 변수에 대해 개수나 비율을 집계
- 크로스 집계 : 다 변수에 대해서 집계
- 데이터 이해 = 단순집계 or 크로스 집계 + 가시화
STEP3 : 탐색적 데이터 분석 데이터의 상관
- 확인 방법 : 산포도, 상관계수
- 주의점
- 직선적 관계가 아니면 상관계수로 정량화 불가
- 상관계수가 같아도 산포도의 모습은 다를 수 있다
STEP4 : 통계분석 가설검정
- 가설검정 : 모집단의 특징이나 성질을 분석
- 반대 가설이 불성립 → 증명하고 싶은 가설이 성립
- 대립가설 : 증명하고 싶은 가설
- 귀무가설 : 반대 가설
P 값 | 귀무가설 | 대립가설 |
---|
5% 이하 | 파기 | 채택 |
5% 초과 | 채택 | 파기 |
- 신약 효과측정, 공업제품 품질관리
- 가설검정의 각 수법
- 2 표본 t 검정 : 두 모집단을 비교
- 남성과 여성의 만족도의 평균값의 차 등
- 독립성 검정 : 크로스 집계표를 이용
- 성별과 개인 또는 그룹으로 여행을 왔는가 등
- 이 외에도 다수 존재
STEP4 : 통계분석 다변량해석 1
- 다변량해석 : 여러 개의 데이터의 관련성을 분석해서 요약・예측하는 방법
- 목적과 데이터에 적합한 분석수법을 선택
- 회귀분석 : 설명변수, 목적변수. 데이터 간의 관련성을 명확하게 하거나, 예측을 행함
- 회귀직선
- 단회귀분석, 중회귀분석
STEP4 : 통계분석 다변량해석 2
-
주성분분석 : 차원 축소에 사용. 변환 후 변수의 의미는 사람이 정함.
- 장점 : 데이터 가시화, 데이터량 삭감
- 주의점 : 차원축소 전후로, 데이터가 다를 가능성
- 누적기여율 : 원 데이터를 표현할 수 있는가를 정량적으로 확인. 대략 70-80%
-
클러스터링 : 데이터의 유사성으로 그룹 나누기
- 계층적 클러스터링 : 샘플수가 적을 때 유효
- 비계층적 클러스터링 : 데이터가 많을 때 유효
- 결과에 기반해 사람이 판단・해석
STEP5 : 분석결과의 해석
- 레포트 작성 : 목적, 배경, 분석결과, Next action
- 목적 : 목적을 잃지 않고 분석결과를 볼 수 있도록 촉진
- 배경 : 문제해결의 필요성, 현재 상태, 보충지식. 틀린 결론을 방지.
- 분석 결과 : 동기, 수법의 설명, 고찰. 상대에 따라 조정이 필요.
- Next action : 결과에 기반해 무엇을 해야 하는가
데이터 활용의 주의사항
데이터 활용의 주의사항
데이터와 관련된 법률
- 시큐리티 : ISO/IEC 27000
- 기밀성 : 정보가 새지 않도록 관리하고 허가받은 사람만 정보에 접근 가능
- 컴퓨터 그 자체 : 자물쇠로 입실제한, 허가받은 사람만 입실
- 인터넷 : 액세스 권한 제한, 파일 비밀번호, 데이터 암호화
- 완전성 : 정보가 정확 및 최신의 상태를 유지하고 있음
- UI 개선, 오입력검지, 액세스나 조작이력 취득
- 가용성 : 허가받은 사람이 필요할 때 확실하게 정보에 액세스 가능
- 프라이버시 : 개인정보 + 개인이나 가정내의 생활, 비밀에 대해 타인으로부터 간섭 또는 침해를 받지 않을 권리
- 프라이버시 8 원칙 (OECD)
- 수집제한의 원칙 : 동의
- 데이터 내용의 원칙 : 정확・완전・최신
- 목적 명확화의 원칙 : 목적을 명확하게
- 이용제한의 원칙 : 개시・사용, 그 외 활용을 해서는 안 된다.
- 안전보호의 원칙 : 합리적인 시큐리티에 의한 안전조치
- 공개의 원칙 : 방침을 공개
- 개인참가의 원칙 : 내용을 확인, 이의 제기
- 책임의 원칙 : 7 개의 원칙을 엄수
마지막으로
- 데이터 수집, 데이터 보관・처리, 데이터 분석, 전문지식, 통계학 등 각각의 전문가가 팀을 이룸
- 본 강의의 내용은 어떤 분야에서도 필수