Excel에서 사용하는 데이터의 종류에는 무엇이 있는지 배웠습니다. 또한 도메인 지식이 무엇인지 배웠고 타이타닉 승객 생존여부를 예측하는 실습을 진행했습니다.
데이터의 종류에 대해서 알아보기
숫자 데이터 (숫자로 이루어져 있는 데이터)
가장 많이 사용하고 있는 데이터 중 하나이다. (예: $1, 50%)
숫자 데이터에만 사용가능한 특수함수, 수식이 존재한다.
문자 데이터 (핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터)
문자와 숫자가 혼합된 경우 숫자 데이터로서는 사용이 불가능하거나 특정 함수는 사용이 불가능하기 때문에 문자 데이터인지 숫자 데이터인지 잘 파악해야한다. (예: 010-1234-5678, 프로그래머스, 123-456) 만약 123-456이 문자 데이터면 그대로 사용하고 숫자 데이터면 123에서 456을 뺀 값을 사용하기 때문에 어느 데이터인지 잘 구별해야한다.
날짜 데이터 (년, 월, 일 등 날짜를 표시하기 위한 데이터)
날짜 + 숫자는 숫자만큼 날이 지난 것이다. (2023-11-28 + 3 = 2023-12-01)
기타
논리 데이터, 시간 데이터, 수식 데이터
실습 소개
타이타닉 문제 소개
타이타닉 승객의 간의 데이터를 살펴보고 승객의 생존여부 예측
간의 데이터 종류
순번, 승객명, 성별, 나이, 탑승석 등급
10명의 승객에 대한 정보 확인
사망 - 0
생존 - 1
도메인 지식이란?
도메인 지식이란 특정한 전문화된 학습/분야 지식 (예: 의사 - 의학적 지식, 과학자 - 과학적 지식)
데이터 분석가에게 도메인 지식이란?
데이터 분석가에게 필요한 스킬셋
- 프로그래밍 지식
- 도메인 지식
- 수학&통계학 지식
프로그래밍 지식 + 수학&통계학 지식 = 머신러닝
수학&통계학 지식 + 도메인 지식 = 전통적 통계분석
프로그래밍 지식 + 도메인 지식 = 수학&통계학 지식을 배제했기 때문에 전문적인 부분에서는 위험할 수 있다.
프로그래밍 지식 + 도메인 지식 + 수학&통계학 지식 = 데이터 분석가
데이터 과학자의 스킬
- 프로그래밍
- 컴퓨터 과학 지식(CS)
- 프로그래밍 언어
- 데이터베이스
- 각종 프레임워크
- AWS, Firebase
- 도메인 지식
- 비즈니스 이해/지식
- 전략적 사고/기획력
- 문제 해결능력
- 전문화 된 특정 분야 지식
- 수학 통계학 지식
- Machine Learning
- Statistical modeling
- 각종 수학 지식
- 선형대수, 미적분
- Optimization
어려운 내용은 없었습니다.