[1기] K-Digital Training: 데이터 분석 데브코스 - TIL_Day7

정연우·2023년 11월 28일
0

학습 주제

Excel에서 사용하는 데이터의 종류에는 무엇이 있는지 배웠습니다. 또한 도메인 지식이 무엇인지 배웠고 타이타닉 승객 생존여부를 예측하는 실습을 진행했습니다.


주요 메모 사항 소개

데이터의 종류 및 실습

데이터의 종류에 대해서 알아보기

숫자 데이터 (숫자로 이루어져 있는 데이터)
가장 많이 사용하고 있는 데이터 중 하나이다. (예: $1, 50%)
숫자 데이터에만 사용가능한 특수함수, 수식이 존재한다.

문자 데이터 (핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터)
문자와 숫자가 혼합된 경우 숫자 데이터로서는 사용이 불가능하거나 특정 함수는 사용이 불가능하기 때문에 문자 데이터인지 숫자 데이터인지 잘 파악해야한다. (예: 010-1234-5678, 프로그래머스, 123-456) 만약 123-456이 문자 데이터면 그대로 사용하고 숫자 데이터면 123에서 456을 뺀 값을 사용하기 때문에 어느 데이터인지 잘 구별해야한다.

날짜 데이터 (년, 월, 일 등 날짜를 표시하기 위한 데이터)
날짜 + 숫자는 숫자만큼 날이 지난 것이다. (2023-11-28 + 3 = 2023-12-01)

기타
논리 데이터, 시간 데이터, 수식 데이터


실습 소개

타이타닉 문제 소개
타이타닉 승객의 간의 데이터를 살펴보고 승객의 생존여부 예측


실습 - 타이타닉 승객 생존여부 예측하기

간의 데이터 종류
순번, 승객명, 성별, 나이, 탑승석 등급

10명의 승객에 대한 정보 확인
사망 - 0
생존 - 1


도메인 지식 습득하기

도메인 지식이란?
도메인 지식이란 특정한 전문화된 학습/분야 지식 (예: 의사 - 의학적 지식, 과학자 - 과학적 지식)

데이터 분석가에게 도메인 지식이란?

데이터 분석가에게 필요한 스킬셋

  1. 프로그래밍 지식
  2. 도메인 지식
  3. 수학&통계학 지식

프로그래밍 지식 + 수학&통계학 지식 = 머신러닝
수학&통계학 지식 + 도메인 지식 = 전통적 통계분석
프로그래밍 지식 + 도메인 지식 = 수학&통계학 지식을 배제했기 때문에 전문적인 부분에서는 위험할 수 있다.
프로그래밍 지식 + 도메인 지식 + 수학&통계학 지식 = 데이터 분석가

데이터 과학자의 스킬

  1. 프로그래밍
  • 컴퓨터 과학 지식(CS)
  • 프로그래밍 언어
  • 데이터베이스
  • 각종 프레임워크
  • AWS, Firebase
  1. 도메인 지식
  • 비즈니스 이해/지식
  • 전략적 사고/기획력
  • 문제 해결능력
  • 전문화 된 특정 분야 지식
  1. 수학 통계학 지식
  • Machine Learning
  • Statistical modeling
  • 각종 수학 지식
  • 선형대수, 미적분
  • Optimization

실습 - 도메인 지식을 바탕으로 타이나틱 승객 생존여부 예측하기

  1. 1912년 당시 “Lady First”라는 개념이 존재해서 영성과 아이를 먼저 구출함
  2. 타이타닉 호에는 부자, 일반인, 가난한 이민자 등의 부류가 있었고, 객실은 1, 2, 3 등급이 있음
  3. 가난한 이민자는 주로 3등급에 머물었음
  4. 3등급 객실은 미로처럼 복잡했고 영어를 못하는 사람들도 다수 존재했음

공부하며 어려웠던 내용

어려운 내용은 없었습니다.

0개의 댓글