big data를 작업하기 위해서는 불러오는 시간이 매우 길다.
그 과정에서 정보를 파악하지 못한다면 예상치 못한 에러가 나왔을 때 해결하기 어렵다.
-> library 활용 e.g. pandas.read_csv()
❓ 좋은 데이터셋이란 무엇인가?
본인의 목적에 맞는 데이터를 가지고 있는 것. 인사이트를 얻을 수 있도록 컴퓨터가 이해하기 쉬운 형태로 가공
❓ CSV가 어떤 것을 의미하는가?
CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 (출처)
❓ EDA와 Data Preprocessing의 차이는?
EDA: 데이터가 어떻게 구성되어 있는지, 어떠한 분석방법이 적합할지 확인하는 과정 / Data Preprocessing: 분석에 앞서 자료를 예쁘게 정리하고 에러를 미리 방지하는 과정 (참고자료)
데이터가 어떤 것인지 알고 있어야 어떠한 분석이 가능한지 알 수 있다.
대부분의 raw data는 바로 분석하기 어려움(insight 얻기 어려움) -> 미리 탐색하여 "견적"내는 분석이 EDA
uni는 데이터 확인, multi-variate는 데이터를 확인하고, 더 나아가 변수들 간의 관계 파악이 주요 목적
[40,50) : include 40, not include 50 = 40 to 49
각각 함수들 reference 검색 후 써보기!
Garbage In Garbage Out
e.g.문제 해결에 맞지 않는 데이터
df.head() # 불러온 데이터의 상위 5개 표시
df.head # method
출처: https://stackoverflow.com/questions/53999279/whats-the-difference-between-df-head-and-df-head