Section 1 - Note 01 EDA

‍Juhee Kim·2021년 4월 1일
1

Git

분산 소스 버전 관리 시스템(Distributed VCS)으로서 서버를 분산시켜 구축

분산 버전 관리 시스템이 필요한 이유?

  • 오류 발생 시 복구 가능
  • 변경 사항 추적 가능
  • 프로젝트 진행 중 과거의 어떤 시점으로 되돌릴 수 있음
  • 하나의 프로젝트를 여러 사람과 협업 가능

GitHub

Git을 웹에서 보다 편하게 쓸 수 있도록 만든 도구
Git을 활용해서 짠 코드들을 공유할 수 있는 공간
즉, Git 버전관리 시스템을 공유하여 소스코드를 발전시키고자 하는 웹 호스팅 서비스
github을 통해 스스로의 작업물을 공유하고, 다른 사람의 작업물을 참조하고, 여러 프로젝트를 협업할 수 있음

colab : 로컬 파일로부터 데이터셋 불러오기 (CSV)

로컬로부터 파일을 업로드 할 경우, colab은 구글드라이브를 파일 시스템으로 사용하므로 파일 경로를 직접 사용할 수 없음
대신 작업을 위해서 drive에 파일을 업로드 해야 함

구글 colab파일 업로드 패키지

from google.colab import files
uploaded = files.upload()

EDA (Exploartory Data Analysis)

데이터 분석에 있어서 매우 중요한 초기 분석의 단계를 의미
시각화 같은 도구를 통해서 패턴을 발견하거나, 데이터의 특이성을 확인하거나, 통계와 그래픽 혹은 시각적 표현을 통해서 가설을 검정하는 과정 등을 포함

pandas

파이썬에서 사용하는 데이터분석 라이브러리로, 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구

import pandas as pd
profile
찐문과생의 빅데이터 생존기🐣 열심히 할래용 (ง •_•)ง

0개의 댓글