Colab 사용 시 드라이브 연결
- vscode, jupyter에는 필요 없음..!
드라이브 마운트
# 드라이브 연결
from google.colab import drive
drive.mount('/content/drive')
# 데이터 경로 지정
base_path = '/content/drive/MyDrive/폴더경로 입력/'
# 데이터 가져오기
df = pd.read_csv(base_path+ '.csv 파일명')
%cd
- Change Directory(디렉토리 변경)의 약자로 Python의 Jupyter Notebook이나 IPython 환경에서 작업 디렉토리를 변경할 때 사용하는 매직 명령어
- %pwd는 현재 설정된 디렉토리를 확인할 수 있음
# 경로 지정
%cd '/content/drive/MyDrive/폴더경로 입력/'
# 데이터 가져오기
df = pd.read_csf('.csv 파일명')
# 현재 경로 확인
%pwd
데이터 리스트화
- 데이터마다 전처리할 내용이 똑같은 경우, 여러개의 데이터를 리스트에 담아서 전처리 함수를 작성해 자동화
# 리스트에 담기
data_list = [df, df2, df3]
# 예시)결측치 함수
# 반복문을 쓸 때는 어딘가에 담을 곳을 생각하고, 마지막엔 항상 새로운 곳에 담는 코드 작성
new_data_list = [] # 담을 곳
for data in data_list:
data = data.fillna(0) # 결측치에 0 채우기
print('결측값 수 확인하기', data.isna().sum())
new_data_list.append(data) # 새로운 곳에 담는 코드
# 예시)컬럼별 value_counts 함수
for c in df.columns:
print(f'<{c}컬럼에 대한 정보>)
print('')
print(df[c].value_counts())
print('-'*50) # 구분
display
- 데이터프레임 틀을 깨지 않으면서 여러개를 출력을 할 때 사용
display(df)
labda
# 예시) Age, Attrition별 dailyrate 카운트
age_att=data.groupby(['Age','Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
select_dtypes
- 내가 원하는 type의 컬럼만 선택해서 dateframe을 만들어 주는 것
# 수치형 컬럼만 선택
numeric_data = df.select_dtypes(include=['number'])
shape
values
- index가 있는 표 형태가 아닌, 내용이 나열된 array형태로 값을 가져 옴
- 데이터 결합 등에 있어서 혼선을 방지할 수 있음