[세션] Python_베이직

yeji·2025년 1월 16일
0

Python

목록 보기
36/36

Colab 사용 시 드라이브 연결

  • vscode, jupyter에는 필요 없음..!

드라이브 마운트

# 드라이브 연결
from google.colab import drive
drive.mount('/content/drive')

# 데이터 경로 지정
base_path = '/content/drive/MyDrive/폴더경로 입력/'

# 데이터 가져오기
df = pd.read_csv(base_path+ '.csv 파일명')

%cd

  • Change Directory(디렉토리 변경)의 약자로 Python의 Jupyter Notebook이나 IPython 환경에서 작업 디렉토리를 변경할 때 사용하는 매직 명령어
  • %pwd는 현재 설정된 디렉토리를 확인할 수 있음
# 경로 지정
%cd '/content/drive/MyDrive/폴더경로 입력/'

# 데이터 가져오기
df = pd.read_csf('.csv 파일명')

# 현재 경로 확인
%pwd

데이터 리스트화

  • 데이터마다 전처리할 내용이 똑같은 경우, 여러개의 데이터를 리스트에 담아서 전처리 함수를 작성해 자동화
# 리스트에 담기
data_list = [df, df2, df3]

# 예시)결측치 함수
# 반복문을 쓸 때는 어딘가에 담을 곳을 생각하고, 마지막엔 항상 새로운 곳에 담는 코드 작성
new_data_list = [] # 담을 곳
for data in data_list:
	data = data.fillna(0) # 결측치에 0 채우기
    print('결측값 수 확인하기', data.isna().sum())
    new_data_list.append(data) # 새로운 곳에 담는 코드

# 예시)컬럼별 value_counts 함수
for c in df.columns:
	print(f'<{c}컬럼에 대한 정보>)
    print('')
	print(df[c].value_counts())
    print('-'*50)  # 구분

display

  • 데이터프레임 틀을 깨지 않으면서 여러개를 출력을 할 때 사용
display(df)

labda

# 예시) Age, Attrition별 dailyrate 카운트
age_att=data.groupby(['Age','Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')

select_dtypes

  • 내가 원하는 type의 컬럼만 선택해서 dateframe을 만들어 주는 것
# 수치형 컬럼만 선택
numeric_data = df.select_dtypes(include=['number'])

shape

  • 보고자 하는 것의 차원을 알 수 있음

values

  • index가 있는 표 형태가 아닌, 내용이 나열된 array형태로 값을 가져 옴
  • 데이터 결합 등에 있어서 혼선을 방지할 수 있음
profile
👋🏻

0개의 댓글