중요핵심 !
- 정렬
df이름.sort_values('열이름', ascending = True / False)
- 고윳값
df이름['열이름'].value_counts()
- 2개이상 평균값
df이름[['열이름 1' , 열이름 2']].mean()
1. 경로 파일 불러오기
read_csv() 함수를 사용해 다음 경로의 파일을 불러와 'food'이름을 가진 데이터프레임을 만듭니다.
path = 'https://경로이름.csv'
food = pd.read_csv(path)
2. 고윳값과 갯수 확인
value_counts() 메서드로 고윳값과 그 개수를 확인하며, 결괏값은 시리즈 형태가 됩니다.
dropna 옵션을 생략하거나 dropna=True로 지정하면 NaN 값은 대상에서 제외합니다.
value_counts() 메서드를 사용해 lunch, dinner 두 열의 고윳값과 그 개수를 각각 확인합니다.
food['lunch'].value_counts()
food['dinner'].value_counts()
3. 정렬
3-1) 오름차순 정렬
dinner 열을 기준으로 오름차순 정렬해서 상위 10개 행만 조회하세요.
temp.sort_values('min_temp',ascending=True).head(10).reset_index(drop=True)
3-2) 내림차순 정렬
food.sort_values('food', ascending=False)
3-3) 예제: df 인덱스 초기화
dinner 열을 기준으로 내림차순 정렬해서 상위 10개를 dinner_top10 데이터프레임으로 선언하세요.
dinner_top10 데이터프레임 인덱스 초기화하세요.(단, 기존 인덱스 제거)
dinner_top10 데이터프레임을 확인하세요.
dinner_top10 = food.sort_values('dinner',ascending=False).head(10)
dinner_top10 = dinner.reset_index(drop=True)
dinner_top10
3-4) 예제 : 2개이상 정렬
menu = food.sort_values(['lunch','dinner'], ascending = [True, False])
menu = menu.reset_index(drop=True)
menu
4. 최빈값 확인
mode() 메서드를 사용해 lunch 열 최빈값 확인합니다.
tip['lunch'].mode()
5. 데이터프레임 만들기
# 리스트 만들기
stock = [[94500, 92100, 92200, 92300],
[96500, 93200, 95900, 94300],
[93400, 91900, 93400, 92100],
[94200, 92100, 94100, 92400],
[94500, 92500, 94300, 92600]]
dates = ['2024-04-17', '2024-04-24', '2024-07-03',
'2024-08-15', '2024-08-17']
names = ['김도영', '나성범', '최형우', '박찬호']
# 데이터프레임 만들기
df = pd.DataFrame(stock, index=dates, columns=names)
#확인
df.head()
5-0) 행과 열 갯수
df이름.shape
5-1) 전체 열 기준 합
df.sum(axis=0)
5-2) 전체 행 기준 합
df.sum(axis=1)
5-3) 데이터프레임 확인
food.head()
5-4) 전체 열 기준 합
food.sum()
5-5) 열 합계 조회
food['lunch'].sum()
5-6) 열 최댓값 조회
food['lunch'].max()
5-7) 열 평균값 확인
food[['lunch','dinner']].mean()
5-8) 열 중앙값 확인
food[['lunch','dinner']].median()