
-> 날짜 데이터는 앞서 dates = pd.date_range('20210101', periods=6) 을 통해서 구했다.
- df.head( ) : 앞의 5개 데이터
- df.tail( ) : 뒤의 5개 데이터
- df.index( ): index 데이터
- df.columns: 컬럼 데이터, 데이터 타입
- df.values: 데이터 내용
- df.info ( ) : 데이터 프레임의 기본 정보 확인
- df.describe ( ) : 데이터 프레임의 기술통계 정보 확인
- df
- df.sort_values(by='B', ascending=False, inplace=True
- B컬럼을 기준으로 내림차순해라
- ascending = True는 오름차순, False는 내림차순
- inplace=True를 해줘야 다음 셀에서도 정렬이 적용된다.
- 한개 컬럼 선택: df['A']
- df.A 도 가능
- 단, 알파벳만 가능하다.
- 두 개 이상 컬럼 선택: df[['A', 'B']]
- 단, 리스트 안에 담아서 실행해야 한다.
- df 먼저 실행
- df['A'] > 0
- A 컬럼에서 0보다 큰 숫자(양수)만 선택
- del
- del df ['E']
- drop
- appl( ) 안에 문자열로 기능을 넣어 실행
- numpy 기능도 이용 가능
- 직접 만든 함수도 apply 안에 적용 가능
- 기존 컬럼이 없으면 추가, 있으면 수정
CCTV_Seoul['최근증가율'] = (CCTV_Seoul['2015년'] + CCTV_Seoul['2014년'] / CCTV_Seoul['2013년도 이전']) CCTV_Seoul.sort_values(by='최근증가율', ascending=False).head()