✏️ PANDAS (jupyter)
- 통상 as pd / 수치해석적 함수가 많은 import numpy as np
- pandas는 버전마다 허용되는 문법이 조금씩 다르기 때문에 공식홈페이지에서 확인하기 (ex - 링크 1 / 링크 2)
- 주피터에서 명령어 입력 -> [shift + tap] 을 누르면 입력 방법 알려줌
💡 Series ()
- Pandas Series 공식
- 첫 글자는 대문자로 입력하기!!!
- Index & Value 로 구성
- 1가지 데이터 타입만 가질 수 있음 ex) int+str 함께 x, 출력시 str로 전체 인식
- 데이터형을 구성하는 기본
- coulmn 한줄 한줄
- pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=False)
- dtype : int / float / object(=str) / datetime64[ns] / timedelta64[ns]
- pandas.Series(Index : value)
import pandas as pd
pd.Series()
Series([], dtype: object)
import pandas as pd
pd.Series([1,2,3,4])
0 1
1 2
2 3
3 4
dtype: int64
import pandas as pd
pd.Series([1,2,3,4],dtype = float54)
pd.Series([1,2,3,4],dtype = np.float54)
0 1.0
1 2.0
2 3.0
3 4.0
dtype: float64
💡 date_range ("날짜", periods=기간 )
import pandas as pd
dates = pd.date_range("20130101",periods=6)
dates
DatetimeIndex(['2013-01-01','2013-01-02','2013-01-03','2013-01-04','2013-01-05','2013-01-06'],dtype='datetime64[ns]',freq='D')
💡 DataFrame ()
- Index & Value & colunm 로 구성
- pandas.DataFrame (data,index,columns)
dates = pd.date_range("20210101", periods=6 )
data = np.random.randn(6,4)
df = pd.DataFrame (data,index=dates,columns=['A','B','C','D'])
df
💡 DataFrame 정보 탐색
1_head ( )
df.head ( )
2_tail ( )
df.tail ( )
3_index, values, columns
- index, values, columns라는 변수에 들어간거라 괄호가 필요 없음
![](https://velog.velcdn.com/images/soo_oo/post/7284ad95-0c29-4d46-bfbb-8419b1fb9ff2/image.png)
💡 slice
- [n:m] : 인덱스값 n ~ (m-1)
- 인덱스나 컬럼 이름으로 할 경우, 끝을 포함
![](https://velog.velcdn.com/images/soo_oo/post/47463b6a-f133-4905-943e-46abee1e8c5d/image.png)
- loc
- location의 약자
- 특정 인덱스 행과 컬럼 열 이름으로 로딩
![](https://velog.velcdn.com/images/soo_oo/post/257f024c-76eb-4ae2-ae2e-dce701d8d69d/image.png)
- iloc
- 컴퓨터가 인식하는 인덱스 값으로 선택
![](https://velog.velcdn.com/images/soo_oo/post/9b515661-104d-445a-93d7-97035b17ae6f/image.png)
💡 condition
![](https://velog.velcdn.com/images/soo_oo/post/e1d6ef1a-01c7-41be-833a-feaf8bb3a593/image.png)
💡 컬럼 추가
- 기존 데이터가 없으면 추가, 있으면 수정
![](https://velog.velcdn.com/images/soo_oo/post/3cc7e887-cf67-4d10-a776-c0df87aa223f/image.png)
💡 컬럼 제거
1_del
- del은 원본 저장 따로 필요없이 바로 원본까지 수정됨
![](https://velog.velcdn.com/images/soo_oo/post/3b537172-88da-4478-adb5-27aa7e4513e0/image.png)
2_drop
- 컬럼에 사용시 axis 필요 (인덱스 이름으로 삭제시, 불필요)
![](https://velog.velcdn.com/images/soo_oo/post/8f0c2858-0416-447d-8000-fb9450cf1a04/image.png)
![](https://velog.velcdn.com/images/soo_oo/post/8a972ddf-cef0-4d40-9a8e-b5f00e5d5413/image.png)
💡 apply()
- apply ("sum") : 덧셈
- apply ("mean") : 평균
- apply ("min") : 최솟값
- apply ("max") : 최댓값
![](https://velog.velcdn.com/images/soo_oo/post/e13d7e66-805a-4e00-b969-42e70710885b/image.png)
💡 sort_values()
- (by=" ")을 통해 특정 컬럼/열을 기준으로 데이터 정렬
![](https://velog.velcdn.com/images/soo_oo/post/04bcd6a7-1a57-4784-bb67-3432f1814746/image.png)
- ascending=False : 내림차순으로 정렬
![](https://velog.velcdn.com/images/soo_oo/post/7ac58505-e8b1-41a6-8bcb-f925bcdb72d0/image.png)
- inplace=True : 원본 데이터에 저장
원본 데이터인 df를 호출해도 명령 그대로 적용돼서 출력됨
![](https://velog.velcdn.com/images/soo_oo/post/823cf3c1-d02a-40ba-b115-c44f1e6d8398/image.png)
💡 .isin([ ])
- 특정요소가 있는지 확인
![](https://velog.velcdn.com/images/soo_oo/post/3588ee58-7da6-48e1-a024-c8d6de081208/image.png)
💡 데이터의 정보(속성) 탐색
1_info()
- 데이터의 기본 정보를 탐색할 때 사용
![](https://velog.velcdn.com/images/soo_oo/post/8a231967-86ac-4313-a961-cfbc3fd33bf0/image.png)
2_describe()
- 데이터 프레임의 기술통계 정보 확인
![](https://velog.velcdn.com/images/soo_oo/post/f93931d0-27e2-4384-b56e-a13c62070bb8/image.png)
💡 열(columns) 선택
1_1개의 column 선택
![](https://velog.velcdn.com/images/soo_oo/post/7ac7a59f-c625-41ab-acaf-36d1df94816d/image.png)
#### 2_다수 column 선택 : 리스트 형식
💡 unique()
![](https://velog.velcdn.com/images/soo_oo/post/29039224-a927-419f-b481-317663dcaefa/image.png)
터미널 - [conda activate ds_study] 입력 - [cd 저장 경로] 입력- [jupyter notebook] 입력
VS code에서 파일을 만들 때, 반드시 확장자명도 함께 써야함 , ipynb가 주피터를 불러오는 확장자
차이 확인하기 : 도트(.) 유뮤, 소괄호를 쓰거나 대괄호를 쓰거나