-Python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는모듈
-단일 프로세스에서는 최대 효율
-코딩 및 응용 가능한 엑셀(누군가는 스테로이드를 맞은 엑셀로 표현)
-python 모듈에 대한 naming 규칙
①import Module : Module을 사용하겠다는 의미
→ Module.function 으로 사용
②import Module as md : Module을 사용할건데, 앞으로 md라는 이름으로 부르겠다는 의미
→ md.function 으로 사용
③from Module import function : Module에 포함된 function이라는 함수만 사용하겠다는 의미
→ function 으로 사용
-pandas에서 엑셀 및 텍스트 파일 읽기 :통상 csv 파일은 띄어쓰기로 구분되므로 read_csv 명령으로 읽기만 해도 되며, 긴 파일명은 끝까지 입력하는 것 보다 오류 방지를 위해 적당한 곳에서 TAB 키를 눌러 자동완성되도록 하는 것이 좋음

-한글 encoding 설정 필수
→ import matplotlib.pyplot as plt
plt.rcParams['axes.unicode_minus'] = False

Pandas에서 column 이름 조회

-column 이름을 바꾸고 싶을 때

-갖고오고 싶은 column만 가져오기

→ 엑셀 설정 + 자료를 읽기 시작할 행(header) 지정 + 읽어올 엑셀의 컬럼 지정(usecols)

→ pandas는 통상 pd로 import하고, 수치해석적 함수가 많은 numpy는 통상 np로 import함

→ pandas의 데이터형을 구성하는 기본은 Series

→ pandas에서 가장 많이 사용하는 데이터형은 DataFrame이며, index와 columns를 지정하면 됨
-df.head() : 괄호안에 숫자를 입력하지 않으면 앞 부분 5개의 데이터 확인
-df.index : DataFrame의 index 확인
-df.columns : DataFrame의 column 확인
-df.values : DataFrame의 value 확인
-df.info() : DataFrame의 기본 정보 확인, 각 column의 크기와 데이터 형태를 확인하는 경우가 많음
-df.describe() : DataFrame의 통계적 기본 정보 확인

-df.sort_values : 데이터 정렬(ascending = False, 내림차순 정렬)

-df["A"] : 특정 column만 읽기(여기서는 A column만 읽기)
-df[n:m] : n부터 m-1까지, 그러나 index나 column의 이름으로 slice하는 경우는 끝까지 포함
-df.loc



-df.iloc : iloc 옵션을 이용해 번호로만 접근 가능




-df
→ df[conditon]과 같이 사용하는 것이 일반적
→ pandas의 버전에 따라 조금씩 허용되는 문법이 다르기 때문에 인터넷에서 확보된 소스코드를 돌릴 때는 pandas의 버전을 확인하는 것이 필요
-df.isin : 특정 요소가 있는지 확인
-del df["column"] : 특정 column 삭제(행을 지우는 명령 → drop)
-df.apply(np.cumsum) : 각 column 누적 합계
-unique() : 여러번 등장하는 데이터 조사, 데이터 양이 많아지면 unique 조사를 통해 데이터 초반 검증 필요
-merge : 데이터 병합
→ key column을 기준으로 병합 : 교집합 데이터만 합침

→ left에서 key를 기준으로 right 병합

→ right에서 key를 기준으로 left 병합

→ 둘 다 손상되지 않도록 key를 기준으로 병합(합집합)

→ key column에서 두 데이터 공통분모만 병합(교집합), how를 입력하지 않았을 때의 결과와 동일

-data_result.corr() : 상관관계
→ 데이터의 관계를 찾을 때, 최소한의 근거가 있어야 데이터를 비교하는 의미가 존재. 상관계수를 조사해서 0.2 이상의 데이터를 비교하는 것은 의미있음 (r < 0.2: 상관관계가 없거나 무시해도 좋은수준/r < 0.4: 약한 상관관계/r > 0.6: 강한 상관관계/r = -1: 음의 상관관계가 강함)

-figure로 열고, show로 닫음

-grid: 그래프의 격자
-title: 그래프 이름
-xlabel: x축 제목
-ylabel: y축 제목

-scatter: 점을 뿌리듯이 그리는 그래프

