시리즈란?: 데이터프레임의 하위 자료형, 1개의 열이 시리즈, 시리즈가 다수 모여 데이터프레임 형성이 외에도 여러 방법들이 있다.Reference1) https://yganalyst.github.io/data_handling/Pd_1/
판다스란?R의 데이터프레임 데이터 타입을 참고하여 만든 것데이터프레임 3요소 - 컬럼, 로우(데이터), 인덱스다양한 데이터 타입 이용 가능 - list, dictionary, series, ndarray 등series들을 하나의 열로 취급한 집합이라 볼 수 있음데이터를
기본적인 연산(평균, 분산, 표준편차, 최댓값, 최솟값, 중앙값 등) 목적으로 사용하면 사실 뭘 쓰든 큰 상관은 없다.\*\*\* groupby() :결과물이 덜 깔끔하게 나옴컬럼이 시리즈 형태라면 시리즈로 반환됨\*\*\* pivot_table() :보기 쉬운 데이터
1 pivot() :2 pivot_table() :Reference1) https://pbj0812.tistory.com/4172) https://data-make.tistory.com/1353) https://j-ungry.tistory.c
astype()은 컬럼 요소의 데이터타입을 변경하는 함수Reference1) https://wikidocs.net/151412
데이터프레임을 그룹별/범주별로 묶을 수 있다.한 눈에 볼 수 없지만, 손쉽게 묶어낼 수 있고 빠른 데이터 처리가 가능하다.
Pandas 공식 문서https://pandas.pydata.org/docs/index.html빠르고 유연한 데이터 구조를 제공하는 Python 라이브러리 패키지로,Pandas는 관계형 또는 레이블이 된 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었다.강
데이터프레임이나 시리즈에 적용하여 행의 위치를 일정 칸수씩 이동시킨다.Reference1) https://cosmosproject.tistory.com/390
전체 데이터에 대한 평균, 최소/최대값 등을 알고 싶은 게 아니라window 창이 이동하듯 x축의 창을 이동하면서 y값의 각 계산값을 알고싶을 때.for문을 여러 번 사용하는 대신 pandas의 rolling()을 사용하면 편하고 한다.mean(평균), min(최소값)
cut() : 균등한 길이의 그룹, 데이터의 분산에 따라 각각의 그룹마다 데이터 수가 다르게 나뉜다.qcut() : 같은 크기의 그룹, 표본 변위치를 기반으로 데이터를 나누어 적당히 같은 크기의 그룹으로 나눌 수 있다.\> 레퍼런스5 참고하면 좋을 것 같다. 쫌 헷갈리
\> 시리즈에 적용하는 것도 비슷하다. 레퍼런스나 다른 포스팅 검색해서 참고.Reference1) https://3months.tistory.com/283
비슷한 듯 다른 문법이 너무 많다. 데이터프레임 병합하는 panda 함수들...1 concat() : 데이터프레임을 물리적으로 연결시켜 준다.인자값(파라미터)으로 리스트.아무 옵션 없이 합치면 각 데이터프레임의 인덱스를 그대로 사용하고 빈 부분은 NaN시리즈 데이터와
1) Series(1차원), DataFrame(2차원) 타입의 객체에서 사용 가능2) 행/열, 전체 셀에 원하는 연산 지원3) numpy의 sqrt과 같이 단일 연산인 경우 전체에 적용4) numpy의 min, max, average와 같이 집계되는 경우 사라질 축 지
loc이랑 iloc 헷갈린다. 반대로 기억하기도 하고. 나의 뇌 용량이 적은 것인가.늘 느끼는 거지만 공부하고 정리해서 공유해주시는 분들께 정말 감사하다.1 loc (=location)데이터 프레임의 행이나 컬럼에 label이나 boolean array로 접근인간이 읽
옵션의 의미를 자꾸 잊어버리고 헷갈린다.자주 쓰는 건 정해져 있겠지만, 공부하는 지금의 나에겐 inplace 옵션!중요하지 않을 수 도 있지만 중요할 수도 있기에...1) rename(), drop() 등의 메서드 사용 시 변경될 데이터 프레임을 저장할 때 사용2) d
1 set_index() : 특정 열을 행 인덱스로 설정, 데이터 프레임을 불러온 후 특정 열을 인덱스로 설정멀티 인덱스는 레이블의 배열 입력drop 옵션 : True(default) - 'col_name' 컬럼을 인덱스로 옮기고 컬럼에서 삭제, False 'col_n
df.isnull() : 각 행/열 별 결측 여부, True(있음)/False(없음)(+) df.col_name.isnull() : 'col_name' 컬럼의 행별 결측 여부, True(있음)/False(없음)(+) dfdf.col_name.isnull() : 'col
df.head() : 데이터 상위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.tail() : 데이터 하위 5개 행 출력, 괄호에 넣은 숫자만큼 행 출력df.shape : 데이터의 (행, 열) 크기 확인df.info() : 전반적인 정보, 데이터 프레임의 행&열
판다스 데이터프레임에서 행/열을 삭제하는 방법에는 이것 말고도 여러가지가 있겠지만,그냥 뭔가 간단하고 예뻐보이는 코드ㅋㅋㅋ(공부하다가 추가하도록 하겠다.)1 drop() 함수 사용'col_name'이라는 열 삭제.행/인덱스 삭제하고 싶으면 axis 매개변수를 0으로 바
데이터프레임의 'data' 열의 데이터가 2017-01-01, 2017-01-02, ... ,2019-12-31 이런 식으로 되어 있는데,2017년도 행만 지우고 싶다거나 2019년도 행만 남기고 싶을 때,정규식을 사용하여 해결하면 된다.1 2017년만 지우고 싶을 때