pandas는 기본적으로 Series(시리즈)와 DataFrame(데이터프레임) 이 두 가지가 핵심 자료구조다. >## 1. Series Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조다. 그리고 index(색인)과 value(정보, 값)을 가
축의 라벨을 이용하여 DataFrame의 로우와 컬럼을 선택할 수 있는데, loc는 축의 '이름'을 사용하고 iloc는 축의 정수 색인으로 사용한다.loc-ilocindex, column 으로 색인을 한다.하나의 인덱스와 두개의 컬럼을 축으로 해서 불러오면,슬라이싱으로
read_csv : 데이터 구분자가 쉼표(',')로 된 데이터 파일read_table : 데이터 구분자가 탭('\\t')으로 된 데이터 파일read_excel : 엑셀파일에서 표 형식의 데이터를 불러온다.read_html : HTML 문저 내의 모든 테이블 데이터를 불
데이터를 불러오다 보면 결측치가 늘 생기기 마련이다.None 값은 '없는' 의미가 아니라 '알 수 없는' 의 의미다. 그래서 알 수 없는 값에 산술 연산을 하게 되면 모든 반환 값은 None으로 반환된다. 왜냐하면 모르는 값에 무엇을 더하고 빼든 알 수 없기 때문이다.
upper(): 대문자로 변형lower(): 소문자로 변형대/소문자로 변형은 '뷰'만 보여준다. 원본의 copy가 일어나지 않는다. data에 food가 어떤 종류의 육류인지 확인하기 위해 animal이라는 컬럼을 새로 만들어보자.원본 data에 meat_to_anim
자주 사용하는 문자열 메서드를 살펴보자.문자열의 공백도 하나의 문자다.길이를 보면 공백도 문자열에 포함되어 카운트가 되며, 컴마도 하나의 문자로 포함된다.파이썬과 같이 슬라이싱을 할 때는 마지막의 앞까지 슬라이싱 된다.문자열 안(Series 형식)에 검색하려는 문자가
정규식은 문자열에서 특정한 패턴이 있는 문자열을 추출하기 위해서 사용한다.'re'는 정규 표현식을 사용하기 위한 모듈이다. 're'가 작동하는 것은 패턴의 매칭, 치환, 분리로 크게 나눌 수 있다. 패턴을 '매칭'하여 매칭되는 것을 다른 것으로 '치환'하거나 매칭된 것
merge: 하나 이상의 키를 기준으로 DataFrame의 로우를 합친다.concat: 하나의 축을 기준으로 합친다.combile_first: 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체의 데이터로 합친다.SQL과 같은 관계형 데이터베이스의 join과 비슷
표 형식의 DataFrame 형식의 로우와 컬럼을 재배치 할 수 있도록 해주는 기본 연산에는 stack과 pivot이 있다.임의의 데이터프레임을 생성하고 로우와 컬럼에 이름까지 지정한다.stack은 데이터의 컬럼을 로우로 피벗시키며, unstack은 로우를 컬럼으로 피
pivot_table(피벗테이블)은 하나 이상의 컬럼을 로우나 컬럼에 지정하여 데이터를 정렬할 수 있도록 해준다.pivot_table은 기본적으로 그룹 연산을 하기때문에 결과값은 연산이 가능한 컬럼을 보여준다.먼저 seaborn에서 제공하는 tips로 pivot_tab
분리-적용-결합 그룹 연산은 '분리-적용-결합'이라는 메커니즘을 따른다. 그룹 연산을 할 때 DataFrame은 하나 이상의 키를 기준으로 '분리' 작업을 한다. 분리를 할 때에는 로우나 컬럼으로 분리를 할 수 있다. 그렇게 분리한 데이터 값을 함수를 적용시켜서 새로
데이터 분석을 할 때 시간을 담당하는 시계열 데이터는 특정 순간의 시간(타임스탬프), 1월 혹은 어느 해의 전체 고정된 기간, 타임스탬프로 표시되는 시간들 사이의 간격 등을 다루게 된다. 파이썬 라이브러리 datetime은 시계열을 다룰 수 있도록 해준다.현재의 시간을
시계열을 다룰 때에는 기본적으로 현재 국제표준이며 그리니치 표준시를 계승하는 국제표준시(UTC:Coordinated Universal Time/Universal Time Coordinated)를 선택해서 사용한다.파이썬에서 시간대 정보는 전 세계 시간대 정보를 모아둔
리샘플링은 시계열의 빈도를 변환하는 '과정'을 말한다. '댜운샘플링'은 상위 빈도의 데이터를 하위 빈도로 계산하는 것을 말하며 '업샘플링'은 그 반대 과정이다.resample은 빈도 변환과 관련된 연산을 수행하는데 groupby와 비슷하게 동작하는데 데이터를 빈도로 그
pandas에서 저수 기반의 범주형 데이터를 표현할 수 있는 특수 데이터형을 말한다.Categorical 데이터로 간단히 변경할 수 있는데, 아래는 이제 Numpy 배열이 아닌 pandas.Catogorical의 인스턴스다.Categorical 객체는 codes와 ca