오늘 배운것은 pandas라는 모듈에 관한 것이었다. Numpy와의 차이점은 pandas는 데이터를 table 형태로 정리해서 관리할 때, 즉, 행과 열을 이용하여 저장하고 관리하기 위한 자료구조라고 한다. 여기서 행은 개체, 열은 속성에 속한다.
우선, 1차원 데이터를 다룰 때 Series()라는 것을 이용하는데, 이를 통해 데이터에 label을 달 수 있고, index 또한 지정 가능하다. 출력할 때 데이터가 index와 같이 출력된다. (데이터 타입도 같이 출력된다)
Series는 ndarray와 유사하여 index 기반으로 데이터에 접근할 수 있고, dictionary와도 유사하여 값 추가도 가능하다(변수명.get('추가할 데이터 명')).
또한 name 속성을 통해 Series에 이름 붙이기도 가능하다(s.name = " ").
2차원 데이터도 다룰 수 있다. 각 행과 열에 이름을 붙여 데이터프레임의 데이터를 조회할 때 사용하는 방식이다. 접근할 데이터를 제한하기 위해 다음과 같은 코드를 작성하면 된다.
또한 특정 범위의 데이터를 가져오기 위해 인덱스를 이용하는 방식이 있다.
마지막으로 데이터를 묶어서 출력하기 위한 groupby()가 있다.