[2022 국민대학교 겨울 인공지능 특강] 1주차 3일 학습 내용

하지원·2022년 1월 6일
0

오늘 배운것은 pandas라는 모듈에 관한 것이었다. Numpy와의 차이점은 pandas는 데이터를 table 형태로 정리해서 관리할 때, 즉, 행과 열을 이용하여 저장하고 관리하기 위한 자료구조라고 한다. 여기서 행은 개체, 열은 속성에 속한다.

우선, 1차원 데이터를 다룰 때 Series()라는 것을 이용하는데, 이를 통해 데이터에 label을 달 수 있고, index 또한 지정 가능하다. 출력할 때 데이터가 index와 같이 출력된다. (데이터 타입도 같이 출력된다)
Series는 ndarray와 유사하여 index 기반으로 데이터에 접근할 수 있고, dictionary와도 유사하여 값 추가도 가능하다(변수명.get('추가할 데이터 명')).
또한 name 속성을 통해 Series에 이름 붙이기도 가능하다(s.name = " ").

2차원 데이터도 다룰 수 있다. 각 행과 열에 이름을 붙여 데이터프레임의 데이터를 조회할 때 사용하는 방식이다. 접근할 데이터를 제한하기 위해 다음과 같은 코드를 작성하면 된다.

  • 처음 혹은 마지막 n개의 데이터를 조회하기 위한 .head(n) & .tail(n)
  • 특정 column의 데이터만을 조회하는 dataframe['column name'] 혹은 dataframe.column_name
  • 특정 column의 데이터를 조건을 이용해서 접근하기 위한 dataframe[dataframe['column name']] > number

또한 특정 범위의 데이터를 가져오기 위해 인덱스를 이용하는 방식이 있다.

  • 행렬 명을 이용: dataframe.loc[row, col]
  • 숫자 index 이용: dataframe.iloc[rowidx, colidx]

마지막으로 데이터를 묶어서 출력하기 위한 groupby()가 있다.

  • dataframe[].groupby(by=dataframe[""])
profile
국민대 전자공학부, 서강대학교 석사과정, 크래프톤 정글 2기

0개의 댓글