numpy+pandas - 4

김찬울·2021년 7월 26일

정리할 것이 많다 이전시간에 배웠던 것도 포함하여 설명할 예정이다.

iloc, loc

반복가능한 객체에서는 인덱스와 슬라이싱을 통한 특정한 요소들을 가져올 수 있다.

이는 시리즈와 데이터프레임에서도 iloc를 통해 사용할 수 있다

그리고 조금 더 유용한 것은
인덱스를 마치 딕셔너리의 key값처럼 이름을 부여할 수 있다는 것을 이용할 수 있다는 것이다.

이는 loc이다. loc는 컬럼명, 인덱스명을 넣어서 구할 수 있고

iloc는 컬럼인덱스, 기존인덱스를 이용해서 특정 값을 뽑을 수 있다.

둘 다 마찬가지로 슬라이싱도 활용할 수 있다.

df = titanic.loc[:, ['age', 'fare']]\

df = titnamic.iloc[:, [1, 3]]

마치 이런식으로 loc와 iloc로 값을 추출할 수 있다.

여러 값을 뽑고 싶을때는 []로 묶는 것을 잊지말자!

이는 요소에 대하여 수학적인 여러 함수들을 통해 자료를 얻어낼 수 있게 하는 함수인데

개수, 평균, 편차, 최소값, 최대값, 중간 등등의 유용하게 이용할 수 있는 옵션을 제공한다.

df.descirbe()

이런 식으로 쓰인다 만약 더 자세한 정보를 보고 싶다면

df.describe(include='all')

include='all'을 옵션에 추가하면 된다.

데이터베이스나 csv를 가져와서 데이터 프레임을 만드는 경우에 자료가 많아서 자료에 대하여 파악하기 힘든 경우가 있는데
이때 유용한게 이 두 함수다.

df.head(n)

df.tail(n)

이런 식으로 쓰이며
n의 디폴트값은 5이다.

해당 함수를 쓰면 데이터프레임에서 각각 [:5]와 [-5:]를 뽑아준다.

해당 함수는 엄청 간단하다.
중복되는 값에대해 해당 값과 해당 값이 몇 번 있는 지 알려준다.

디폴트가 내림차순이다.

코린코린이