정리할 것이 많다 이전시간에 배웠던 것도 포함하여 설명할 예정이다.
반복가능한 객체에서는 인덱스와 슬라이싱을 통한 특정한 요소들을 가져올 수 있다.
이는 시리즈와 데이터프레임에서도 iloc를 통해 사용할 수 있다
그리고 조금 더 유용한 것은
인덱스를 마치 딕셔너리의 key값처럼 이름을 부여할 수 있다는 것을 이용할 수 있다는 것이다.
이는 loc이다. loc는 컬럼명, 인덱스명을 넣어서 구할 수 있고
iloc는 컬럼인덱스, 기존인덱스를 이용해서 특정 값을 뽑을 수 있다.
둘 다 마찬가지로 슬라이싱도 활용할 수 있다.
df = titanic.loc[:, ['age', 'fare']]\
df = titnamic.iloc[:, [1, 3]]
마치 이런식으로 loc와 iloc로 값을 추출할 수 있다.
여러 값을 뽑고 싶을때는 []로 묶는 것을 잊지말자!
이는 요소에 대하여 수학적인 여러 함수들을 통해 자료를 얻어낼 수 있게 하는 함수인데
개수, 평균, 편차, 최소값, 최대값, 중간 등등의 유용하게 이용할 수 있는 옵션을 제공한다.
df.descirbe()
이런 식으로 쓰인다 만약 더 자세한 정보를 보고 싶다면
df.describe(include='all')
include='all'을 옵션에 추가하면 된다.
데이터베이스나 csv를 가져와서 데이터 프레임을 만드는 경우에 자료가 많아서 자료에 대하여 파악하기 힘든 경우가 있는데
이때 유용한게 이 두 함수다.
df.head(n)
df.tail(n)
이런 식으로 쓰이며
n의 디폴트값은 5이다.
해당 함수를 쓰면 데이터프레임에서 각각 [:5]와 [-5:]를 뽑아준다.
해당 함수는 엄청 간단하다.
중복되는 값에대해 해당 값과 해당 값이 몇 번 있는 지 알려준다.
디폴트가 내림차순이다.