TIL - Pandas 기초 문법

이한솔(Hansol Lee)·2021년 7월 11일
0

TIL

목록 보기
2/2
post-thumbnail

@inflearn에서 배운 것들 정리 3번째

sample을 사용하면 ()안에 숫자값만큼 랜덤하게 dataframe에서 가져온다.
숫자를 적지 않으면 한 개의 행만 불러온다.
df.sample(3)

df.describe()에서
count 값과 unique 값이 같다면? -> 중복이 없다는 말이다.
그래서 freq는 1이고, top 값은 랜덤하게 보여진다.

df.nunique() : 중복을 제외한 unique 값의 갯수를 본다.

df.col1 : col1이 컬럼 이름이라 했을때, col1에 들어있는 값들이 시리즈 형태로 출력된다.
*주의: 컬럼 이름에 특수문자, 한글 등이 있을 경우, .col1 처럼 불러오기 불가!
어떻게 해결? -> 대괄호 처리한다! -- df['col1']

행을 가져올때 .loc 사용. 아주 많이 쓰인다!

df.loc[2] => dataframe의 2번째 행을 가져옴
이때 타입은 type(df.loc[2]) 은 Series이다.

..
여러 열을 가져올때는 리스트 형태로 가져올 열을 묶어 주어야한다. -> 2차원 행렬은 대괄호 2개가 됨
df[['col1, col2']]
.
여러 행을 가져올때도 마찬가지
df.loc[[0,1,2,]]

1개의 열을 가져오지만 Series가 아닌, Dataframe으로 가져오고 싶을때,
df[['col1]]
대괄호 2개로 표시!
.
행과 열 함께 가져오기
df.loc[2,'col1]

여러개의 행과 하나의 열 가져오기
df.loc[[0,1,2], 'col1]

여러개의 행과 여러개의 열 가져오기
df.loc[[0,1,3], ['col1','col2']]

.

특정 조건에 맞게 가져오기

df[df['Region'] == '서울특별시']
df['Market'] == 'KOSPI

.
위에서 가져온 데이터를 데이터프레임으로 출력
display(df[df['Region] == '서울특별시]) or df[df['Market'] == 'KOSPI]

서울시와 KOSPI 교집합에 들어가는 데이터 출력
seoul = df['Region] == '서울특별시'
kospi = df['Market] == 'KOSPI'
df.loc[(seoul&kospi), ['Name', 'Symbol']]
*Name과 Symbol은 데이터프레임에서 찾고자 하는 열의 이름들
..

profile
데이터사이언티스트를 꿈꾸는 사회초년생

0개의 댓글

관련 채용 정보