df.applymap(lambda x : x**2)
# 각각의 원소에 접근하여 제곱한다.원하는 행, 열을 데이터를 삭제할 수 있다.
물론, 해당 index 및 컬럼도 같이 삭제 된다.
df.drop('r1') # 행의 값들을 삭제한다.
# 행의 값을 삭제할때는 기준이 index이기 때문에 주의하자.
df.drop(columns=['c1']) # 컬럼의 값을 삭제한다.
# 컬럼의 이름을 지정해야함.
df.drop('c1', axis=1) # 컬럼의 값을 삭제한다.
# axis의 옵션으로 인해 행과 열이 바뀌니 열의 값을 삭제하는 것으로 바뀐다.
pd.concat([df1, df2], ignore_index=True)
# df1의 컬럼을 기준으로 df2를 행의 값으로 전부 붙인다.
# ignore_index : 합치면서 index의 값이 이상해질때 초기화 해준다.pd.merge(df1, df2, on='id', how='left')
# df1의 컬럼 뒤에 df2를 붙인다.
# 단, 붙이는 기준은 id의 기준으로 붙인다.
# id : 어떤 기준으로 붙일 것인가.
# how : 어떤 방식으로 병합할 것인가결측치가 있는 값들을 삭제한다. (행의 값들을 삭제함)
NaN, Null 값이 포함된 행의 데이터 들을 삭제한다.
df.dropna() # 결측치가 하나라도 존재할시, 행의 값들을 전부 삭제함.
df.dropna(axis = 1)
# 결측치가 하나라도 존재할시, 열의 값과 컬럼들을 삭제함.
결측치의 값을 삭제하는 것이 아닌, 결측치의 값을 정해준다.
df.fillna(0) # 결측치 값들을 0으로 전부 변경한다.
df.fillna({1 : 10})
# 결측치의 값 들 중, 1의 컬럼에 있는 결측치를 10으로 바꾼다.
# 나머지는 바뀌지 않음
df.duplicated()
# 2가지 행의 값이 전부 중복되어야 True를 반환함.df.drop_duplicates()
# 옵션
# keep=''
# 중복 자료에서 어떤것을 남길지를 파악하는 인자특정 값에서 내가 원하는 범위를 측정해서 확인 할 수 있는 함수
메소드의 결과는 Categorical 특수 객체로 반환한다.
ages = [1,3,8,45,1,8,35,4,354,8,38,7,3,54,32,1,38,78,35,4,8,3,43,7]
bins = [0,20,40,60,80,100]
cuts = pd.cut(ages, bins)
# ages의 각 값들의 범위를 bins에 의해 0~20, 20~40, 40~60, 80~100 의 범위 튜플로 변경된다.
# 구간을 주지않고 숫자로 주는 경우 하는 방법이다.
pd.cut(ages, 4)
# 구간을 균등한 길이로 나누는 방법
각 데이터들의 고유한 값들을 불러온다.
중복된 값들은 전부 삭제하고 Serise의 값으로 반환한다.
df['r1'].unique()
# r1의 데이터들을 중복된 데이터를 제외하고 Serise의 데이터 타입으로 반환한다.
df['r1'].nunique()
# r1의 데이터 들을 중복된 데이터를 제외하고, 해당 값들의 갯수를 반환한다.