[Pandas] DataFrame | 기능_2

원준·2023년 6월 11일

데이터 분석 - Python

목록 보기

11/12

1. applymap()

모든 원소에 원소별로 함수를 적용할 수 있는 함수
apply()는 행, 열의 기준으로 원소들을 접근했다면, applymap()은 각각의 원소에 접근하여 실행한다.
```
df.applymap(lambda x : x**2)
 # 각각의 원소에 접근하여 제곱한다.
```

2. drop()

원하는 행, 열을 데이터를 삭제할 수 있다.

물론, 해당 index 및 컬럼도 같이 삭제 된다.

df.drop('r1') # 행의 값들을 삭제한다.
# 행의 값을 삭제할때는 기준이 index이기 때문에 주의하자.

df.drop(columns=['c1']) # 컬럼의 값을 삭제한다.
# 컬럼의 이름을 지정해야함.

df.drop('c1', axis=1) # 컬럼의 값을 삭제한다.
 # axis의 옵션으로 인해 행과 열이 바뀌니 열의 값을 삭제하는 것으로 바뀐다.

3. concat()

데이터들을 합쳐준다. 컬럼이 같을때 합치는게 좋고 만약 컬럼이 다르다면 NaN, NULL 값이 들어간다.

pd.concat([df1, df2], ignore_index=True)
# df1의 컬럼을 기준으로 df2를 행의 값으로 전부 붙인다.
# ignore_index : 합치면서 index의 값이 이상해질때 초기화 해준다.

4. Merge()

행의 기준으로 컬럼들을 새롭게 붙여서 합치는 함수

join의 형태와 비슷하다.

pd.merge(df1, df2, on='id', how='left')
# df1의 컬럼 뒤에 df2를 붙인다.
# 단, 붙이는 기준은 id의 기준으로 붙인다.
	# id : 어떤 기준으로 붙일 것인가.
	# how : 어떤 방식으로 병합할 것인가

5. Missing data

1) dropna()

결측치가 있는 값들을 삭제한다. (행의 값들을 삭제함)

NaN, Null 값이 포함된 행의 데이터 들을 삭제한다.

df.dropna() # 결측치가 하나라도 존재할시, 행의 값들을 전부 삭제함.

df.dropna(axis = 1)
# 결측치가 하나라도 존재할시, 열의 값과 컬럼들을 삭제함.

2) fillna(값)

결측치의 값을 삭제하는 것이 아닌, 결측치의 값을 정해준다.

df.fillna(0) # 결측치 값들을 0으로 전부 변경한다.

df.fillna({1 : 10})
 # 결측치의 값 들 중, 1의 컬럼에 있는 결측치를 10으로 바꾼다.
 	# 나머지는 바뀌지 않음

6. 중복 제거

1) duplicated()

각 행이 중복인지 알려주는 boolean Series로 반환한다.
각 컬럼 별로 전부 중복된 값들이여야만 True를 반환함.
행의 데이터들을 비교하는 것이다보니, axis 옵션은 사용되지 않는다.
```
df.duplicated()
 # 2가지 행의 값이 전부 중복되어야 True를 반환함.
```

2) drop_duplicates()

적용한 결과가 False인 것들만 모아서 dataFrame으로 반환한다.

아무 옵션도 없을시, 중복된 값들중 앞의 값만 남기고 전부 삭제한다.

df.drop_duplicates()
# 옵션
	# keep=''
  # 중복 자료에서 어떤것을 남길지를 파악하는 인자

7. cut()

특정 값에서 내가 원하는 범위를 측정해서 확인 할 수 있는 함수

메소드의 결과는 Categorical 특수 객체로 반환한다.

ages = [1,3,8,45,1,8,35,4,354,8,38,7,3,54,32,1,38,78,35,4,8,3,43,7]
bins = [0,20,40,60,80,100]
cuts = pd.cut(ages, bins)
# ages의 각 값들의 범위를 bins에 의해 0~20, 20~40, 40~60, 80~100 의 범위 튜플로 변경된다.

# 구간을 주지않고 숫자로 주는 경우 하는 방법이다.
pd.cut(ages, 4)
 # 구간을 균등한 길이로 나누는 방법

8. unique(), nunique()

각 데이터들의 고유한 값들을 불러온다.

중복된 값들은 전부 삭제하고 Serise의 값으로 반환한다.

df['r1'].unique()
# r1의 데이터들을 중복된 데이터를 제외하고 Serise의 데이터 타입으로 반환한다.

df['r1'].nunique()
# r1의 데이터 들을 중복된 데이터를 제외하고, 해당 값들의 갯수를 반환한다.

원준

공부해보자

이전 포스트

[Pandas] DataFrame | apply() 함수 사용 법

다음 포스트