특정 컬럼에 중복값 이 있는 행 제거하기

생각하는 마리오네트·2022년 2월 15일
0

판다스

목록 보기
7/13

서론

여러가지 데이터를 개인 혹은 회사의 컨벤션(convention)에 맞게 여러 테이블을 합칠때가 있는데 이때 테이블 간의 연결을 통해 깊이(depth)가 깊어질 때 특정컬럼값의 중복값이 생기게 되는데 목적에 따라 이 중복값을 제외하고 싶을 때가 있다. 그럴때 우리가 잘알고있는 duplicates 메서드를 사용해야한다.

본론

난이도가 쉬운 문법중 하나인 duplicates를 활용하여 해결할 수 있는데, 이때 주의할 점은
1. drop_duplicates()메서드를 사용해야한다 -> drop_duplicated()는 없다, duplicated()메서드와 햇갈리지말자
2. drop_duplicates(keep = '옵션') 옵션안에는 중복되는 값중 어떤것을 지울지에 대한 옵션값을 넣어주면된다. 이때 유의할 점은 위와같이 사용하면 모든컬럼의 내용이 중복일때 해당 행을 삭제하는것이다.
3. 특정 컬럼에 중복값이 있는 행을 제거하기 위해서는 다음과 같이 사용하면 된다. drop_duplicates(subset = ['column'], keep = '옵션')

결론

duplicates 메서드는 판다스 초보자들도 쉽게 알고 넘어가지만 막상 사용하려고 하면 햇갈릴때가 있다... 그래서 정리해봤다.

profile
문제를해결하는도구로서의"데이터"

0개의 댓글