제로베이스 데이터 취업 스쿨 3주차 스터디노트 5호
수업에서 제시된 method는 다음과 같다.
import pandas as pd
pd.concat()
pd.merge()
pd.join()
뭐가 다른 것이란 말인가?
간단하게 알아보자.
여기서 가장 중요한 것은 Merge이다.
공식문서에서는 다음과 같이 서술하고 있다:
Merge DataFrame or named Series objects with a database-style join.
DB 스타일의 join이다. 그럼 pandas의 join은 뭔데?
join의 공식 문서 내용을 보기 전에, merge / join / concat을 비교한 공식문서가 또 있다.
그 공식문서의 문장을 복붙해왔다.
(복붙이 안되는 옛날 세상에서 사람들은 어떻게 살았을까?)
The related join() method, uses merge internally for the index-on-index (by default) and column(s)-on-index join. If you are joining on index only, you may wish to use DataFrame.join to save yourself some typing.
pd.join도 내부적으로는 pd.merge를 사용하고 있으며, ...머라머라..., 타이핑을 좀 줄이고 싶다면 쓰세요.라고 한다.
결론. 그냥 merge 쓰면 됨. (헷갈리면)
아, concat은 뭐냐고?
merge나 join처럼 두 DataFrame을 화려하게 쓰까묵는게 아니라,
그냥 행이나 열 방향으로 데이터를 이어 붙이는 것이다.
대규모 행 삽입, 혹은 대규모 열 삽입 정도로 생각하면 될 듯.