pandas의 get_dummies() 함수는 범주형 변수를 더미(dummy) 변수로 변환해주는 기능을 제공한다.범주형 변수는 여러 범주(카테고리)를 가지는 변수를 의미하며, 더미 변수는 이러한 범주형 변수를 0 또는 1의 값을 가지는 이진 변수로 변환한 것이다.get
loc과 iloc은 모두 Pandas에서 데이터프레임에서 특정 행이나 열을 선택하기 위한 인덱싱 방법이다.loc (Label-based indexing)df.loc2:5, 'column_name'은 인덱스 2부터 5까지의 행과 'column_name' 열을 선택Slic
Pandas에서 데이터프레임의 여러 조건을 결합할 때는 불리언 연산자 & (and)| (or)~ (not)를 사용해야 한다.이 연산자는 각 원소별로 불리언 연산을 수행한다.데이터프레임에 여러 조건을 적용할 때는 &를 사용하여 각 조건을 원소별로 불리언 연산해야 한다.
.groupby() 메서드는 특정 열(또는 열의 조합)을 기준으로 데이터프레임을 그룹화한다..agg() 메서드는 그룹화된 데이터프레임에 대해 다양한 집계 함수를 적용하는 데 사용됩니다. 이 메서드를 사용하면 각 그룹에 대해 원하는 여러 종류의 집계를 수행할 수 있다.예
stack()과 unstack()은 Pandas에서 데이터프레임의 형태를 변경하는 데 사용되는 메서드이다.데이터프레임의 행과 열을 변환하거나 다중 인덱스를 조작하는 데 유용하다.1\. stack()열 인덱스를 행 인덱스로 "스택"하여 데이터프레임의 형태를 변경주로 넓은
.reshape(-1, 1)은 NumPy 배열에서 사용되는 메서드로, 배열의 모양(shape)을 변경하는 데에 활용됩니다. 특히 -1은 해당 차원의 크기를 자동으로 계산하라는 의미이다.주로 1차원 배열을 2차원 배열로 변경할 때 사용되며, 이는 머신러닝에서 입력 데이터
데이터프레임에 기존 변수를 이용해 변수를 만들 때, dictionary를 먼저 생성한 후 map() 메서드를 사용하면 가시성이 좋다.예를 들어, 아래는 Income_Category의 카테고리를 map 함수를 이용하여 다음과 같이 변경하여 newIncome 컬럼에 map
이전 포스팅과 마찬가지로 새로운 변수를 추가할 때, def 를 통해 데이터에 적합한 함수를 먼저 생성한 후, apply 함수를 이용해 mapping할 수 있다.
1\. ffill (Forward Fill):ffill은 "forward fill"의 약자로, 앞 방향(위에서 아래로)으로 누락된 값을 채우는 데 사용이 방법은 이전 행의 값을 사용하여 누락된 값을 채우기 때문에 데이터프레임이 시간적 또는 순서적인 순서를 가지고 있다고
pandas의 .shift() 메서드는 데이터프레임 또는 시리즈의 행을 이동시키는 데 사용된다. 이 메서드를 사용하면 데이터를 한 개 이상의 행만큼 위나 아래로 이동시킬 수 있다.shift() 메서드는 음수 값을 사용하여 역방향으로 이동시킬 수도 있다. 예를 들어, p
lm이라는 데이터프레임에서 'OS' 컬럼 값이 'All'인 경우를 condition으로 설정하고 lm~lm_OS_All로 해당하지 않는 부분만 제외하고 새로운 데이터프레임 생성
번역이 필요한 컬럼에 apply(lambda x: ~) 형태로 각각 번역 가능하며 번역 대상이 카테고리인 경우 아래와 같이 리스트 변환 후 딕셔너리 매핑으로 시간 단축 가능