\

\
1 re module 정규표현식(regular expression)을 사용해 문자열을 처리하는 데 사용하는 파이썬 표준 라이브러리. https://regex101.com/ 참고 사이트 1-1 자주 쓰는 메서드 : 첫 번째로 찾은 패턴 찾기. Match 객체 반환. => world 을 적용하면 매치된 문자열 반환, 하면 시작 위치 끝 위치 반환. ...

\
1 브로드캐스팅 브로드캐스팅: 데이터 집합 간의 연산 수행 시 발생하는 프로세스. 두 개 이상의 데이터 프레임이 서로 호환되지 않을 때. (1) 숫자 시리즈(df) + 스칼라 연산 : 각각의 값에 수행 (2) 같은 크기의 행렬 연산 => 각각의 인덱스를 찾아서 연산 => 각각의 인덱스를 찾아서 연산 ex) 정렬을 다르게 해도 결국 각각 인...

1 Concat : 2개 이상의 pandas 객체(일반적으로 데이터프레임)을 연결(concatenate). 행 또는 열 방향으로 결합 가능. axis=0이 행 방향으로 연결(default), axis=1이 열 방향으로 연결. 전달받은 걸 따로 맞추는 작업 없이 그냥 순서대로 연결. ex1) 예를 들면, df1, 2, 3이 각각 0~3까지 index가 있고...
1 결측값(누락값) 1-1 numpy 수학, 과학 연산 위한 라이브러리 1-2 결측값 개념 NaN(Not a Number), NAN, nan 모두 결측값으로 읽는다. 결측값은 0, ''와 다른 개념. 데이터 자체가 없다는 의미. 따라서 '같다'는 개념도 없다. 비교할 값 자체가 없으므로, 비교를 하면 모두 False. 결측값이 하나라도 있는 값과의 연...

1 Matplotlib 파이썬 시각화 라이브러리. 하위 패키지 pyplot을 불러오면 다양한 시각화 기능 사용 가능. 개념 이산변수(discrete) 연속변수(continuous) matplotlib 칼라 코드표 https://matplotlib.org/stable/users/explain/colors/colormaps.html https://ma...

1 Seaborn matplotlib은 파이썬 핵심 시각화 도구. seaborn은 matplotlib 기반을 둔 통계 그래프 특화 라이브러리. 판다스, 넘파이 같이 데이터 분석에 자주 쓰는 라이브러리와 호환되어 쉽게 데이터 시각화. https://seaborn.pydata.org/examples/index.html : seaborn에서 제공하는 이미 만들어...

1 깔끔한 데이터란 1 행은 관측값을 나타내야 한다 2 열은 변수를 나타내야 한다 3 관측 단위별로 데이터표를 구성해야 한다 2 melt 메서드 : 데이터프레임 재구조화하는 함수. 가로로 긴 데이터를 세로로 긴 데이터로 변환한다. 매개변수 : 유지할 열 이름. 재구조화해도 이건 열로 그대로 남아있다. 여러 개면 리스트로 전달. : 긴 형식으로 ...

1 apply() 메서드 판다스 데이터프레임, 시리즈의 각 요소에 함수를 적용하는 메서드. 내장 함수, 사용자 정의 함수, lambda 함수 등을 적용 가능. Pandas 없이 그냥 하려면, 배열을 일일히 loop를 돌려가면서 계산값을 구해야하는데, 한 번에 처리 가능(내부 동작이 어떻게 되는지는 더 찾아봐야할 것 같다). 이렇게 df와 함수 2가지가 있...
자료형 확인 : 열별 자료형 나온다 자료형 바꾸기 : 문자열로 이 열의 자료형을 변환한다. 특정 자료형으로 바꾸기 : 시리즈의 요소를 숫자형으로 변환. 그러므로 그 시리즈의 데이터 타입도 바뀐다. 여기서 매개변수 errors를 이용. errors = 'raise': 변환할 수 없는 값이 있으면 오류 발생. default. coerc...