시리즈

Pandas with python

1.1. Series

1차원 배열의 형태인덱스(Index)와 값(Value)이 일대일 대응이다.이러한 점에서 딕셔너리(Dictionary) 와 비슷한 구조라고 볼 수 있다. sr2 = pd.Series(list) sr3 = pd.Series(tuple)

2021년 8월 19일

2.2. DataFrame

2차원 배열구조행(Index) 과 열(Columns) 구조로 이루어져있다.2차원 벡터행렬이다.행인덱스(row inedx)와 열 이름(col name) 두가지 주소를 사용한다.ex) 딕셔너리 객체 -> DataFrame 변환실행결과 : pd.DataFrame( 2차원

2021년 8월 19일

3.3. 산술연산

시리즈 + 숫자 시리즈객체에 숫자를 더하면 시리즈의 개별원소에 해당숫자를 더하여 시리즈 객체로 반환한다.시리즈 + 시리즈같은 인덱스를 가진 원소끼리 계산한다.데이터프레임 + 숫자시리즈와 동일하다.데이터프레임 + 데이터프레임같은 행, 같은열의 원소끼리 연산한다.한쪽 원소

2021년 8월 19일

4.4. 외부파일 읽어오기/저장(csv, json, xls, html)

쉼표로 열을 구분하고, 줄바꿈으로 행을 구분판다스 내장함수인 read_csv()함수에 확장자 .csv를 포함하여 경로를 입력하면 csv파일을 읽어와 데이터프레임으로 변환한다.외부파일 읽어오기 : pd.read_csv("경로",옵션)header -> 열 이름으로 사용될

2021년 8월 20일

5.5. DataFrame의 구조

1. 데이터 내용 미리보기 데이터프레임의 양이 방대한경우, 앞부분이나 뒷부분을 df.head(n)나 df.tail(n)을 통해 n줄을 미리 볼 수 있다. (Default = 5) 2. 데이터프레임의 데이터 요약 정보 확인하기 데이터프레임의 크기(행,열) df.sha

2021년 8월 21일

6.6. 그래프

데이터 분석에서 다루는 데이터의 종류는 매우 다양하다. 그래프를 이용하면 데이터의 구조와 패턴을 파악하기 쉽다.Matplotlib은 파이썬 시각화 도구라고 부를 수 있을 정도로 2D평면 그래프에 관한 다양한 포맷과 기능을 제공한다.기본 사용법 \- matplotli

2021년 8월 22일

7.7. 여러가지 그래프

이전 포스트에서 선그래프와 그래프꾸미기(주석,범례,축라벨 등등), axe객체에 대해 알아 보았다. 그래프에는 선그래프 뿐만 아니라 여러가지 그래프들이 있는데 그 그래프에 대해 알아보자.각 열의 데이터를 선그래프로 구현하는데, 선 그래프와 x축 사이의 공간에 색이 입혀진

2021년 8월 23일

8.8. Seaborn 라이브러리 - 고급 그래프 도구

Seaborn 라이브러리는 matplotlib을 확장한 파이썬 시각화 도구의 고급 버전이다.seaborn 라이브러리를 임포트할때는 'sns'라는 약칭을 주로 사용한다.\*\*Seaborn 라이브러리에서 제공하는 'titanic' 데이터셋을 사용한다.Seaborn의 lo

2021년 8월 23일

Folium 라이브러리 Folium 라이브러리는 지도 위에 시각화할 때 유용한 도구이다. 세계 지도를 기본 지원하고 다양한 스타일의 지도 이미지를 제공하고 있다. 1. 지도 만들기 Folium 라이브러리의 Map()함수를 이용하면 간단하게 지도 객체를 만들 수 있다. 지도 객체를 생성하는 Map()함수의 location 옵션에 [위도,경도] 수치를 입력...

2021년 8월 24일

10.10. 데이터 사전처리 - 누락데이터

수집한 데이터를 분석에 적합하도록 사전처리(Preprocessing) 하는 방법을 살펴보자

2021년 8월 25일

11.11. 데이터 사전처리 - 중복데이터

데이터프레임 에서 각 행은 분석 대상이 갖고 있는 모든 속성에 대한 관측값을 뜻한다. 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 동일한 대상이 중복으로 존재하는 것이므로 분석 결과를 왜곡하기 때문에 중복 데이터를 찾아서 삭제해야 한다. 동일한 관측값

2021년 8월 28일

12.12. 데이터 사전처리 - 데이터 표준화

외국 데이터를 가져오는 경우, 국내에서 잘 사용하지 않는 도량형 단위가 많다.ex) 마일, 야드, 온스 등등이를 미터,평 그램으로 변환하는 것이 좋다.

2021년 8월 28일

13.13. 데이터 사전처리 - 범주형(카테고리) 데이터 처리

데이터 분석 알고리즘에 따라서는 연속 데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있다.가격이나 비용, 효율 등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산적인 값으로 나타내어 구간별 차이를 드러내는 것이다이처럼

2021년 8월 28일

14.14. 데이터 사전처리 - 정규화(Normalization)

각 변수에 들어있는 숫자 데이터의 상대적 크기 차이 때문에 머신러닝 분석결과가 달라질 수 있다.ex) A변수는 0~1000 범위를 갖고, B 변수는 0~1 범위를 갖는다고 할때, 이 경우 상대적으로 큰 숫자 값으 갖는 A변수의 영향이 더 커진다.따라서, 숫자데이터의 상

2021년 8월 28일

15.15. 데이터 사전처리 - 시계열 데이터(time series)

1-1. 문자열을 Timestamp로 변환1-2. Timestamp를 Peroid로 변환

2021년 8월 28일

16.16. 데이터프레임 응용 -함수 매핑(mapping)

헷갈려

2021년 9월 3일

17.17. 데이터프레임 응용 - 열 재구성

데이터프레임의 열 순서 변경 : DataFrame 객체재구성한 열 이름의 리스트sorted() 함수에 columns 변수를 입력하면 열 이름이 알파벳 순으로 정렬된다.list.sort()은 list을 그 자리에서 정렬하고 목록 인덱스를 변경하고 None을 반환한다.

2021년 9월 4일

18.18. 데이터프레임 응용 - 필터링

시리즈 or 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출하는 개념시리즈 객체에 어떤 조건식 적용\-> 각 원소에 대해 참/거짓 판별하여 불린값으로 구성된 시리즈를 반환데이터프레임의 불린 인덱싱 : DataFrame 객체불린 시리즈ex) 6.

2021년 9월 19일

19.19. 데이터프레임 응용 - 데이터프레임 합치기

대표적으로 concat(), merge(), join() 등 여러 메소드가 있다.concat() 함수에 데이터프레임을 원소로 갖는 리스트를 전달하면 여러 개의 데이터 프레임을 서로 연결한다.pd.concat() 에 ignore_index=True 옵션을 사용하면 기존의

2021년 9월 19일

20.20. 데이터프레임의 응용 - 그룹 연산

복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나눠서 관찰하는 것도 좋은 방법이다.이처럼 특정 기준을 적용하여 몇 개의 그룹으로 분할하여 처리하는것을 그룹 연산이라고한다.

2021년 9월 28일

21.21. 데이터프레임의 응용 - 그룹 연산 메소드(적용 - 결합)

집계 기능을 내장하고 있는 판다스 기본 함수에는 import pandas as pdimport seaborn as snstitanic = sns.load_dataset('titanic')df = titanic.loc\[:,'age','sex','class','fare'

2021년 9월 28일

22.22. 데이터프레임의 응용 - 멀티 인덱스

ex)데이터프레임 gdf의 멀티인덱스에서 두 개의 인덱스를 사용하는 방법: loc 인덱서를 사용하고 인자는 투플 형태로 작성한다.이번에는 loc 인덱서 대신 xs 인덱서를 사용한다. 'sex' 인덱스에서 'male'값을 갖는 행을 추출한다. 남성 승객에 한정하여 객실

2021년 10월 6일

23.23. 데이터프레임의 응용 - 피벗

피벗테이블을 구성하는 4가지 요소(행 인덱스, 열 인덱스, 데이터 값, 데이터 집계 함수)에 적용할 데이터프레임의 열을 각각 지정하여 함수의 인자로 전달한다.🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽집계함수를 여러개 사용

2021년 10월 6일

Pandas with python

1.1. Series

2.2. DataFrame

3.3. 산술연산

4.4. 외부파일 읽어오기/저장(csv, json, xls, html)

5.5. DataFrame의 구조

6.6. 그래프

7.7. 여러가지 그래프

8.8. Seaborn 라이브러리 - 고급 그래프 도구

9.9. Folium 라이브러리 - 지도 활용

10.10. 데이터 사전처리 - 누락데이터

11.11. 데이터 사전처리 - 중복데이터

12.12. 데이터 사전처리 - 데이터 표준화

13.13. 데이터 사전처리 - 범주형(카테고리) 데이터 처리

14.14. 데이터 사전처리 - 정규화(Normalization)

15.15. 데이터 사전처리 - 시계열 데이터(time series)

16.16. 데이터프레임 응용 -함수 매핑(mapping)

17.17. 데이터프레임 응용 - 열 재구성

18.18. 데이터프레임 응용 - 필터링

19.19. 데이터프레임 응용 - 데이터프레임 합치기

20.20. 데이터프레임의 응용 - 그룹 연산

21.21. 데이터프레임의 응용 - 그룹 연산 메소드(적용 - 결합)

22.22. 데이터프레임의 응용 - 멀티 인덱스

23.23. 데이터프레임의 응용 - 피벗