# dataframe

50개의 포스트

[스터디] 스파크 완벽 가이드 7일차

집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 6일차

스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다.

2022년 1월 13일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 5일차

DataFrame은 Row타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. DataFrame의 스키마는 각 컬럼명과 데이터 타입을 정의하고, 파티셔닝은 DataFrame이나 Datset이 클러스터에서 물리적으로 배치되는 형태를 정의한다

2022년 1월 12일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 4일차

구조적 API에는 3가지 분산 컬렉션이 존재한다.DataSetDataFrameSQL 테이블과 뷰배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다.

2022년 1월 11일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 2일차

데이터를 처리하는 경우에는 단일 컴퓨터로 처리하기에 어려움이 있다. 그러기에 여러 컴퓨터의 자원을 모아서 하나의 컴퓨터처럼 작동하도록 하는 컴퓨터 클러스터를 구성한다. 이것만으로도 충분하지 않아 작업을 조율할 프레임워크가 필요한데 스파크가 이러한 역할을 수행한다.

2022년 1월 7일
·
1개의 댓글
post-thumbnail

Python Pandas

구조화된 데이터가 선행학습이 되어야 한다구조화된 데이터를 키(key)와 값(value)으로만 나타내기에는 너무 제한적이며, 표 형태로 나타내는 것이 시각적으로 편안함을 준다. 구조화된 데이터를 효과적으로 표현하기 위해 pandas라는 파이썬 라이브러리는 Series와

2022년 1월 6일
·
0개의 댓글
post-thumbnail

DataFrame-iloc를 활용하여 Column Drop

데이터의 컬럼의 범위를 지정하여 drop 할 경우 iloc를 활용한다.아래와 같이 iloc\[:, 이후에 원하는 drop 하고자 하는 컬럼의 범위를

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-str.slice

데이터 column값을 받았을 시 다음과 같이 숫자열 값이 str 형식으로 되어 있는경우가 있다.이와 같은 경우 column '출석율'의 분자 값과 분모 값을 가져와 숫자형으로 변환 후 값을 나누어 주어야 한다.이 때 str.slice를 활용하여 분모와 분자 값을 가져

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-isnull을 활용한 결측치 출력

위의 데이터의 경우 '출석율' 이라는 컬럼에 결측치가 존재한다.만약 '출석율'이 결측치에 해당하는 데이터를 보고 싶은 경우 isnull을 활용하여 아래와 같이 출력 할 수 있다.

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-한글파일 안깨지게 저장

csv 파일 작업 후 colab 환경에서 저장시 한글 파일의 경우 깨지는 현상이 생긴다.encoding='utf-8-sig' 을 통하여 한글 파일을 저장한다.

2022년 1월 3일
·
0개의 댓글

DataFrame Loop 종류

Pandas에서 반복문을 실행해야하는 경우, 속도 최적화 방법 소개

2021년 12월 27일
·
0개의 댓글

Pandas 행(row) 삭제 in python : df.drop()

https://ybworld.tistory.com/51

2021년 12월 2일
·
0개의 댓글

Pandas 데이터프레임 컬럼 삭제,제거 in Python

https://www.delftstack.com/ko/howto/python-pandas/how-to-delete-pandas-dataframe-column/

2021년 12월 2일
·
0개의 댓글

Pandas 데이터프레임 컬럼명 변경 in python

https://mizykk.tistory.com/131 전체변경 선택변경

2021년 12월 2일
·
0개의 댓글

Pandas 데이터프레임 조작 총정리 in python

https://dowtech.tistory.com/16

2021년 12월 2일
·
0개의 댓글

[pyspark] Pandas DataFrame을 Spark DataFrame으로 변환(spark.createDataFrame)

Pandas DataFrame을 Spark DataFrame으로 변환(spark.createDataFrame)

2021년 10월 14일
·
0개의 댓글
post-thumbnail

파이썬 데이터분석 기초 #4 with 스파르타 코딩 클럽

코드 데이터 불러오기참고) 온라인에서 최신코드 가져오기(최신 정보가 계속 업데이트 되므로)필요한 데이터 자르기컬럼명 바꾸기종목 이름으로 원하는 종목 코드 가져오기(이해 안되도 일단 그냥 따라하자)종목 코드로 종목 데이터 가져오기High: 최고가 / Low: 최저가 /

2021년 10월 13일
·
0개의 댓글
post-thumbnail

[Machine Learning] Clustering

cluster : 무리, 송이레이블이 있는 데이터: Supervised Learning레이블이 없는 데이터: Unsupervised Learning데이터 프레임이나 데이터 자료들에서 데이터들은 하나의 Column에 같은 특성(레이블)끼리 모여있다.그렇지 않을 때\_ U

2021년 10월 2일
·
0개의 댓글