post-thumbnail

두 개의 DataFrame 비교하기

두개의 DataFrame 비교하기

2022년 2월 16일
·
0개의 댓글

HIVE-메모리와 러닝타임 확인

위의 코드를 실행 후 쿼리를 실행하면 메모리와 러닝타임 값을 확인 할 수 있다."PHYSICAL_MEMORY_BYTES:" 값을 통해 용량 확인이 가능하다."Time taken:" 값을 통해 총 쿼리 실행 시간을 확인 할 수 있다.

2022년 2월 14일
·
0개의 댓글

CREATE TABLE PARTITION BY

PARTITION을 테이블 생성시 사용할 경우 특정 컬럼의 특정 값에 대해서만 불러온다.생성하고자 하는 테이블의 용량이 클 경우 PARTITION을 활용하여 용량을 줄일 수 있다.WHERE 절과는 다르게 사용된다.T1 이라는 빈 테이블을 생성한다.이때 밑에 PARTIT

2022년 2월 10일
·
0개의 댓글

SQL UNION (ALL)

python의 concat과 유사하다.합치려는 데이터 들의 컬럼 개수와 data type이 동일해야 한다.합쳐진 데이터 프래임에 중복된 열이 존재할 경우 제거하고 출력한다.UNION ALL 을 명명하게 될 경우 중복값을 제거하지 않고 출력한다.

2022년 2월 9일
·
0개의 댓글

SQL SUBSTR()

SUBSTR의 경우 문자열의 특정 길이만큼을 slice하여 리턴한다.시작은 0이 아닌 1부터길이의 경우 설정하지 않으면 defult로 문자열의 시작점 부터 끝까지 불러온다.SUBSTR("ABCD23456", 4)위의 경우 "D123456" 값을 리턴한다.SUBSTR("

2022년 2월 9일
·
0개의 댓글

SQL NVL() & NVL2()

NVL의 경우 컬럼 값이 NULL일 때 해당 값을 어떻게 마킹할지를 정해준다.NVL(COL_A, 0) AS COL_A_NULL_OCOL_A의 값에 NULL 값이 있을 경우 0으로 NON-NULL에 대해선 그대로 리턴하여 COL_A_NULL_O에 지정한다.NVL2의 경우

2022년 2월 9일
·
0개의 댓글

SQL CONCAT()

CONCAT의 경우 조건에 있는 문자열들을 하나의 문자열로 합쳐준다.CONCAT(CAST(FLOOR(DAYS/365) AS STRING), "년", CAST(MONTH AS STRING), "월", WEEKDAY, '요일')DAYS라는 INT type의 값을 365로

2022년 2월 8일
·
0개의 댓글

SQL CAST()

CAST의 경우 컬럼의 data type의 형식을 변환한다.CAST("10" AS INT) 로 할 경우 문자열인 "10"을 INT형인 10으로 가져온다.CAST(FLOOR(PURH_DAY/30) AS STRING) AS PURH_DAY_BY_30PURH_DAY 컬럼의

2022년 2월 8일
·
0개의 댓글

SQL OVER()

OVER의 경우 특정 조건을 걸 때 사용된다.PARTITION BY의 경우 A 컬럼에 대한 grouping을 진행한다.ORDER BY는 B컬럼에 대한 오름차순 정열을 진행한다.

2022년 2월 8일
·
0개의 댓글

SQL LAG() & LEAD()

LAG(조건) OVER(PARTITION BY A ORDER BY B)LAG는 해당 컬럼의 이전 헹의 값을 리턴한다.조건1의 경우 몇번째 전의 값을 가져올지 지정한다(defult는 1).조건2의 경우 불러올 값이 없을 경우 어떠한 값을 넣을지를 지정한다.LEAD는 해당

2022년 2월 8일
·
0개의 댓글

SQL ROW_NUMBER()

OVER(조건) 형식으로 ROW_NUMBER() 함수의 조건을 지정한다.PARTITION BY 함수를 통해 A 컬럼에 대한 grouping을 진행한다(GROUP BY와 동일하다).ORDER BY 함수를 통해 B 컬럼을 기준으로 정렬하겠다고 지정한다.ROW_NUMBER(

2022년 2월 8일
·
0개의 댓글
post-thumbnail

DataFrame-iloc를 활용하여 Column Drop

데이터의 컬럼의 범위를 지정하여 drop 할 경우 iloc를 활용한다.아래와 같이 iloc\[:, 이후에 원하는 drop 하고자 하는 컬럼의 범위를

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-str.slice

데이터 column값을 받았을 시 다음과 같이 숫자열 값이 str 형식으로 되어 있는경우가 있다.이와 같은 경우 column '출석율'의 분자 값과 분모 값을 가져와 숫자형으로 변환 후 값을 나누어 주어야 한다.이 때 str.slice를 활용하여 분모와 분자 값을 가져

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-isnull을 활용한 결측치 출력

위의 데이터의 경우 '출석율' 이라는 컬럼에 결측치가 존재한다.만약 '출석율'이 결측치에 해당하는 데이터를 보고 싶은 경우 isnull을 활용하여 아래와 같이 출력 할 수 있다.

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-rename

특정 column의 이름 변경 시 rename을 활용하여 변경한다.두개 이상의 컬럼 값 변경

2022년 1월 3일
·
0개의 댓글
post-thumbnail

DataFrame-한글파일 안깨지게 저장

csv 파일 작업 후 colab 환경에서 저장시 한글 파일의 경우 깨지는 현상이 생긴다.encoding='utf-8-sig' 을 통하여 한글 파일을 저장한다.

2022년 1월 3일
·
0개의 댓글
post-thumbnail

SQL NULL값 확인(IS NULL, IS NOT NULL)

NULL 값 확인을 위해 df 테이블에 dark-knight의 이름을 입력하고 전투스타일은 공백으로 넣고 나머지 값들은 넣지 않는다.표 출력표에서 보여주는 것처럼 공백과 NULL 값은 다르다.난이도가 NULL인 캐릭터의 정보를 추출하시오전투스타일이 NULL이 아닌 캐릭

2021년 12월 29일
·
0개의 댓글
post-thumbnail

SQL 문자열(LIKE)

특정 문자열을 포함한 값을 추출해준다.컬럼이름 LIKE "검색할 문자열" 형식으로 사용한다.문자열에는 와일드카드 % 와 \_ 가 존재한다.% : 몇 개 이상의 문자\_ : 1개의 문자% : 0개 이상의 문자\_ : 1개의 문자\_\_ : 2개의 문자\_\_% : 2개

2021년 12월 29일
·
0개의 댓글
post-thumbnail

SQL 논리연산자2(BETWEEN, IN)

BETWEEN 의 경우 AND와 비슷하다(표현이 다를 뿐이다).IN의 경우 OR과 비슷하다.그러나 조건이 세개 이상일 경우 IN이 훨씬 효율적이다.

2021년 12월 29일
·
0개의 댓글
post-thumbnail

SQL 논리연산자(AND, OR, AND NOT)

A AND B: A 와 B 둘다 True 일 경우A OR B: A 와 B 둘 중 하나만 True 이면AND NOT A: A 가 아니면 True두개의 조건을 만족해야 함으로 AND를 사용한다.두개의 조건을 만족해야 함으로 OR를 사용한다.하나의 조건이 False가 나와야

2021년 12월 29일
·
0개의 댓글