# parquet

8개의 포스트

대용량 학습 데이터 불러오기 & 전처리 시간 1/3로 줄이기

학습데이터를 구성할때 긍정 샘플(postive sample)과 부정 샘플(negative sample)의 비율을1:1로 구성했었지만, 여러 부정 샘플을 추가시키면 모델의 정확도가 향상되기 때문에여러 부정샘플들을 추가하여 1:6비율로 학습 데이터를 구성했다. 그러다 보니

2023년 5월 23일
·
0개의 댓글
·
post-thumbnail

Parquet 파일이란?

얼마 전 면접을 보고, 용어나 프로그램들의 기본적인 개념에 대해 부족한 부분이 많은 것 같아 차근차근 정리해보려고 한다.그 중에서 이번에는 parquet 파일이란 무엇이며, 어떠한 장점이 있어 사용되고 있는지 정리해본다.하둡 에코시스템에서 많이 사용되는 파일 포맷 중

2023년 2월 6일
·
0개의 댓글
·
post-thumbnail

parquet? / csv, parquet 파일 불러오기 테스트

일단, parquet 가 무엇인가. (발음은 '파-케e' 이런 느낌으로 읽는 것 같다. 끝에 'e이'를 소리내는 듯 마는 듯 하게.)간단하게 위키에 누군가 적어놓은 걸 보면 Apache Parquet is a free and open-source column-orien

2022년 7월 9일
·
0개의 댓글
·
post-thumbnail

Daily reflection - 2

프로젝트 원칙 확인 / 새롭게 배운 개념 등

2022년 5월 13일
·
0개의 댓글
·

Parquet

Apache Parquet

2022년 4월 22일
·
0개의 댓글
·
post-thumbnail

[Kaggle-UMP] #1 Parquet 사용하기

거대한 데이터를 한정된 자원, Kaggle notebook 위에서 처리하기 위해 많은 사람들이 사용하는 parquet에 대한 기본적인 내용과 사용법

2022년 3월 3일
·
0개의 댓글
·
post-thumbnail

[Apache Spark] Parquet (파케이)

컬럼 기반 포맷같은 종류의 데이터가 모여있어 압축률이 더 높고, 일부 컬럼만 읽어 들일 수 있어 처리량을 줄일 수 있다.스파크에서는 parquet 파일을 손쉽게 읽고 쓸 수 있다.데이터를 분석하기 전 json을 읽어 parquet으로 저장해두고 이후에는 parquet에

2021년 11월 30일
·
0개의 댓글
·
post-thumbnail

Parquet에서 Unhandled type for Arrow to Parquet schema conversion: halffloat 이 발생할 때

Parquet를 사용하다가 이런 에러가 나왔을 땐?

2021년 9월 2일
·
0개의 댓글
·