250111 TIL #587 AI Tech #119 Data Wrangler

김춘복·2025년 1월 11일
0

TIL : Today I Learned

목록 보기
589/604

Today I Learned

오늘은 선정한 데이터 셋으로 EDA를 하다가 주피터로는 DF를 vscode상에서 보는게 너무 불편해서 파이참처럼 df를 좀 더 깔끔하게 볼 수 있는 방법이 없을까? 하다가 찾은 확장 프로그램 Data Wrangler를 깔아서 사용해 봤다.


Data Wrangler

  • https://code.visualstudio.com/docs/datascience/data-wrangler

  • 마이크로소프트에서 출시한 코드 중심의 데이터 뷰어이자 정제 도구로 vs code와 jupyter notebook에 통합되어 있는 무료 확장프로그램

  • 사용법
    확장 프로그램 설치 후 데이터프레임을 변수에 할당해 display나 print 하면 아래에 Data Wrangler로 열기가 뜬다. 아니면 직접 csv 형식의 파일을 우클릭 하면 열 수 있는데 이 경우 커널이나 환경을 직접 지정해줘야한다.

  • 우선 기존 vs코드의 df UI보다 훨씬 깔끔하게 보여주는 점에서 마음에 든다.

  • 그리고 열 별로 통계값들을 위에 명시해두기 때문에 EDA를 할 때 파일을 열자마자 한눈에 들어온다.

  • 데이터가 너무 커서 불러오기 힘든 경우는 행을 기준으로 일부 행만 빠르게 가져올 수도 있다.

  • 단순히 보여주는것 뿐만아니라 원핫 인코딩, 반올림, 열 스키마 변경, 정렬, 바꾸기, 결측치 찾기 같은 작업이 가능하고, 변환 시 자동으로 Pandas 코드를 생성해서 노트북으로 내보낼 수 있다.

  • 콘솔창에서는 copilot 기반의 AI로 작업까지 연동되어 있어 사용감이 아주 좋다.

  • 진작 알았으면 기존 대회 할 때 EDA가 아주 편했을텐데.. 역시 불편한 점이 있으면 당연하게 넘어가지 말고 방법을 찾아보는게 좋은 태도인 것 같다.

profile
Backend Dev / Data Engineer

0개의 댓글