
openapi를 활용하여 코딩없이 수행하는 빠르고 쉬운 데이터 EDA툴 DataLine을 소개하고자 합니다.
실제로 사용하다보니 매우 저렴한 비용으로 사용자가 보유하고있는 custom dataset에 대해 별도의 코딩 없이 간단하고 빠르게 데이터 EDA를 수행할 수 있었으며 설치 & 활용방법에 대해 간단히 정리해보았습니다.
개인적으로 느낀 DataLine의 장점은 아래 3가지이다.
💡 DataLine을 Local 환경에 다운로드 받은후 OpenAI API key값을 연결해서 사용하기 때문에 ChatGPT 등을 활용할때보다 원본 데이터 유출의 우려가 없음.
💡 ChatGPT처럼 직관적으로 프롬프트 형태로 질문 후 수행결과를 확인할 수 있으며 비용이 저렴하다.
💡 사용자가 보유하고 있는 Custom Dataset을 이용해서 분석작업을 수행할 수 있으며 시각화 등 복잡한 분석작업도 ChatGPT 대비 우수하게 수행.
DataLine 은 아래 공식 github 페이지의 매뉴얼대로 Windows, Mac, Linux 등에 설치가능하다.
설치가 완료되면 개인 OpenAPI Key값을 아래 파란색 칸에 넣어 DataLine과 연동시켜준다.

여기까지 완료하였으면 DataLine 사용준비 끝!
간단한 분석을 수행하기 위해, kaggle에서 Mobile Device Usage and User Behavior Dataset을 다운로드 받고 아래와 같이 DataLine에 업로드하였다.
CSV, Excel, sas7bdat file, SQLite file 등 여러가지 custom connection을 연결할 수 있다는 것도 큰 장점인 것 같다.

업로드한 데이터셋에 대해 정보사항을 넣어주고 summarize를 수행하였다. 이 데이터셋은 총 11개의 columns로 구성되어있으며 데이터셋 내 컬럼들을 활용하여 시각화를 통해 간단한 EDA를 수행해보고자 한다. 모든 분석 결과는 영어 prompt 형태로 질문하였으며 수행결과를 캡처화면으로 첨부하였다.

해당 데이터셋의 성비 확인
분석결과를 요약하여 설명한 후 시각화 및 해당 SQL 쿼리까지 반환해줌을 확인할 수 있다.

스마트폰 OS의 분포 확인

사용자의 스마트폰 기종 분포 확인

하루 데이터 사용량 분포 확인

스마트폰 내 앱 사용시간 분포 확인

1일 기준 배터리 사용량(mAh/day) 분포 확인

DataLine 툴로 수행가능한지 여부는 좀더 사용해보며 확인해볼 예정이다..!!