24.04.05 TIL

예진·2024년 4월 5일
0

TIL

목록 보기
63/68

농땡이 Day,,,
내가 한 건 아니지만, 분석 프로세스에서 핵심적인 기술이자 궁금했던 지점이라 기록해두는 코드.

ChatGPT로 시도하는 간단한 텍스트 분석

이미 NLTK나 RE, Pandas를 통해서 텍스트를 분석하여 라벨링하고, 유사도를 계산해보았다.
우리가 수작업으로 조건 하나하나 손코딩 했던 것을 AI가 대신 해준다면 전처리에 애먹을 필요가 없겠지,,
전처리를 간소화하기 위해 LLM을 사용하려면 AI의 텍스트 분석 성능 검증이 필요하다.

ChatGPT에게 채용 정보(텍스트)를 주고 데이터 직무의 역량을 정량화 해보라고 시켜보자.
토스 채용 사이트에서 긁어온 데이터분석가 채용정보를 주고, DA, DS, DE에 얼마나 가까운지
0~5점까지 척도로 표현해보라고 요구했다.

똑똑하게 잘 해준다.
각 직군별 역량을 정량화하여 기준을 세우고, 점수로 환산하는 코드를 써볼 수도 있다.


ChatGPT API로 로컬에서 데이터 프레임 속 텍스트 분석

ChatGPT가 텍스트 분석에 성능이 좋다는 건 위의 작업을 통해 확인했다.
그렇다면 ChatGPT API를 활용해서 로컬에서 데이터셋을 주고 분석하는 것도 가능할까?
웹에서 단순히 텍스트 input, 결과 output 이 아니라 데이터 프레임을 줘도 전처리 할 수 있어야한다.

노가다 했던 데이터 셋을 ChatGPT API 에게 줘봤다.

system prompt
웹에서 지피티에게 질문하듯 수행할 명령을 적어준다.


반복문을 만들어 새로 생성한 컬럼에 답변을 저장하는 형태로 코드를 짜면 너무 간단하게 전체 데이터에 명령을 적용할 수 있다.


이제부터 생겨나는 수많은 물음표들 ,,,

1. 대시보드 구성

명확한 지표를 설정하여 어떤 차트를 사용자에게 보여줄 것인지 정해야 한다.
“나에게 맞는 채용공고” 외에 수집한 데이터로 통계 분석을 진행하여 채용 트렌드를 파악하거나, 현업 커뮤니티(캐글 데이터, 미디엄, 요즘it 등)에 올라오는 텍스트를 분석하여 “내가 키워야 할 역량” 등을 대시보드에 추가하는 등의 내용을 구상했다.
하지만 포트폴리오 측면에서는 통계적인 부분도 다루고 싶은데, 구체적으로 어떤 내용이 필요한지 잘 모르겠다.

ex.
최근 5년간 기업이 선호하는 지원자 역량 트렌드 (5년간 채용공고 데이터가 필요, 구현 가능성 낮음)
직무별 연봉 추이, 역량별 기업 평점 통계 등 (데이터 속 직무가 다양해야하고, 다양하려면 데이터가 커야 함)

2. 크롤링

다양한 분석을 진행하기 위해서는 더 많은 데이터가 필요하다.
국내 대부분 채용 사이트는 크롤링을 막아두고 있기도 하고, LLM 사용에 용이하도록 ‘Glassdoor’ 등의 해외 채용사이트를 크롤링 해보고 싶다.
현재 사용하고 있는 ‘Data Anlayst dataset’ 역시 캐글에 올라온 Glassdoor 스크래핑 데이터.
크롤링에 관하여 계속 공부를 하고 있지만, 경험이 없어 시도가 쉽지 않은 상황..

3. 자동화

지난 주식 예측 프로젝트를 진행하며 Big Query를 활용하여 주식 정보를 넣으면 데이터 적재, 시계열 예측, 대시보드 업데이트까지 자동화 수행하는 파이프라인을 구축했다.
같은 방식을 이번 프로젝트에도 적용해볼 수 있지 않을까?
보조지표 시트에 애쓰지 말고 팀원이 크롤링 할 때 옆에서 해볼걸 땅치고 후회하는 중.


그럼에도 불구하고 굳이 LLM을 써야하는 이유, LLM을 사용하는 목적이 명확해야한다.
채용공고 전처리는 pandas로 하고 커뮤니티 텍스트 분석을 맡기면 여러모로 수월할 거 같기도 하고,,,
굳이 채용공고 전처리를 LLM을 활용해서 한다면 데이터를 왕창 키우던지(IT직군 전체로 확장시키던지),
Pandas에서도 되는 거 말고 좀더 거창한(?)일을 시키던지 해야 한다.
하지만 비용적인 측면도 무시할 수 없어서 테스트 하기도 전에 탄탄하게 구상해둬야 한다.

다시 한 번 우리가 하고싶은 프로젝트가 뭔지 명확히 해야할 타이밍인 것 같다.
+a 새로운 기술을 하루에도 몇개씩 공부하다보니 내가 지금 뭘해야하는지 자꾸 놓쳐서 머리 터지겟삼~

profile
Data Analysis / 맨 땅에 헤딩

0개의 댓글