[DevCourse] Day 7 - Excel을 활용한 데이터 분석 실습(2)

한상우·2023년 11월 28일
0

Data Science Devcourse

목록 보기
7/25

특강 : ChatGPT로 나의 업무 보조 AI 만들기

  • ChatGPT를 사용한 업무 보조 AI를 만드는 것은 어디까지나 "보조"임을 인지해야 한다.

  • 업무 보조 AI를 만드는 과정은 다음과 같다.

      1. AI에게 명령할 일의 단계를 나눈다. (자동화라는 것은 일단 일의 각 단계를 알아야한다)
      1. 사용자와 사용자의 문제를 프롬프트 구조 안에 입력한다.
      1. 사용자 문제 해결책을 단계별로 프롬프트 구조 안에 입력합니다.
      1. 사용자 테스트 후 사용자 대화 로그를 기반으로 프롬프트를 개선합니다.
  • 실습으로 진행한 간단한 예시(채팅로그)를 살펴보자. 해당 업무 보조 AI는 DIKW 피라미드를 따라 주어진 데이터에서 가치를 창출해내는 과정을 수행하기 위해 설계하였다.

    • 실습으로 만든 업무 보조 AI의 경우, 강사님의 template를 거의 그래도 사용했기 때문에 봐줄만한 퀄리티로 역할을 수행 가능했다.
    • 하지만 4단계(knowledge에서 유추 가능한 wisdom을 설명한다)에서 AI가 만들어낸 답변에 대한 근거가 부족하다고 판단되었다. 이를 해결하기 위해서 작성한 내용에 대한 근거를 설명해달라고 요청했으나, 충분하지 않았다.
    • 이러한 현상을 방지하기 위해 프롬프트를 지속적으로 개선해야 한다. 예를 들어, 사용자가 근거를 요청한다면, 이에 대한 구체적인 데이터를 사용자에게 알려주는 프롬프트를 추가하는 형식으로 말이다. 또한, 질문을 조금 더 "뾰족하게(디테일하게)" 할 필요가 있다고 조언해 주셨다.
제 답변의 근거는 제공된 데이터와 일반적인 지식을 기반으로 하고 있습니다.
주어진 데이터는 전기차 충전소에 대한 정보를 담고 있으며, 각 충전소의 설치년도, 위치, 충전기 타입, 시설 구분 등의
정보를 포함하고 있습니다. 이러한 데이터를 토대로 사용자의 질문에 응답하고 분석을 수행한 것입니다.

충전기 타입의 근거:

주어진 데이터에서 "충전기 타입"은 "DC차데모+AC3상+DC콤보"로 나와 있습니다.
이는 전기차 충전에 사용되는 다양한 기술들을 포함하는 급속 충전기를 나타냅니다.
각 기술들은 표준이 정해져 있어 해당 충전소에서 다양한 종류의 전기차를 지원한다는 의미입니다.
시설구분에 따른 충전기 타입의 근거:

시설구분은 주차시설, 공영주차장, 관광시설, 상업시설 등으로 다양하게 나뉩니다.
일반적으로 상업시설이나 관광시설에서는 급속 충전기가 많이 사용되며, 주차시설에서는 차량이 오랜 시간 주차되므로
AC 3상 충전기가 많이 사용될 수 있습니다.
이러한 근거를 통해 제 답변은 주어진 데이터와 관련된 정보를 기반으로 하고 있습니다. 
추가적인 분석이나 특정한 관점에서의 근거가 필요하다면 그에 맞게 제공해드릴 수 있습니다.
  • 업무 보조 AI를 잘 만들어 둔다면, 자신의 반복적인 작업을 효율적으로 처리할 수 있을것이다.
  • 당연하지만, 민감한 데이터를 사용하는 경우는 비식별화 및 상급자의 허가를 받고 사용해야 한다.

정규 강의 : 데이터의 종류 (엑셀 기준)

  • 숫자 데이터

    • 숫자(0~9)로 이루어져 있는 데이터
    • 숫자(0~9), +, -, 화폐기호, 소수점, %, 지수 등으로 이루어진 데이터
  • 문자 데이터

    • 핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터
    • 문자와 숫자가 혼합된 데이터
  • 날짜 데이터

    • 년, 월, 일 등 날짜를 표시하기 위한 데이터
    • 하이픈(-)이나 슬레시(/)로 표현 가능
    • 숫자 1은 하루를 의미한다
  • 기타 데이터 : 논리 데이터, 시간 데이터, 수식 데이터

    • 기타 데이터에 대해서는 나중에 자세하게 알아보자
  • 데이터의 종류에 따라 사용 가능한 함수가 달라지는 점에 유의하자

  • 타이타닉 승객 데이터에서 데이터의 종류를 나누어보자
    • 숫자 데이터 : '순번', '나이'
    • 문자 데이터 : '승객명', '성별'
    • 날짜 데이터 : '탑승 날짜'

Domain Knowledge

  • 도메인 지식(Domain Knowledge) : 특정한 분야/학문에 전문화된 지식

  • 타이타닉 실습에서 도메인 지식

    • 1912년 당시 위험상황이 발생하면 여성과 아이를 우선적으로 구출하였음
    • 타이타닉의 객실은 1~3등급으로 나눠져 있었으며, 가난한 이민자들이 주로 3등급 객실에 머물렀음
    • 3등급 객실은 미로와 같이 복잡한 구조로 되어있었으며, 영어가 불가능한 사람들도 다수 있었음

실습 : 타이타닉 문제

  • 간이 데이터와 타이타닉 관련 Domain Knowledge를 사용하여 타이타닉 탑승객의 생존여부를 개인이 예측해보자 (사망 : 0, 생존 : 1)

  • Domain Knowledge를 활용한 가설

    • 여성과 아이의 경우 생존 확률이 높을것이다
    • 3등급 객실의 탑승객의 경우 생존 확률이 낮을 것이다

  • 빈칸 채우기 실습의 결과 총 10명의 승객 중 9명의 승객의 생존여부를 맞추었다

마무리

  • Kaggle에서 제공하는 타이타닉 문제도 해 보려고 했으나, 오늘은 시간이 부족하여 다음 기회에 해 볼 예정이다.
  • GenAI를 활용한 업무 보조 AI를 만드는 방법 중, 단계를 step-by-step으로 나누어 여러가지 경우에 대한 답변을 낼 수 있게 하는 점이 가장 중요하다고 생각한다. 하나의 업무에 대해서 제대로된 프롬프트를 하나 만들어 놓으면 정말 유용하게 잘 쓸 수 있을것이라 생각한다.
profile
개인 공부용 블로그입니다

0개의 댓글

관련 채용 정보