day 019 KPMG Future Academy

sottuggung·2024년 12월 17일
0

KPMG-future-academy

목록 보기
19/41

KPMG Future Academy AI 활용 데이터 분석가 3기 19일차 수업을 2024년 12월 12일에 참석했다.

  1. 데이터 개론
    1.1. 데이터 탐색 (EDA, CDA)
    1.2. 데이터 수집

1. 데이터 개론

1.1. 데이터 탐색 (EDA, CDA)

데이터의 종류
수치형 데이터 (정량적 데이터)

  • 연속형 데이터 : 온도, 몸무게
  • 이산형 데이터 : 통화량, 소득수준, 나이

범주형 데이터 (정성적 데이터)

  • 순서형 데이터 : 고객등급, 연령대
  • 명목형 데이터 : 성별, 주소지, 흡연여부

CRISP-DM
데이터마이닝을 위한 산업 간 표준 프로세스 중 하나

EDA (Exploratory Data Analysis)
탐색적 데이터 분석

CDA (Confirmatory Data Analysis)
탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 활용

단계
1. 비즈니스 이해
2. 데이터 이해
3. 데이터 준비
4. 모델링
5. 시험 및 평가
6. 배포

가설 수립
귀무가설 : 기존 연구 결과로 이어져 내려오는 정설
대립가설 : 기존 입장을 넘어서기 위한 새로운 연구 가설

Y를 설명하는 요인을 찾는 것

x -> y
x : 통화량, 소득수준, 가입기간, 성별
y : 이탈 여부

데이터 이해 : 해결하고자 하는 문제와 필요한 데이터의 매칭
데이터 원본 식별 및 취득, 가용 데이터 수집 (하나의 데이터프레임으로)
데이터 탐색 : EDA, CDA
전처리 전략 수립

데이터 준비
데이터 전처리 단계.
모든 셀에 값이 있어야 함.
모든 값은 숫자여야함.
(옵션) 값의 범위를 일치 시켜야 함.
수행 : 결측치 처리, 가변수화, 스케일링, 데이터 분할

예측 모델 : 로지스틱 회귀, 랜덤 포레스트 등

전처리
1. 데이터 구조를 만들기 위한 전처리
2. 모델링을 위한 전처리

EDA & CDA
단변량 분석 : 개별 변수의 분포
예 : 타이타닉 탑승객의 나이 분석

이변량 분석 1 : feature와 target 간의 관계(가설을 확인하는 단계)
예 : 객실등급 -> 생존 여부 (객실 등급에 따라 생존여부에 차이가 있나?)

이변량 분석 2 : feature들 간의 관계

데이터 이용허락 범위 (출처 : https://www.data.go.kr/ugs/selectPortalPolicyView.do)

ChatGPT를 활용한 데이터 분석 실습

  1. 데이터 업로드 및 설명
  2. 데이터 전처리
  3. 탐색적 데이터 분석(EDA)
  4. 분석 과제 설정
  5. 인사이트 도출


파일명 잘 입력하기
명료하게 단계적으로 지시
첫 프롬프트에서는 데이터에 대한 정보를 간략하게 설명
데이터 가공 및 전처리 시 중간중간 결과물 확인을 위한 다운로드 링크 요청
차트 시각화 시, x축, y축 등 구성 요소의 키워드를 정확히 쓰고, 정확히 지시

  • 결과물을 보고 필요 부분 미세 조정
  • 추가적인 수정사항 요청 가능
  • 파이썬 데이터 분석이 지원하는 다양한 시각화 그래프들은 고급 데이터 분석에서 대부분 표현 가능

EDA, 데이터 분석이라는 키워드만 입력해도 알아서 다 해줌
데이터 분석 후에는 보고서 작성, 액션 플랜 아이데이션 등 전문가적 관점에서 조언을 구할 수 있음

matplotib, seaborn 등 라이브러리 활용

지역별 단순 평균 비교: 막대 차트.
시간대/노선별 구성 분석 포함: 스택형 막대 차트.
세밀한 비교 필요: 히트맵 또는 박스 차트.
다차원 분석: 거품 차트.


1. 혼잡도(%) 계산식 확인


2. 평균 혼잡도 분포도 확인
평균혼잡도는 50% 미만이 과반인 것으로 확인됨.


3. 지역별 혼잡도 분포 및 이상치 확인

평균혼잡도 상위 50개역 혼잡도 분포 및 이상치 확인


4. 일반적인 인사이트 도출을 위한 차트 커스텀
중위수 클수록 : 일반적으로 혼잡한 역
수염이 길수록 : 분포범위가 큰 역
색상이 차갑고 진할수록 : 변동폭이 작음
색상이 따뜻하고 연할수록 : 변동폭이 큼


5. 이상치 높은 5개역 시간대별 혼잡도 확인
송파, 석촌, 서초, 방배, 남태령역
송파

석촌

서초

방배

남태령

번외

서초역 변곡도에 따라 차트 라벨을 표시하기 위한 프롬프팅 과정


굉장히 수치, 논리적으로 정확하게 라벨링해주는 것을 확인할 수 있다.


마찬가지로 프롬프팅시에 의도한 군집별 최대 혼잡시점을 피크로 표시하지 않았다.


응~아니야
그래서 역으로 프롬프팅을 하기 위한 힌트를 얻기위해 추론과정을 물어보았다.

약간의 힌트를 얻어서 아래와 같이 프롬프트를 수정하였고 근사치의 결과를 얻었다.

라벨 표시되는 3개의 피크중에 20시 이후의 피크를 반드시 하나 포함해달라고 하였으나 해당 프롬프트가 무시되어 어쩔 수 없이 특정 피크를 지정해서 라벨에 포함시켰다.

성공.

1.2. 데이터 수집

웹 크롤링, 웹 스크래핑
웹 크롤링 : 비유하자면 무슨 과일이 어디에 있는지 조사
웹 스크래핑 : 둘러본 과일 중 내가 좋아하는 과일들만 골라서 정보를 가져오는 일

플레이스토어의 리뷰 : 인스타그램 앱 스크래핑

[번외]
지금까지 기초 인지과학 이론을 토대로한 cognitive model에 대한 여러 학계의 연구결과에 관심을 가져왔다. 어제 여기에서 한 차원 더 나아가 정신 과학 혹은 정신 의학에 대한 관심이 생겼다. 아마 그 중간단계에는 신경과학, 뇌과학 등이 자리하고 있을 것이다. 생체의 감정 정보가 눈 입자의 결정에 영향을 주는 연구결과를 본 적이 있다. 해당 결과를 얼핏 보면 온도 및 파동에 의한 입자 결정 요인이 된 것 같다. 그러나 엄격하게는 감정정보는 파동이 아니라고 한다. 즉, 감정이란 그 자체로 가상이다.

감정에 따른 신체상의 결과 현상이 눈 결정 형성에 영향을 준 것으로 보인다. 그렇다면 정서는 의도대로 구성될 수 있을까? 정서상에 의도된 변화가 일으켜지는 경우, 단순한 화학작용-반작용은 반복적이거나 지속적인 패턴이 되지 않고 일시적일 가능성이 있다. 이와 반대로 감정 및 근본적 정서 개입을 통한 인간 통제란 곧 인간 정신 상 스키마에 대한 예측 바탕의 통제 및 개입을 의미한다.

특히 애착감, 공포심 등에 대한 강력한 생명체의 정신적 매커니즘이 악용될 소지에 대한 의구심이 들었다.

이는 극단적 예시로는 전쟁범죄에서 꾸준히 시도되어 온 것으로 밝혀진 세뇌, 고문 기법의 고차원적인 지능화의 가능성을 내포한다. 확실한 것은 이 과정이 작용하기 위해서는 고도로 복잡한 장기간의 프로그램이 소요될 것이라는 점이다.

정신과학은 아직까지도 상당히 많은 부분이 미지의 영역인 것으로 알려져 있다. 다만 과학기술의 첨단화 과정에서 그것이 인간의 정신적 무결성을 해치는 방향으로 이미 활용되고 있으리라는 짐작이 충분히 가능하다. 그 위험성은 가히 핵무기 이상일 것이다. 불확실성이 크고 파생되는 영향이 대부분 인간 및 환경에 대한 물리적 제어력을 벗어나는 영역이기 때문이다.

현재까지 인간 정신의 외부적 통제에 대해 추론 가능한 부분은 아래와 같다.

  • 과학기술을 토대로 인간의 정신을 지배 및 조작하기 위한 기술에는 고도의 시뮬레이팅 기술이 반드시 사용되었을 것이다.
  • 이를 위해서는 인간의 심리적, 정신적 가능성을 모두 관측가능한 방식으로 정보화, 지능화해야한다.
  • 이 중에서 애착, 공포 등 생존에 절실한 인간의 유전적 특성, 생존 기반의 요소가 주로 인간을 원하는 대로 조작할 때 사용되었을 가능성이 높다.
  • 이 과정에서 하드웨어적 인공생명, 인공지능 컴퓨팅 등의 물리적 방법론, 생체화학적 방법론이 모두 보조적으로 활용되었을 것이다.
  • 인간의 정서기반 행동제어가 만약 반복적이거나 예측가능하거나 지속적이기 위해서는 정서 및 기질을 형성하는 심리, 환경적 시뮬레이팅 뿐만 아니라, 결국 인간의 고정된 또는 고유한 인격을 형성하는 주된 요인 중 유전적 개입이 요구될 것이다.

정신의학 기초 이론
조작적 조건화 (영어: operant conditioning)
행동주의 심리학의 이론으로, 어떤 반응에 대해 선택적으로 보상함으로써 그 반응이 일어날 확률을 증가시키거나 감소시키는 방법을 말한다. 여기서 선택적 보상이란 강화와 벌을 의미한다. 조작적 조건화는 작동적 조건화, 도구적 조건화(instrumental conditioning)라고도 한다.

유관 학문분야로 '신경전달물질과 정서, 인지 기능 연구', '유전자 수준에서 정신 현상 탐구', '기억 형성 과정', '유전체 분석', '전기생리학' 등이 있다.

이 때 인간의 정신을 구성하는 변인 중 작동과정상의 선후 관계를 분별해내기가 까다로울 것이다. (사실상 물리적으로는 동시적 조건이 된다) 다만 신경계 현상은 대부분 후결적 조건일 것이라는 짐작이다. 즉, 감각 및 인식에 따른 인지작용상의 결과가 신경계 현상을 주도하므로, 이 과정을 통제하므로써 신경계 조작이 가능할 것이다. 예를 들어 인지행동치료(CBT) 상에서 '부정적 사고 패턴 식별' 등의 방법이 활용된다.

profile
hello world

0개의 댓글