KPMG Future Academy AI 활용 데이터 분석가 3기 42일차 수업을 2025년 1월 16일에 참석했다.
미니프로젝트(2차)
2025년 1월 17일 오전 10시 발표
데이터 기반 문제 정의 및 데이터 분석을 통한 핵심 인사이트 도출
프로젝트 목표
1. 최신 웹 구조 및 데이터 플로우 이해
2. 복잡한 동적 구조 콘텐츠 추출 및 전처리 실습
3. 피처 엔지니어링 기본 습득
분석 목표
1. 각 사이트의 데이터 계층 구조 파악
2. 각 사이트의 네트워크 프로퍼티 하위 요소 파악
3. 데이터 무결성 피처 엔지니어링
분석 계획
1. 사이트 4개 이하 선정
2. 각 사이트 분석(구조, 의미론, 시간 등) 수행
3. 데이터 무결성 및 신뢰도 파악
4. 결론 도출
구조적 특성 (Structural Features):
의미론적 특성 (Semantic Features):
시간적 특성 (Temporal Features):
분석 시 고려할 점:
분석 사이트 선정
후보
CAREC https://www.carecprogram.org/
중앙아시아 경제회랑 프로젝트 데이터
코넬대 논문 저장 사이트 (벡터DB https://arxiv.org/)
arXiv API (https://arxiv.org/help/api/)는 비동기 호출 지원
OAI-PMH를 통한 메타데이터 하베스팅 제공
ElasticSearch 기반 동적 검색
실시간 자동완성
비동기 필터링
참고
Semantic Scholar (https://www.semanticscholar.org/)
벡터 기반 논문 추천
실시간 인용 네트워크 시각화
GraphQL API
동적 PDF 렌더링
선정 대상 목록
AIIB Projects (https://www.aiib.org/en/projects/)
Singapore Maritime Exchange (https://www.sgmx.sg)
CAREC Program (https://www.carecprogram.org)
Asia Power Watch (https://asiapowerwatch.com)
RCEP Business Portal (https://rcep.business)
RCEP(역내포괄적경제동반자협정) 관련 실시간 무역/통관 데이터
복잡한 원산지 증명 추적 시스템
15개국 무역 데이터 통합
비정형 데이터(정책변화, 분쟁 등)와 정형 데이터(무역통계) 혼재
Marine Traffic (https://www.marinetraffic.com)
Tradevinz (https://www.tradevinz.com)
최종 선정
RCEP Business Portal https://rcep.business
Singapore Maritime Exchange https://www.sgmx.sg
AIIB Projects https://www.aiib.org/en/projects/
Baltic Exchange https://www.balticexchange.com/en/index.html
RCEP Business Portal, Singapore Maritime Exchange는 사이트 접근이 차단되어 불가능.
AIIB Projects를 주로 분석하되, 동적이고 복잡한 데이터를 처리하는 부분은 Baltic Exchange에서 수행해보기로 함.
AIIB Projects
아시아 인프라 투자은행의 프로젝트 데이터
AIIB 웹사이트의 project 페이지와 financial statements 페이지 분석 및 데이터 스크래핑 수행
약 5시간 소요
분석 과정
1. robots.txt 및 sitemap.xml 확인
2. 활성도 높은 페이지 파악 : bot 활성도가 높은 페이지를 찾기 위해 ubuntu 환경에서 GoAccess를 설치하여 로그분석을 수행하고자 했으나 시간 제약으로 사이트 내의 링크 수집 후 인기있는 페이지를 간접 추정. AIIB의 재무 보고서 페이지와 프로젝트 리스트 페이지 두 개 페이지를 분석하기로 결정.
3. 개발자 도구 네트워크 탭에서 응답 헤더에 대한 정보 확인.
분석 결과
1. Project list : 투자 금액 상위 국가 10개