Data Science, 분석환경준비

hisungmi·2024년 8월 12일
0

KT Aivle

목록 보기
1/23
post-thumbnail

Data Science

과학적, 논리적인 사고와 기술력을 융합하여 다양한 형태의 데이터로부터 새로운 지식과 인사이트를 도출하는 과정

  • 데이터로부터 새로운 지식을 도출하도록 수학/통계/컴퓨터과학 등의 기술력과 논리성 요구됨

발전 배경

  • Technology, Hardware, Infra
    • 3V ( Volume, Velocity, Variety )
  • business, Software, Analytics
    • 3V ( Veracity, Value, Visualization )

환경 변화

  • 내부 데이터의 한정적 활용 환경 -> 대용량 데이터 분석 환경 -> 고차원 데이터 분석 환경

Data Scientist 정의

  • Data scientist -> 다양한 산업 내 다양한 형태의 빅데이터를 가공 및 분석하여 새로운 가치를 창출하는 자
  • Citizen Data Scientist -> 특정 도메인 내 빅데이터를 활용하여 본인의 비즈니스 영역 결과를 개선하는 자

주요 업무 영역

과제수행 준비 - 데이터 준비 - 데이터 분석 - 분석 결과 정보화 - 자산화

상세 분석 프로세스

<Analytics Finding영역>
프로젝트 수행 준비 - 요구사항 수집
<Analytics Strategy Planning 영역>
AS-IS분석 - TO-BE도출
<Analytics Professional Servise 영역>
분석 대상 데이터 수집/처리 - 탐색적 데이터 분석 - 고급 데이터 분석 - 결과 기반 활용 방안 제언

분석 환경 준비

Anaconda

데이터 처리/분석을 위해 여러 패키지를 포함한 배포판

  • Open Source : 다양한 데이터 처리/분석을 위해 소프트웨어에 엑세스 가능
  • User-friendly : 친화적 기반
  • Trusted : 체계적으로 테스트, 관리되어 신뢰적

Jupyter notebook

대화형 인터프리터로 웹 브라우저 기반 파이썬 개발 환경

  • Step-by-Step : 단계적 코드 작성 가능
  • Get quick results : 코드 실행시 차트, 표 결과값 직관적
  • Lecture material : 실제 강의 활용 용이

가상 환경

독립적인 작업환경에서 패키지 및 버전 관리

  • 호환성: 기본환경에서 여러 패키지를 설치 및 업뎃 경우 충돌 방지
  • 관리성: 다른 PC환경에서 동일하게 구성시 환경 및 버전문제로 실행오류 방지
profile
난 성미다.

0개의 댓글