NAVER BOOSTCOURSE - DATA SCIENCE

김혁·2022년 3월 20일
0

통계학

통계학(statistics)은 산술적 방법을 기초로 하며, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 한 분야이다.

데이터 사이언스

데이터 과학이란, 데이터 마이닝과 유사하게 정형(엑셀,csv파일,테이블 형태), 비정형 형태(사진,소리)를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합본이다. 데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터 사이언스 프로세스

데이터 분석은 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터 정리, 변환, 모델링하는 과정이다. 데이터 분석은 여러 면과 접근 방식이 있으며 다양한 이름의 다양한 기술을 아우르며 각기 다른 비즈니스, 과학, 사회과학 분야에 사용된다. 오늘날 비즈니스 부문에서 데이터 분석은 의사 결정을 더 과학적으로 만들어주고 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할을 한다.

탐색적 데이터 분석(EDA)

탐색적 데이터 분석(Exploratory Data Analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 boxplot을 들 수 있다.

정보디자인

데이터를 시각화하는 정보 디자인은 정보를 구성하여 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무를 말한다. 복잡하거나 구조화 되지 않은 데이터를 시각적으로 표현하여 그 뜻을 명확하고 분명하게 보이게 한다.

데이터

데이터가 중요하다. garbage in garbage out. 어떤 데이터를 어떻게 넣어주냐에 따라 결과가 달라지게 됩니다.

profile
군도리

0개의 댓글