한빛미디어 혼공학습단 9기에 책 <혼자 공부하는 데이터 분석 with 파이썬>으로 참여하게 되었다.
데이터 분석이 무엇인지 알아봅니다. 데이터 분석의 정의와 데이터 분석에 관련된 기술에 대해 개략적인 개념을 이해하면 이후 장을 공부할 때 이래하기 훨씬 쉽습니다.
코랩, 노트북, 구글 드라이브, 깃허브, 마크다운이 책의 모든 코드는 웹 브라우저에서 파이썬 코드를 실행할 수 있는 구글 코랩을 사용하여 작성되었습니다. 본격적으로 데이터 분석을 배우기 전에 구글 코랩을 소개하고 간단한 사용법을 익혀 보겠습니다.
공개 데이터 세트, CSV, 판다스, 데이터프레임, 시리즈데이터 분석으로 비즈니스 문제를 어떻게 해결하는지 알아보기 위해 가상의 예를 소개합니다. 문제에 맞는 데이터를 구하고 코랩에서 판다스 데이터프레임으로 CSV 파일을 읽고 쓰는 방법에 대해 배웁니다.
Chapter 01 - 데이터 분석을 시작하며본격적으로 데이터 분석을 배우기 전에 꼭 알아야 할 기초 개념을 소개합니다. 이를 통해 데이터 분석이 무엇인지 어떤 것을 배워야 하는지 알게 될 것입니다. 또 책 전체에 걸쳐 사용하게 될 코랩 환경과 판다스 라이브러리에 대해
API, HTTP, JSON, XMLAPI 방식은 사내외를 가리지 않고 웹사이트나 다른 팀의 협조 없이도 가장 편리하게 데이터를 수집할 수 있는 방법입니다. 공공 데이터 세트는 API를 사용해 제공하는 경우가 많습니다. 이 절에서는 API 개념과 웹 기반 API를 사용
공개 API에서 데이터를 수집하는 과정은 비교적 자동화하기 쉽습니다. 하지만 이런 데이터 소스를 사용할 수 없고 원하는 데이터가 인터넷 웹 페이지에 있다면 직접 HTML의 내용을 읽어 원하는 정보를 뽑아내야 합니다.
Chapter 02 - 데이터 수집하기데이터 분석에서 주어진 문제를 파악한 후 가장 먼저 해야 할 일은 필요한 데이터를 수집하는 일입니다. 데이터 분석에서 데이터는 매우 중요하며 문제마다 수집 방법이나 데이터 종류가 다를 수 있습니다.
API, 웹 스크랩핑, 데이터베이스 등으로 수집한 데이터는 때때로 불완전합니다. 값이 잘못 들어가 있거나 불필요한 문자가 섞여 있을 수 있습니다. 또 분석에 필요하지 않은 행이나 열이 있다면 제거해야 합니다. 이 절에서는 판다스 데이터프레임의 다양한 기능을 사용해 불필
이번 절에서는 수집한 데이터에서 누락된 값이나 잘못된 값을 다루는 방법을 알아보겠습니다. 데이터에서 잘못된 값을 파악하려면 데이터가 의미하는 바를 이해하고 시간을 들여 직접 데이터를 꼼꼼하게 살펴보아야 합니다. 따라서 판다스 데이터프레임의 데이터를 조작하는 다양한 방법
데이터 분석에서 데이터 정제는 필수입니다. 종종 많은 시간이 소요되어 간과하기 쉬운데요. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다. 이번 장에서는 원활한 데이터 분석을 위해 수집된 데이터에 있는 문제점을
통계란 말이 부담스럽게 들릴지 모르지만, 사실 어렵지 않습니다. 통계를 사용하는 이유는 출력된 데이터를 읽는 것만으로는 유용한 무언가를 파악하기 어렵기 때문입니다. 전체 데이터를 몇 개의 숫자로 요약할 수 있다면 현재 데이터의 특징을 이해하고 다른 데이터와 차이나는 점
데이터를 숫자로 요약하면 다른 데이터와 비교하기는 좋지만, 한눈에 파악하기는 조금 어렵습니다. 그래프는 이런 점에서 매우 유용한 도구입니다. 이번 절에서는 전체 데이터 분포를 살펴보고 통찰을 얻을 수 있는 대표적인 세 가지 그래프를 알아보겠습니다. 또한 각 그래프를 맷
전체 데이터를 일일이 살펴보는 것을 때때로 어려운 일입니다. 특히 데이터 용량이 아주 클 때는 다른 방법을 사용하는 것이 좋습니다. 대표적으로 전체 데이터를 몇 개의 수치로 요약하거나 그래프로 나타내는 방법을 많이 사용합니다. 4장에서는 이를 위해 어떤 도구들을 사용할
그래프는 데이터를 한눈에 볼 수 있도록 표현할 수 있는 좋은 방법이지만, 그래프에 필요한 정보가 나타나 있지 않으면 이해하기 어렵거나 오해할 수 있습니다. 이번 절에서는 맷플롯립을 사용한 다양한 그래프 조작 방법을 알아보겠습니다.
데이터를 숫자로 요약하면 다른 데이터와 비교하기는 좋지만, 한눈에 파악하기는 조금 어렵습니다. 그래프는 이런 점에서 매우 유용한 도구입니다. 이번 절에서는 전체 데이터 분포를 살펴보고 통찰을 얻을 수 있는 대표적인 세 가지 그래프를 알아보겠습니다. 또한 각 그래프를 맷
4장에서는 데이터 분포를 한눈에 파악할 수 있는 산점도, 히스토그램, 상자 수염 그림에 대해 알아보았습니다. 데이터 과학 분야에서 어떤 문제를 해결할 때 대부분 그래프를 함께 사용합니다. 데이터의 특징을 찾기 위해 시각화하는 것 외에도 분석 과정을 모니터링하거나 분석
05-1절에서 여러 개의 서브플롯을 그리면서 맷플롯립의 객체지향 API를 살짝 엿보았습니다. 복잡한 그래프 구조를 표현하려면 객체지향 API 방식을 사용하는 것이 좋습니다. 또한 이 절에서는 그래프에 한글을 출력하는 방법을 알아보고 산점도에 다양한 정보를 담을 수 있도
이 절에서는 맷플롯립의 고급 그래프 기능을 사용해 보겠습니다. 그래프에 범례를 추가하고 선 그래프와 막대 그래프를 동시에 여러 개 그리는 방법을 배웁니다. 또한 데이터프레임의 피벗 테이블 기능도 알아보겠습니다.
5장에서는 간단한 데이터를 사용해 맷플롯립의 기본 구성 요소와 선 그래프와 막대 그래프를 그리는 방법을 다루었습니다. 다양하고 복잡한 데이터를 시각화하려면 주어진 데이터를 잘 이해해야 하며 종종 창의적인 아이디어가 필요합니다. 이번 장에서는 조금 더 복잡한 데이터를 그
혼공학습단 완주 결과 및 회고