데이터과학(data science)데이터 분석과 머신러닝을 아우르는 개념이다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는 데 많은 비중을 둔다.머신러닝통계학데이터 마이닝데이터 분석‘데이터과학은 데이터 세계와 비즈니스 세계를 잇는 다리이다.’데이터분석(d
1-2. 구글 코랩과 주피터 노트북 Google Collaborate 내가 공부하고 있는 ‘혼자 공부하고 있는 데이터 분석 with 파이썬’ 은 구글 코랩을 이용해서 실습을 진행한다. 코랩은 주피터노트북의 장점을 바탕으로 개발된 클라우드 기반 서비스다. 별도의 설
“도서 판매 데이터”를 이용해 신규 도서 판매량을 예측해보자.도서 판매 데이터는 어디에서 구할까? 직접 데이터를 만들거나 공공데이터 포털 등에서 공개된 데이터셋을 찾아본다. 여기에서는 도서관 정보나루 사이트에서 ‘서울특별시교육청남산도서관 장서/대출 데이터’ 의 ‘남산도
p. 81의 확인 문제 4번 풀고 인증하기정답: 3번판다스에서는 CSV 파일의 첫 행이 열 이름이 아니라면 read_csv() 함수를 호출할 때 (1) header 매개변수를 None으로 지정해서 데이터 첫 행에 열 이름이 없다는 것을 알린다. (2) names 매개변
핵심 키워드API HTTP JSON XML API(Application Programming Interface)는 두 프로그램이 서로 대화하기 위한 방법을 정의한 것이다. 가장 대표적인 API는 웹 기반의 API이다.우리가 보는 웹 사이트는 웹 페이지를 서비스하기 위
CHAPTER 2 - 데이터 수집하기 2-2. 웹스크래핑 사용하기 핵심 키워드 웹 스크래핑 beautiful Soup 웹 스크래핑과 웹 크롤링 프로그램으로 웹사이트의 페이지를 옮겨 가면서 데이터를 추출하는 작업을 웹 스크래핑 또는 웹 크롤링이라고 한다. ex
p. 150의 확인 문제 1번 풀고 인증하기정답: 4번판다스의 loc\[] 은 데이터프레임에서 원하는 행과 열을 추출하는 메서드다. 1-3번은 모두 전체 행과 전체 열을 추출하지만 , 4번 df.loc\[::2, ‘col1’:’col2’]은 행에 대한 스텝을 2로 지정
핵심 키워드데이터 정제 데이터 랭글링 데이터 먼징 원소별 비교 불리언 배열 넘파이데이터 정제(data cleaning)불필요하거나 불완전한 데이터를 교체하는 작업이다.데이터 정제는 데이터를 분석 목적에 맞게 변환하는 데이터 랭글링(data wrangling) 또는 데이
핵심 키워드NaN 정규 표현식 3-1절에서 만든 ‘ns_book4.csv’ 파일을 임포트하고, info() 메서드로 데이터프레임 요약정보를 확인한다.위의 RangeIndex 는 전체 행 개수이고, total 13 columns 은 열 개수가 13개 라는 뜻이다.나머지
p. 182의 확인 문제 2번 풀고 인증하기2번 문제 설명에 오타가 있다. 정답 4번 풀이과정 문제에서 주어진 대로 데이터프레임을 만들면 위와 같다. 보기 1-3번은 col1 열 값의 합을 제대로 구했지만, 4번에서는 col3 열 값의 합을 구
데이터베이스는 회사가 가지고 있는 데이터가 저장되어 있는 곳이다. 이 안의 데이터를 확인하기 위해서는 데이터베이스 관리 시스템(DBMS) 이라는 프로그램이 필요하다.MySQL, MariaDB, MongoDB, SQL 서버, OracleDB 등이 있다.보통 DB와 DBM
핵심 키워드평균 중앙값 분위수 분산 표준편차 최빈값 기술통계(요약통계)는 데이터를 설명하는 방법이다. 통계량을 통해 전체 데이터의 특징을 요약하거나 데이터를 시각화하여 설명한다. 이러한 방식은 EDA(탐색적 데이터 분석)이라고도 한다.통계량은 평균, 중앙값, 최솟값
핵심 키워드matplotlib 산점도 히스토그램 도수 로그 스케일 상자 수염 그래프 산점도는 두 변수 또는 두 가지 특성값을 직교좌표계에 점으로 나타내는 그래프이다.파이썬에서 그래프를 그리는 데 사용하는 패키지는 맷플롭립(matplotlib)이다. 그래프 함수를 그리기
p. 279의 확인 문제 5번 풀고 인증하기문제ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 발행년도 열의 히스토그램을 그려보세요.정답Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값,
핵심 키워드Figure rcParams 축 마커 서브플롯맷플롯립에는 Figure(피겨)라는 모든 그래프 구성 요소를 담고 있는 최상위 객체가 있다.맷플롯립으로 그래프를 그릴 때 자동으로 피겨 객체가 생성된다. 이 피겨 객체를 조작해서 그래프에 다양한 옵션을 줄 수 있다
핵심 키워드선 그래프 막대 그래프선 그래프와 막대 그래프는 한 축을 따라 어떤 데이터의 변화를 살펴보는데 적합하다.예를 들어 연도별로 몇 권의 도서가 발행되었는지 확인하려면 선 또는 막대그래프를 그려보는 게 편하다.먼저 선 그래프를 그리는 데 적합하도록 데이터를 가공해
p. 314의 손코딩(맷플롯립에서 bar()함수로 막대 그래프 그리기)을 코랩에서 그래프 출력하고 화면 캡처하기p. 316의 손코딩(텍스트 정렬, 막대 조절 및 색상 바꾸기)을 코랩에서 출력하고 화면 캡처하기여기서 확인!(클릭)(https://velog.io/
CHAPTER 6 - 복잡한 데이터 표현하기 6-1. 객체지향 API로 그래프 꾸미기 핵심 키워드 객체지향 API 컬러맵 컬러 막대 객체지향 API 방식 matplotlib.pyplot에 있는 함수를 사용해서 그래프를 그리지 않고 명시적으로 피겨 객체와 서브플롯
핵심 키워드범례 피벗 테이블 스택 영역 그래프 스택 막대 그래프 원 그래프 맷플롯립에서 하나의 피겨에 여러 개의 선 그래프를 그리려먼 plot() 함수를 여러 번 호출하면 된다.먼저 출판사에 대한 발행년도 별 대출건수 그래프를 그리기 위해 대출건수 상위 30개의 출판사
p. 344의 손코딩(맷플롯립의 컬러맵으로 산점도 그리기)을 코랩에서 그래프 출력하고 화면 캡처하기\-> \[6-1 정리 출판사별 발행 도서 개수 산점도 그리기](https://velog.io/@coshibaken413/%ED%98%BC%EA%B3%B5%ED%