이 블로그의 첫 글의 주제는 "R로 boxplot 그리는 법"으로 잡아 보았습니다. 제가 boxplot을 좋아 하거든요. boxplot이 무엇인지와 ggplot2 패키지를 통해 R로 표현하는 방법을 알아봅시다.
R로 데이터를 파악하는 방법은 무수히 많습니다. 처음엔 한 게시물에 데이터 요약과 NA값, 변수별 상관성 등등 모든 파악방법을 다 다루려고 했는데 생각보다 내용이 방대할 듯 하여 여러 글로 나누어 정리해보려 합니다. 😊
이전 포스팅에서 데이터요약 확인 방법과 기술통계량 함수에 대해 정리해두었는데요, 데이터 내 모든 수량적 변수에 대해 purrr 패키지의 map 함수를 사용하여 기술통계량 한번에 파악하기를 해볼거에요.
모든 데이터가 완벽할 순 없습니다. 고객 중 누군가가 대답을 하지 않거나 대답을 했어도 특정 내용만 빼고 말했을 수 있으니까요. 혹은 단순히 누락된 부분이 있을수도 있구요. 본 포스팅에서는 데이터 내 NA값 여부를 확인 및 시각화 방법, 대체하기에 대해 정리하였습니다.
오늘은 기본 그래픽 함수의 1) 고수준 그래픽과 저수준 그래픽이 무엇인지 2) 그래픽 함수의 인자들을 잘 설명해둔 블로그 소개 3) 직접 그려보기 를 포스팅 하였습니다🤓
데이터 분석 시 주어진 원데이터를 그대로 활용하기 보다는 분석의 목표에 적합하게 계속해서 데이터 형태를 수정보완 해주어야 합니다. 오늘은 원데이터의 변수를 기준으로 파생변수를 추가하는 방법에 대해 정리해보겠습니다. :-)
외부 파일(엑셀, csv, txt)을 R로 불러올 때 실제 비어져있는 데이터이지만 NA로 표시되지 않는 경우가 많습니다. 이렇게 되면 데이터 분석 시 여러 문제가 발생될 수 있기 때문에 반드시 전처리가 필요합니다. 이에 NA 표시 방법에 대해 포스팅 해보도록 하겠습니다
지난 번 포스팅에서 NA값을 처리해주었던 videoGames 파일을 활용하여 dlookr 패키지의 데이터 진단 작업을 해보겠습니다. 먼저, dlookr::diagnose(데이터)는 데이터에 포함된 모든 변수의 타입, 결측값, 고유값을 확인할 수 있...
데이터 분석에서 시각화가 중요한 이유는, 숫자로는 바로 파악하기 어려운 패턴을 발견할 수 있게 해주기 때문입니다. dlookr이라는 패키지는 데이터를 수치로 파악하는 것이 용이함은 물론, 시각화로도 잘 정리 해줍니다.
안녕하세요! R로하는 텍스트 마이닝 포스팅을 해보려 합니다. 👏👏👏 크롤링이나 텍스트마이닝 방법은 배운적이 있으나 제대로 써먹어 본 적은 없었기 때문에 이번에 하나의 주제를 가지고 1)크롤링 2)데이터 전처리 3)텍스트마이닝시각화 과정을 나누어 정리해 보겠습니다
안녕하세요👏👏👏 지난 포스팅에서 크롤링 해온 코로나 19에 대한 네이버 블로그 글을 가지고 워드 크라우드를 만들어 보겠습니다. 사실 처음 만들어본거라 많이 미흡합니다🤣 (원래 사전을 만들거나 받아와야 하는데 사전도 만들지 않았고요..)
이 패키지를 처음 익히고 시간이 지나니 헷갈리더군요. 관련하여 다시 복습하는 차원에서 튜토리얼을 따라 해보고 있습니다. 오늘은 ggplot2 소개와 부수적인 패키지 소개, 그리고 튜토리얼 실습입니다 !