[R] R 개요

GilLog·2020년 12월 10일
0

R

목록 보기
1/1

🙆‍♂️ import 🙇‍♂️

R이란 무엇인가? - R 소개, R 설치, R studio[hocheon tistory]

빅데이터 분석의 기본, R 프로그래밍이란?[백곰씨의 T스토리]

[01-1] R언어 - R 이란 무엇인가?[TechNote.kr]


R

R은 통계 분석과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경이다.
뉴질랜드 오클랜드 대학의 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 시작
현재는 R 코어 팀이 개발

R은 대표적인 오픈소스 통계 패키지기존의 통계 프로그램과는 차별화 된 인프라를 제공하고 있다.

R은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있으며, 패키지 개발이 용이해 통계 소프트웨어 개발에 많이 쓰이고 있다.

R은 데이터 사이언스 분야에서 자주 쓰이고 데이터 분석에 특화되어 있다.

기존 프로그램들(SAS, SPSS 등)은 소프트웨어 자체의 비용이 비싸고 데이터 분석 속도가 느리다는 단점이 있었는데, R은 이러한 단점이 보완된 빅데이터 분석 툴이다.


R은 전세계에서 사용 가능한 오픈소스이기 때문에 대부분의 명령어가 라이브러리화 되어 있어서 이용자들이 다양한 기능을 쉽게 공유하면서 통계 처리가 가능하다.

R은 분석 관련 함수들이 잘 구성되어 있어서 따로 코딩을 할 필요 없이 함수만 익혀도 결과 값의 해석이 가능하다.
통계 지식만 있다면 쉽게 익힐 수 있다.

RGPL하에 배포되는 S 프로그래밍 언어의 구현으로 GNU S라고도 한다.
S 언어 : 통계에 기반한 프로그래밍 언어
무료로 배포되는 GNU S(R), 상용 버전인 Insightful의 S-PLUS


R 적용 분야

R의 적용분야통계 분석, 머신러닝 모델링, 데이터 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식 분석, 사운드 분석, 웹 앱 제작 등 굉장히 다양하다.

  1. 통계분석

  2. 데이터 마이닝

  3. 빅데이터 분석

  4. GIS

  5. 웹 크롤링(Web Crawling)

  6. 텍스트 마이닝(Text Mining)

    6.1 워드 클라우드(Word Cloud)

    6.2 감성 분석

  7. 소셜네트워크분석(SNA : Social Network Analysis)

  8. 기계학습

  9. Reproducible Research

  10. Shiny를 이용한 웹 애플리케이션 개발


R 장, 단점

R의 장점

  • 오픈 소스
    R은 오픈 소스로써 개인, 기관, 기업에서 무료로 사용이 가능하다.
    타 통계, 분석 프로그램들은 라이센스 가격대가 비싸다.
    R을 이용해 상용 제품을 만들 경우 라이센스 비용을 지불 해야 한다.

  • 데이터의 시각화
    통계에 기반한 데이터를 효율적으로 보여주기 위해 해당 기능이 발전하였다.
    단순 코드만으로 바로 사용 가능할 정도의 표, 차트, 지도 등의 시각화 자료를 만들 수 있다.
    생각할 수 있는 대부분의 그래프들은 이미 R로 표현할 수 있다.

  • 다양한 패키지 및 커뮤니티
    다양하게 사용되고 있는 패키지 덕분에 R을 쉽게 사용할 수 있다.
    또한 다양한 통계 방법론을 적용한 데이터 분석 기능들이 R에는 몇 천가지 통계 분석 패키지가 존재 한다.

  • 데이터 사이언스를 위한 언어
    통계학에 많이 사용되다 보니 데이터 사이언스를 위한 작업에 많이 사용된다.

  • 데이터 처리
    데이터 분석에서 데이터 수집/처리/탐색적 분석이 60 ~ 80%를 차지하고 있고, 모델링은 상대적으로 적은 시간이 소요된다.
    R은 데이터 분석 외에도 데이터 처리에 있어 매우 강력한 툴텍스트, CSV, 엑셀, SAS, SPSS, Stata, DB 등의 다양한 데이터를 읽어오는 기능을 제공한다.
    수정, 삭제, 정렬, 합치기 등의 데이터 핸들링이 편리

  • 객체 지향 프로그래밍 언어
    R벡터 연산, Indexing이 유용하고 강력하며, 사용자 정의 함수와 루프를 실행하는 프로그래밍 또한 강력하다.
    다른 어플리케이션과도 연동이 가능하다.

  • 메모리
    데이터는 메모리(RAM)에서 작동되어 데이터 처리가 빠르다.
    메모리 크기에 따라 분석 가능한 데이터 양이 결정 된다.

R의 단점

  • 다양한 패키지
    다양한 패키지가 장점도 되지만, 이를 익혀야 한다는 점에서는 다소 학습 시간이 필요할 수 있다.

  • 효율성 저하
    통계를 위해 더 쉽게 연구하기 위해 만들다 보니 효율성은 떨어진다.
    다양한 패키지를 통해 어느 정도 개선은 가능

profile
🚀 기록보단 길록을 20.10 ~ 22.02 ⭐ Move To : https://gil-log.github.io/

0개의 댓글