# data

166개의 포스트
post-thumbnail

HADOOP

= Hadoop Distributed File System= 데이터 저장의 분산 파일 시스템 provides for the storage of Hadoop. As the name suggests it stores the data in a distributed manne

약 19시간 전
·
0개의 댓글
post-thumbnail

Airflow CeleryExecutor 설치하기 @ Local

Airbnb에서 만든 Workflow 관리 오픈소스 소프트웨어입니다. 많은 기업에서 데이터 파이프라인 운용에 사용하고 있습니다.

3일 전
·
0개의 댓글
post-thumbnail

Redis 설치하기 @ Local

In-Memory Store Redis는 애플리케이션 개발에 자주 사용되고 있는 인기 있는 오픈소스 소프트웨어입니다.Key-Value 형태로 간편하게 다양한 데이터 구조를 메모리에 저장할 수 있어, 빠르고 간편하게 데이터 관리가 가능합니다.캐싱, 세션 관리, Pub/S

3일 전
·
0개의 댓글

LDA 진행 중

스터디에서 공유받은 코드 중 일부 전체적인 로직과 흐름을 이해를 못하고 있어 엄청 헤매고 있다. 다음 스터디에서 관련 내용에 대해 팀원이 정리해주시기로 했는데 사전에 공부를 해야 정리해주는 내용도 이해가 잘 될 것 같다...

4일 전
·
0개의 댓글
post-thumbnail

선형 회귀 간단한 모델 구현하기

(4,)dtype('int32')array(\[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,

6일 전
·
0개의 댓글
post-thumbnail

Mock data 활용

보여지는데만 중점을 두다보면 하드코딩을 하는 나를 발견할 때가 있다.당장은 괜찮지만 백엔드와 정보를 주고 받거나 보여줄 정보가 늘어난다면 코드를 다시 짜야한다.이점은 상당히 비효율적이므로 어느정도 아니 반드시 개선이 필요하다.

6일 전
·
0개의 댓글

행동 데이터

주어지는 숫자보다은 실제로 고객이 매일마다 움직이는 행동 데이터를 기반으로 고객을 이해하는 것이 더욱 필요하다. 기존에는 의지 할 수 있는 것이 몇 안 되는 외부 통계 자료뿐이었기 때문에 '사람'을 정의하는 데 성별, 나이, 사는 지역 같은 정보를 사용할 수 밖에 없었

2022년 1월 21일
·
0개의 댓글
post-thumbnail

선형 회귀 모델

지도 학습의 대표적인 예로, 레이블(정답)이 있는 데이터를 다룬다.회귀식에서 MSE(평균 제곱 오차)를 통해 가장 적합한 w와 b값을 찾는 일★회귀 : 평균으로 돌아간다→ 어떠한 변수가 평균값으로 돌아간다고 가정한다면, 평균값은 무엇이며, 평균값에 어떠한 변수들이

2022년 1월 21일
·
0개의 댓글

머신러닝 개념 정리

\*지도 학습(올바른 답이 레이블에 존재하는 것) : 분류(Yes or No와 같은 이진 분류, 개와 고양이 분류하는 다중 분류) / 회귀(연속적인 값을 찾는 것. 예측)\*비지도 학습(Input 데이터에 올바른 답이 없는 것이 주어짐) : 군집(구글 뉴스, 유사도)

2022년 1월 21일
·
0개의 댓글
post-thumbnail

탐색적 데이터 분석 EDA 실습

데이터 분석의 두 가지 접근 방법이 있다. 확증적 데이터 분석(CDA, Donfimatory Data Analysis) 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석이다. 관측 형태나 효과의 재현성 평가, 유의성 검증, 신뢰구간 추정 등

2022년 1월 20일
·
0개의 댓글
post-thumbnail

빅데이터(Big Data)

분산처리 한가지의 일을 여러 컴퓨터들에게 나누어서 동시에 처리하는 시스템 방식병렬처리프로세서를 늘려서 여러 일을 동시에, 더 빨리 처리 할 수 있게 해주는 시스템 방식구글이 빅데이터 처리를 위해 만든 프레임워크. prior to 2004, Huge amounts of

2022년 1월 20일
·
0개의 댓글
post-thumbnail

작사하는 인공지능

시퀀스는 일련의 연속적인 사건들 또는 사건의 행동 등의 순서라는 뜻을 가지고 있다. 예를 들어 밥을 한다고 치면 쌀을 씻어야 하고 씻은 후 적정량의 물과 함께 압력밥솥에 넣은 후 취사 버튼을 누르면 된다. 만약 알고리즘에 취사버튼을 누르라는 말이 없다면 식사할 때 밥이

2022년 1월 18일
·
0개의 댓글
post-thumbnail

RDBMS VS NoSQL

Relational Database Management System 대표적인 예가 오라클, MySql, MsSql 정해져 있는 데이터 스키마에 따라 데이터베이스를 테이블에 저장함. 각 테이블은 ERD방식을 통해 관계를 형성한다. 효율적인 사용을 위해 구조화가 대표적인

2022년 1월 18일
·
0개의 댓글

NLTK

\*스터디 멤버의 논문 작성과 관련하여 데이터 요청이 있어 알게 된 새로운 데이터 세계:)NLTK(Natural Language Toolkit)은 자연어 처리 미치 문서 분석용 파이썬 패키지다. 주요 기능은 '말뭉치', '토큰 생성', '형태소 분석', '품사 태깅'을

2022년 1월 16일
·
0개의 댓글

데이터 형태

\*스터디에서 보기로 한 데이터 위주로 정리논리형(boolean형) : True / False 두 가지 값만 존재, 일반적으로 참은 True, 거짓은 False, 일치 혹은 불일치 여부 확인 가능\*범주형(몇 개의 범주로 나누어진 자료)명목형(nominal data)

2022년 1월 16일
·
0개의 댓글

별점

점점 사용자들이 직접 매긴 점수는 크게 사용하지 않는 추이고, 별점은 식당과 상담원과 서비스 제공자가 고객에게 매달리는 용도로만 사용된다. 많은 서비스에서는 이미 이런 사용자가 주는 점수 대신 '사용자들이 다시 보는 프로그램', '재방문자', '배달 시간'같은 실제 사

2022년 1월 13일
·
0개의 댓글

데이터 분류_02

앞에서 연습했던 Iris 품종 분류와 같이 데이터 분류에 대해서 계속 공부해보자 데이터 분류_01 scikit-learn의 예제 데이터를 활용한다 데이터셋 : 사이킷런 toy datasets load_digits : 손글씨 이미지 데이터 (링크) load_wine

2022년 1월 12일
·
0개의 댓글

Latent Dirichlet Allocation, LDA

토픽 모델링 : 문서의 집합에서 토픽을 찾아내는 프로세스(문서의 주제를 알아내는 일)★잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델리의 대표적인 알고리즘LDA : 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에

2022년 1월 11일
·
0개의 댓글

데이터 시각화(Data Visualization)_02

앞에 데이터 시각화 첫 장에서 데이터 시각화를 하는 방법을 배웠다. 이번에는 자주 사용되는 그래프를 직접 그려보며 연습해보자.

2022년 1월 10일
·
0개의 댓글
post-thumbnail

데이터 시각화(Data Visualization)

시각화는 데이터를 파악하는데 매우 중요한 도구이다. 파이썬은 라이브러리(Pandas, Matplotlib, Seaborn 등)을 이용해 여러가지 그래프를 그려 데이터를 시각화 할 수 있다.이를 통해 데이터셋을 직접 시각화해보며 데이터 분석에 필요한 탐색적 데이터 분석(

2022년 1월 9일
·
0개의 댓글