profile
데이터엔지니어입니다.

[python] 환경변수 세팅(.env)

💡 <span style='color:띄어쓰기 없이 입력해야 합니다.Git 업로드시 환경변수 파일을 업로드하면 안되므로, .gitignore에 .env파일을 추가해 줍니다.python에서 .env 설정파일사용하기python-dotenv project descri

2023년 4월 12일
·
0개의 댓글
·
post-thumbnail

[AWS] VPC, Subnet, Router

💡 AWS 서비스를 이용하면서 가상 컴퓨팅 환경을 이용하려면 VPC 생성이 필수인데, 정작 VPC가 무엇인지는 잘 모르는 것 같아 구글링과 코멘토의 클라우드 직무 부트캠프를 통해 개념을 정리하고 실습해봤습니다.가장 많이 도움의 된 글은 이블로그 이며, 여러 자료를

2023년 4월 5일
·
0개의 댓글
·

[nginx] nginx란?

💡 웹서버로 많이 사용되는 Nginx에 대해 알아봅니다.우아한테크의 10분 테코톡 피케이님의 영상을 보고 요약하였습니다.영상을 보고오시는 것을 추천합니다.가벼우면서도 강력한 프로그램을 목표로 개발되어 미국에서 운영중인 오픈 소스 웹서버 프로그램입니다.비동기이벤트 기반

2023년 3월 28일
·
0개의 댓글
·
post-thumbnail

[gunicorn] gunicorn이란? 왜 필요할까?

💡 <span style='color:<span style='color:> 파이썬 애플리케이션이 웹서버와 통신하기 위한 인터페이스로 웹서버의 요청을 해석을 해서 파이썬애플리케이션에게 전달해줍니다. 대표적으로 gunicorn과 uWSGI가 있습니다.Djang

2023년 3월 28일
·
0개의 댓글
·

[Hadoop][HDFS] Block

HDFS에서 블록은 지정된 크기로 분할되어있으며, 독립적입니다.블록의 크기는 128MB이상으로 큰 단위로 분할되어 있는데, 그 이유는 블록의 탐색시간을 단축시킬 수 있기 때문입니다. 그렇게 단축한 시간을 네트워크로 파일을 전송하는데 할애할 수 있게 됩니다. 이로 인해

2023년 3월 24일
·
0개의 댓글
·
post-thumbnail

[python] gzip으로 압축, 해제하기

💡 ETL 파이프라인으로 S3에 적재된 gzip으로 압축된 로그파일을 다시 다운로드하고 압축해제하는 과정에서 찾은 방법입니다.생성된 파일들..압축해제된 모습 저런형태인 이유는 해싱과 암호화를 거쳐서 저런형태가 나온 것 입니다. 더 궁금하다면 여기참고로 w, r, b

2023년 3월 23일
·
0개의 댓글
·
post-thumbnail

[python] json형식 로그 해싱, 암호화/복호화 하기

💡 <span style='color:Introduction to Salted-Hashed Passwords해싱은 단순히 특정 문자열을 어떤 함수를 통과시켜서 다른 문자열로 바꾸는 것을 의미합니다.(되돌릴 수 없음)그래서 사용자의 패스워드에 많이 사용되었는데요,

2023년 3월 22일
·
0개의 댓글
·

[python] 파일경로라이브러리 pathlib

💡 파이썬 파일관련 라이브러리인 pathlib의 사용법을 정리합니다.pathlib documentation

2023년 3월 22일
·
0개의 댓글
·
post-thumbnail

[빅데이터] 빅데이터의 정착

이 페이지에서는 빅데이터의 주요 역사에 대해서 설명합니다.2011년 이전 : Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전2012년 : 클라우드 방식의 데이터 웨어하우스와 BI 도구의 보급2013년 : 스트림 처리와 애드 훅(Adhoc) 분석 환경의 확충

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS의 구조 (Architecture)

💡 HDFS의 구조에 대해 알아봅니다.HDFS는 Master, Slave 구조로 하나의 Namenode와 이에 할당된 여러 개의 Datanode로 구성됩니다. 네임노드는 메타데이터(데이터 노드의 위치정보 등등)를 가지고 있고 데이터는 블룩 단위로 나누어서 데이터노드에

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS 란?

💡 하둡의 분산 파일 저장 시스템인 <span style='color:Hadoop Distrubution File System의 약자로 우리가 일반적으로 사용하는 하드웨어서도 동작하고, 파일 손상 시 복구를 할 수 있는 분산된 파일 시스템을 목표로 합니다.실시간

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop, 버전별 특징

💡 Hadoop의 버전별 특징에 대해 소개합니다.v1병렬처리는 잡트래커와 태스크트래커가 담당하고, 분산저장은 네임노드와 데이터노드가 담당하는 구조로 설정하였습니다. 하지만 병렬처리의 클러스터 자원 관리와 애플리케이션의 라이프사이클 관리를 모두 잡트래커가 담당하는 문제

2023년 3월 21일
·
0개의 댓글
·

[Hadoop]Hadoop이란?

💡 <span style='color:여러 대의 컴퓨터를 사용하여 큰 크기의 데이터를 클러스터에서 병렬로 처리해서 속도를 latency를 줄이고 속도를 높이는 분산 처리가 주 목적입니다.방대한 비정형 데이터를 처리할 솔루션으로 Hadoop이 많이 사용되고 있으며

2023년 3월 21일
·
0개의 댓글
·

하이브리드 렌더링이란?

💡 하이브리드 렌더링하이브리드 렌더링은 서버와 클라이언트의 자원을 최대한 활용하여 미디어 자료를 렌더링하는 방식, 문서 열람의 경우에 사용자가 보는 첫 페이지는 서버의 자원을 활용하여 렌더링하고, 나머지 부분은 사용자(클라이언트)의 메모리에서 PDF파일 다운로드를 진

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

MapReduce란?

💡 MapReduce는 구글에서 공개한 논문인 MapReduce: Simplified Data Processing on Large Cluster에서 소개한 프로그래밍 모델과 구현한 모듈 자체를 모두 지칭하는 말로 한 가지 Task를 여러 대의 컴퓨터에게 분산해서 처리

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

데이터 파이프라인의 개념

다양한 데이터 소스에서 <span style="color:일반적으로는 데이터 전처리과정을 거쳐서 저장하며, 적절한 데이터 통합과 표준화를 보장하는 필터링, 마스킹, 집계와 같은 데이터 변환이 요구됩니다.Data set이 RDB일 경우 이 과정이 더욱 중요하며, 이

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

GFS(Google File System)

기존의 데이터베이스 관리도구 툴의 능력을 벗어 나는 규모의 대량의 정형 or 비정형의 데이터를 추출하여 가치를 창출하고 결과를 분석하는 기술을 의미한다.큐잉(queueing) - queueing자료구조인 Queue의 형태로 순서대로 대기열을 세워서 순차적으로 처리함.\

2023년 3월 20일
·
0개의 댓글
·

네이버 이미지 크롤링(수집)

그 때 당시에 기억으로는 중간중간에 없는 div번호가 있어서 예외처리를하고 없는 번호가 뭔지 출력하게끔 진행했다.위 코드를 간단히 요약하자면 원하는 검색어의 이미지 페이지에서 이미지 열 개마다 스크롤을 내리면서 이미지를 수집한다.이미지저장은 실행한 위치의 상위폴더에서

2023년 3월 18일
·
0개의 댓글
·

[python] json to dictionary

JSON은 자바스크립트 객체 표기법으로, 자바스크립트의 형태이지만 여기에 국한되지 않고 대부분의 언어에서 JSON을 해석하는 라이브러리가 있다. 파이썬의 경우 Dic타입과 유사한 형태이다.https://www.freecodecamp.org/korean/news

2023년 3월 18일
·
0개의 댓글
·
post-thumbnail

[리눅스]VScode에서 ssh접속 / 접속자동화하기

검색어로 ssh라고 쳐서 위에 해당하는 확장 프로그램을 설치한다.F1 or Ctrl + Shift + P버튼을 클릭해서 ssh라고 검색하면 위와 같이 메뉴가 뜨는데 Open SSH Configure File을 선택 아래와 같이 정보를 입력해준다. 여러 서버를 추가하고

2023년 3월 18일
·
0개의 댓글
·