profile
Solutions Architect (haalsgud97@gsneotek.com)
post-thumbnail

Elasticsearch 기초2

curl -XGET http://localhost:9200/<index 이름>데이터를 조회할 경우 -XGET데이터를 생성 및 추가할 경우 -XPOST, -XPUT데이터를 삭제할 경우 -XDELETE여기서 http://localhost:9200 -

3일 전
·
0개의 댓글
·
post-thumbnail

Elasticsearch 기초

분산형 RESTful 검색 및 분석 엔진으로 표준 RESTful API와 JSON을 사용ex) John이라는 text는 doc1과 doc2에서 볼 수 있고 database라는 text는 doc1과 doc3에서 볼 수 있다.es는 이 텍스트들을 인덱싱해서 인덱스라는 DB

3일 전
·
0개의 댓글
·
post-thumbnail

GitHub Actions를 사용하여 GKE에 어플리케이션 배포

GitHub Actions는 코드 저장소(repository)로 유명한 GitHub에서 제공하는 CI/CD 기능이다. GitHub Actions를 사용하면 자동으로 코드 저장소에서 어떤 이벤트가 발생했을 때 특정 작업이 일어나게 하거나 주기적으로 어떤 작업들을 반복해서

2022년 11월 2일
·
0개의 댓글
·
post-thumbnail

GitLab CI/CD를 사용하여 GKE에 어플리케이션 배포

GitLab은 GitLab Runner라는 것을 작동하여 CI/CD 파이프라인을 구현할 수 있습니다. Runner에도 여러 버전이 있지만 default로 모든 프로젝트를 지원하는 Shared Runner를 사용해 GKE에 application 배포해볼 것이다.비공개 G

2022년 10월 24일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용한 S3 to BigQuery 파이프라인 구축

일회성 마이그레이션이나 멀티 클라우드 환경을 쓰고 있지 않는 이상 클라우드간 네트워크 송신 비용이 나가기 때문에 이런 케이스가 많이 있는 편은 아니다.아래와 같은 csv파일에서 각 user_id에 대해 전송된 total amount를 계산해볼 것이다. user_id가

2022년 10월 21일
·
0개의 댓글
·
post-thumbnail

Kubernetes Multi-Tier Architecture

나는 GCP에서 GKE를 구성하여 앱을 배포해볼 것이다.(여기서 쓰이는 yaml파일들은 특정 클라우드 환경에 종속되지 않기 때문에 편한 환경에서 진행해보면 된다.)간단하게 웹페이지 방문 횟수가 Count되어 뜨는 app을 배포할 것이고 DB는 redis를 사용할 것이다

2022년 10월 15일
·
0개의 댓글
·
post-thumbnail

Kubernetes Kafka 세팅 및 Confluent Kafka 사용해보기

GCP에서 GKE를 구성하여 거기에서 카프카를 세팅해볼 것이다.(여기서 쓰이는 yaml파일들은 특정 클라우드 환경에 종속되지 않기 때문에 편한 환경에서 진행해보면 된다.)현재 진행하려 하는 것은 굳이 자동확장까지 할 필요는 없으므로 Standard를 선택한다.여기서 이

2022년 10월 11일
·
0개의 댓글
·
post-thumbnail

GCP와 AWS 차이

당연히 무수히 많은 차이점이 있을테지만, 그냥 공부하면서 알게된 것들을 정리한 것이고 틀린 내용이 있을 수도 있습니다.'단순히 AWS에서의 오브젝트 스토리지는 S3이고, GCP에서의 오브젝트 스토리지는 Cloud Storage다.'와 같이 비교한 글이 아닙니다.GCP의

2022년 10월 7일
·
0개의 댓글
·
post-thumbnail

Cloud IAM

AWS 혹은 타 클라우드를 조금이라도 공부해봤다면 알 수 있겠지만 IAM은 구글 클라우드 리소스에 접근할 수 있는 엑세스와 ID 권한을 부여해주는 서비스이다.기본 역할프로젝트에 줄 수 있는 역할 → 소유자, 편집자, 뷰어, 결제 관리자(결제 관리) 사전 정의된 역

2022년 10월 6일
·
0개의 댓글
·
post-thumbnail

Cloud Run을 사용한 Pub/Sub to BigQuery 파이프라인 구축

완전 관리형 서버리스 플랫폼에서 원하는 언어(Go, Python, 자바, Node.js, .NET)를 사용하여 확장 가능하고 컨테이너화된 앱을 빌드하고 배포할 수 있는 제품이다.즉, 도커같은 컨테이너만 준비해둔다면 매우 쉽게 해당 어플리케이션을 배포할 수 있는 것이다.

2022년 10월 4일
·
0개의 댓글
·
post-thumbnail

Dataflow 템플릿 커스텀해보기

빅쿼리 데이터 세트 생성timestamp, INT/FLOAT 유형의 컬럼, STRING 유형의 컬럼을 가지는 테이블 생성Dataflow가 동작하는 스테이지의 파일을 저장할 Cloud Storage 버킷 생성ps_to_bq.py실행콘솔에서 Pub/Sub 주제에 직접 메시

2022년 9월 29일
·
0개의 댓글
·
post-thumbnail

BigQuery 예약

먼저 예약을 말하기 전에 슬롯이라는 개념부터 알아야 한다.슬롯은 SQL 쿼리를 실행하기 위해 BigQuery에 사용되는 가상 CPU.예약은 바로 빅쿼리를 쓸 때 이 슬롯 용량을 구매해서 쓰는 것을 말한다.쿼리는 해당 용량 범위 내에서 실행되며, 일반적으로 슬롯을 더 많

2022년 9월 28일
·
0개의 댓글
·
post-thumbnail

Datastream을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

Datastream은 사용이 간편한 서버리스 CDC(변경 데이터 캡처) 및 복제 서비스.지연 시간을 최소화하면서 이기종 데이터베이스와 애플리케이션에서 데이터를 안정적으로 동기화할 수 있다.Datastream은 Oracle 및 MySQL,PostgreSQL 데이터베이스에

2022년 9월 27일
·
0개의 댓글
·
post-thumbnail

Twitter API를 사용한 스트리밍 파이프라인 구축

우선 Twitter API를 통해 ACCESS 및 Bearer Token 등을 받아온 상태여야 한다.이 키가 내 트위터 계정에 대한 정보를 잘 받아오는 지 확인하려면 아래 명령어를 실행시켜보면 된다.잘 받아오는 것 확인.그리고 GCP 콘솔에서 아래 리소스들을 생성해준다

2022년 9월 26일
·
0개의 댓글
·
post-thumbnail

Debezium을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

MySQL로 생성해주고 외부에서 접속을 해주기 위해 접속을 승인할 네트워크 대역을 지정해준다.해당 ip는 내 ip를 확인하여 지정해준 것이다.아래 명령어로 Cloud SQL 접속workbench와 같은 툴을 사용해도 되지만 Debezium 서버도 만들어야 하므로 Ubu

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

Cloud Scheduler를 사용한 Pub/Sub to BigQuery 스트리밍 파이프라인 구축

Dataflow의 Pub/Sub Topic to BigQuery 템플릿을 사용해 스트리밍 파이프라인을 구축할 것이다.Pub/Sub으로 메시지를 게시하는 것은 우선 Cloud Scheduler를 사용하였다.Pub/Sub 주제를 하나 기본 구독을 하나 추가해서 만들어준다.

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

Cloud DLP와 Dataflow를 사용한 데이터 마스킹

Cloud DLP는 민감한 정보가 포함된 것으로 의심되는 모든 데이터에 대해 검사 및 익명화를 제공하는 Google Cloud 도구Cloud DLP는 InfoType을 사용하여 문서 내에서 발견될 수 있는 민감한 데이터를 인식한다. InfoType은 특정 유형의 데이터

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

Dataflow(Apache Beam) 간단 문법

Dataflow는 Apache Beam을 기반으로 한다.Python 말고 다른 언어(Java, Go)를 알고 싶으면 Apache Beam 프로그래밍 가이드 -> 참고아파치 빔을 기반으로 하기 때문에 import 역시 'apache_beam'을 import에서 사용한다.

2022년 9월 20일
·
0개의 댓글
·
post-thumbnail

Kafka Connect

Kafka Connect는 Kafka에서 공식적으로 제공하는 컴포넌트이고,반복적인 데이터 파이프라인을 효과적으로 배포하고 관리할 수 있다.Kafka는 Connect와 Connector로 이루어져 있다.Connect는 Connector를 동작하도록 실행해주는 프로세스파이

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용한 Kafka to BigQuery 스트리밍 파이프라인 구축

우분투 VM 하나 생성 후 아래 명령어 차례로 입력Apache Kafka 다운로드kafka와 zookeeper를 systemctl 명령을 사용하여 시작/중지하도록 설정zookeeper아래의 내용 추가kafka아래의 내용 추가새로운 변경사항을 적용하기 위해 systemd

2022년 9월 16일
·
0개의 댓글
·