현업에서 장애가 발생했던 상황을 간단히 공유하려고 한다.시리즈로 계획중이나.. 그렇게 많이 발생하지는 않는 환경이라 몇 편이 될지..개발을 잘 해서가 아니라 그 정도 트래픽이 안나온다OpenSearch의 샤드 배치가 안됐다. 사실 주니어 개발자였고, ES 관련된 부분은
저번에 Great Expectations의 기초적인 요소들에 대해 학습을 했다.해당 내용을 실제 코드로 옮겨보고자 한다.환경은 모두가 다를 수 있고, 이렇게 되는구나를 느끼면 될 것 같다.필자는 Jupyter Notebook, pyspark, great expectat
Data Quality 관련 도구에는 다양한 것들이 있다. 그 중에서도, 가장 큰 커뮤니티를 가진 도구인 Great Expectations에 대해 알아보겠다. 공식 깃허브, 대략 10.9k star면 훌륭한 것 같다. gx-core와 gx cloud가 존재한다. g
데이터 품질Data를 대시보드 등을 구성하고 의사결정에 사용하는데 데이터가 잘못됐다면?Data Quality의 이슈로 인해 ML/DL 모델 학습에 문제가 생긴다면?이런 이슈를 Data Quality Management를 통해 방지하고자 함정확성 (Accuracy)데이터
Compact and Aligned Text API\_cat/health클러스터의 전반적인 상태확인 API상태 종류green : 프라이머리, 레플리캬 사드 모두 정상적으로 배치yellow : 프라이머리 정상, 레플리카 비정상 -> 검색 성능 악영향red : 프라이머리와
문서를 분석하고 저장하는 과정인덱스 존재 여부 판단 (없으면 생성)매핑 정보 존재 여부 판단 (없으면 동적매핑)매핑 올바른지 판단(type등 문제 있을경우 에러 발생)inverted index 생성프라이머리 샤드에 저장레플리카 샤드에 복사색인 성능을 위해서는 클러스터로
lucene 기반 오픈소스 검색 엔진(json 기반 문서 저장, 검색 및 분석)near real time 검색클러스터 구성한 대 이상의 노드로 클러스터 구성 - 부하 분산, 장애 대응동적 스키마 생성 - 입력 데이터에 대해 스키마 생성해 줌정적 스키마도 지정 가능Res

CS의 경우에는 꾸준히 하지 않으면 완전히는 아니어도 좀 기억이 안나고 하는 부분이 있어서웬만하면 꾸준히 Remind 하는것이 중요하다고 생각하는데네트워크를 어떻게 할까, 어떤 서적을 살까 하다가추석에 진행한 인프런 할인에서 강의를 사서 들어보았다.전반적으로 네트워크
오늘은 인프콘 2024 영상을 보다가 토비님의 클린 스프링 영상을 봤다.영상에서의 핵심은 결국였던 것 같다. 사실 회사에서의 업무 자체도 클린 코드랑 거리가 멀기도 하고, 그 가치를 알아주는 사람이 많이 없어서여러모로 현타를 느끼고 있기는 하다.그래도 그 가치를 나 혼

한 문단에 한 주제if, for 등 논리 구조가 들어갈 경우 여러 주제가 포함될 확률이 높고, test를 읽는 사람이 자연스럽게 읽기 힘듦(생각을 하면서 읽어야 됨)테스트가 @DisplayName에서 한 문장으로 설명될 수 있는가?완벽하게 제어하기제어할 수 없는 변수(
CQRS - 명령과 쿼리의 책임 분리 (Command and Query Responsibility Segregation) 데이터를 데이타베이스에 저장하는 일반적 시스템은 데이터에 대한 작업을 두 유형으로 나눔 명령 -> DB의 데이터를 변경시킴(추가, 수정 및 삭제)