[if(kakao)2022] Batch Performance 극한으로 끌어올리기: 1억건 데이터 처리를 위한 노력

구범모·6일 전

후기

목록 보기

1/1

본 글은 if(kakao)2022 Batch Performance 극한으로 끌어올리기: 1억건 데이터 처리를 위한 노력 발표를 듣고 작성하는 후기 글입니다.

이제 곧 회사에서 Spring Batch 중심으로 돌아가는 프로젝트에 들어갈 예정이다.

그에 따라, Spring Batch의 성능 향상을 위해서 어떤 방법들이 있는지 알아보고자
해당 발표 영상을 보고 요약한다.

특정 시간에 많은 데이터를 일괄 처리할 수 있기 때문에, 서버 개발자들이 자주 이용한다.

다량의 데이터를 처리하기 위해서는, 데이터를 특정 size의 Chunk로 나누어 처리한다.
Chunk Processing은 JpaPagingItemReader, RepositoryItemReader 등으로 pagination을 적용하여 처리한다.
하지만 이런 방식은 사실 대량 데이터 처리에 부족하다.

기존 ItemReader(JpaPagingItemReader, RepositoryItemReader)는 Select 쿼리에 offset절이 들어가고, offset절은 내부적으로 해당 offset부터 읽는 것이 아닌, 기존 데이터들을 훑기는 하기 때문이다.

따라서 특정 key (대표적으로 PK)를 지정하여, where절에서 key값을 이용하여 조회한 후, offset은 고정적으로 0으로 지정하는 방법으로 성능 향상을 기대할 수 있다.

offset을 이용하는 것이 아닌, cursor를 사용하여 데이터가 없을 때 까지 일정 갯수의 데이터를 가져온다.
Chunk processing과의 컨셉도 일치한다.
Cursor를 지원하는 ItemReader는 아래와 같다.
- JpaCursorItemReader : MySQL의 커서 방식이 아닌, 데이터를 모두 서버 메모리에 적재하고 서버에서 cursor를 이용하는 방식이다. → OOM을 유발할 수 있으므로, 사용을 지양한다.
- JdbcCursorItemReader, HibernateCursorItemReader : MySQL의 커서 방식을 이용한다.
  사용에 적합하다.
  - 다만 Native Query를 이용해야 한다.

위와 같이, 모든 데이터들을 Select 해서 groupby, sum을 이용하는 Batch Job이 있다고 가정해 보자. (모든 데이터라는 것에 집중한다.)

그에 따라, 쿼리 실행계획을 개선하여 쿼리 성능을 높이기 위해 GroupBy를 쓰지 않고, 서버단에서 aggregation을 하는 선택을 하셨다고 한다.

서버단에서 aggregation을 하는 것 자체는 문제가 없지만, 데이터의 갯수가 많은 상황에서 서버에서 aggregation을 하기에는 메모리가 부족하다.

모든 데이터를 Chunk로 쪼개서, 각 Chunk의 레코별로 sum연산을 Redis에서 수행한다.
이후 모든 sum연산을 다시 합쳐서, 결과적으로 모든 Chunk들의 합(1000만개 데이터의 합)을 db에 영속화시키는 방법으로 Data aggregation을 해결한다.
(다만 sum 데이터가 왜 50만개 쌓이는건진 모르겠다. 각 Chunk별로 하나씩 sum을 관리한다고 치면, 50만개가 아닌 1만개일텐데..? 1000만(총 데이터) / 1000(Chunk 개수) )

1개의 Chunk당 레코드 갯수만큼 sum연산을 하는 것이 아닌, 1개의 Chunk당 한번만의 sum 연산을 요청하도록 Redis pipeline을 실행하도록 한다.
다만, Spring data redis에서는 위 기능을 지원하지 않기 때문에, 별도의 라이브러리를 직접 개발하셨다고 한다. (역시 카카오 ..)

이제 Reader 성능 향상은 완료하였으므로, Writer의 성능을 향상시킨다.
위의 두가지 방법으로 성능 향상을 할 것이다.
또한 다음과 같은 이유들로, JPA를 사용하지 않았다.
Batch 환경에서는 JPA가 맞지 않는다.
1. Batch Job에서 대량의 데이터를 처리할 때, JPA의 영속성 컨텍스트가 개입되게 되면 Dirty Checking이 일어나고, 영속성 컨텍스트에서 엔티티들을 관리하게 되어 서버에 큰 부담이 가게 된다.
  1. 따라서 JPA를 쓰지 않거나, Reader에서 DTO Projection등을 통해 영속성 컨텍스트를 거치지 않게 한다.
2. JPA에서는 Batch Insert를 지원하지 않는다.
  1. 정확히는, 지원 자체는 하지만, ID 생성 전략을 IDENTITY로 하게 되면, Batch Insert를 진행하지 않는다고 한다.(참고 : https://cheese10yun.github.io/jpa-batch-insert/)