[PostgreSQL] pg_rewind 기능을 사용해보자 (테스트 시나리오 작성 및 정리)

Ja L·2024년 6월 4일
0

[PostgreSQL] Operation

목록 보기
36/39
post-thumbnail

pg_rewind를 수행하면서 여러가지 안되는 경우가 꽤 있어, 하루 정도 테스트해보고 결과를 기록합니다. 추가적으로 더 테스트해볼 여지가 있으며 여유가 있다면 테스트 케이스를 만들어서 공부해보도록 하겠습니다. 엑셀에 표로 정리한 후 마크다운 형식으로 다시 게시합니다.



과정primarysecondary비고
primary 기본 설정listen_addresses = '*'
archive_mode = on
archive_command = 'test ! -f /archive/%f && cp %p /archive/%f'
logging_collector = on
log_filename = 'postgresql-%Y-%m-%d.log'

wal_level = replica
synchronous_commit = local

wal_keep_size = 32
synchronous_standby_names = '*'
promote_trigger_file = '/home/agensql/data/trigger.signal'
hot_standby = on
primary 기본 설정host all all 0.0.0.0/0 trust
host replication repluser 0.0.0.0/0 trust
primary 기동ag_ctl start
repluser 생성 및 권한 부여create user repluser with replication password '1234' login;
grant all privileges on database agensdb to repluser;
Replication 초기 구성pg_basebackup -h 192.168.54.184 -D $PGDATA -U repluser -p 5333 -v -P -R --wal-method=stream
ag_ctl start
recovery 모드 확인select pg_is_in_recovery();
wal_reciever 확인select * from pg_stat_replication;
Primary 장애 상황ag_ctl stoppostgres=# select * from pg_stat_replication;
pid | usesysid | usename | application_name | client_addr | client_hostname | clien
t_port | backend_start | backend_xmin | state | sent_lsn | write_lsn
| flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state
| reply_time
--------+----------+----------+------------------+---------------+-----------------+------
-------+-------------------------------+--------------+-----------+-----------+-----------
+-----------+------------+-----------+-----------+------------+---------------+-----------
-+-------------------------------
382500 | 16384 | repluser | walreceiver | 192.168.54.83 | |
35792 | 2024-06-04 08:44:55.378618+09 | | streaming | 0/3000060 | 0/3000060
| 0/3000060 | 0/3000060 | | | | 1 | sync
| 2024-06-04 08:45:35.489058+09
(1 row)


postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
t
(1 row)
Secondary Promote[방법 2 가지]
1. pg_ctl promote -D $PGDATA
2. vi $PGDATA/postgresql.conf
promote_trigger_file = '/home/agens/data/trigger.signal'
pg_ctl reload / select pg_reload_conf();
touch /home/agens/data/trigger.signal
[agens@bitnine data]$ pg_ctl promote -D $PGDATA
waiting for server to promote.... done
server promoted
DDL 발생create table test(a int);
insert into test select * from generate_series(1,1000);

과정Single DB비고
설정 추가vi postgresql.conf
wal_log_hints = on
vi postgresql.conf
wal_log_hints = on
vi postgresql.conf
재기동 및 설정 등록ag_ctl start
ag_ctl stop
pg_ctl reload
pg_rewind(sync)pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P[agens@bitnine data]$ pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P
pg_rewind: connected to server
pg_rewind: servers diverged at WAL location 0/30000D8 on timeline 1
pg_rewind: rewinding from last common checkpoint at 0/3000060 on timeline 1
pg_rewind: reading source file list
pg_rewind: reading target file list
pg_rewind: reading WAL in target
pg_rewind: need to copy 86 MB (total source directory size is 124 MB)
88135/88135 kB (100%) copied
pg_rewind: creating backup label and updating control file
pg_rewind: syncing target data directory
pg_rewind: Done!
rm $PGDATA/postgresql.auto.conf
설정 추가vi postgresql.conf
primary_conninfo='user=repluser password=1234 host=192.168.54.83 port=5333'
standby.signal 추가touch $PGDATA/standby.signal[agens@bitnine ~]$ pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P
pg_rewind: connected to server
pg_rewind: servers diverged at WAL location 0/50000A0 on timeline 1
pg_rewind: rewinding from last common checkpoint at 0/5000028 on timeline 1
pg_rewind: reading source file list
pg_rewind: reading target file list
pg_rewind: reading WAL in target
pg_rewind: need to copy 85 MB (total source directory size is 124 MB)
87921/87921 kB (100%) copied
pg_rewind: creating backup label and updating control file
pg_rewind: syncing target data directory
pg_rewind: Done!
재기동ag_ctl start

주의해야할 내용

현재 2번 노드가 Primary이고 1번 노드에서 pg_rewind를 하는 과정입니다.
이 때 2번 노드는 Old Primary였던 1번 노드에서 basebackup으로 만든 후 promote한 DB이기 때문에 postgresql.auto.conf 파일이 존재합니다.

pg_rewind는 Primary서버와 Sync를 맞추는 행위이므로 아래 사진과 같이 184번을 host로 설정한 파일까지 복사하기 때문에 1번 노드를 다시 기동할 경우 Replication이 붙기보다 184번(노드 1)이 스스로에게 복제하고 리시브를 하는 상태가 됩니다. 따라서 1번 노드에서 pg_rewind 후 postgresql.auto.conf 파일이 있다면 삭제하는 과정이 필요합니다.

postgresql.conf 파일에 primary_conninfo 에 제대로 값을 설정했다고 하더라도 postgresql.auto.conf 파일을 우선순위로 읽기 때문입니다.

rm $PGDATA/postgresql.auto.conf
primary_conninfo='user=repluser password=1234 host=192.168.54.83 port=5333'

찾아보니 postgresql pg_rewind 공식 문서에 다음과 같은 옵션도 있네요!

옵션을 사용하면 따로 postgresql.auto.conf 파일을 삭제하고 standby.signal 파일을 생성하는 과정을 스킵할 수 있습니다.


과정new_secondarynew_primary비고
recovery 모드 확인select pg_is_in_recovery();postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
t
(1 row)
wal_reciever 확인select * from pg_stat_replication;postgres=# select * from pg_stat_replication;

pg_rewind에 대해 더 공유해주실만한 내용이 있거나 궁금한 내용이 있다면 댓글 달아주시면 감사하겠습니다 :)
profile
DB Engineer

2개의 댓글

comment-user-thumbnail
2024년 7월 8일

잘보고갑니다:)

1개의 답글

관련 채용 정보