pg_rewind를 수행하면서 여러가지 안되는 경우가 꽤 있어, 하루 정도 테스트해보고 결과를 기록합니다. 추가적으로 더 테스트해볼 여지가 있으며 여유가 있다면 테스트 케이스를 만들어서 공부해보도록 하겠습니다. 엑셀에 표로 정리한 후 마크다운 형식으로 다시 게시합니다.
과정 | primary | secondary | 비고 |
---|---|---|---|
primary 기본 설정 | listen_addresses = '*' archive_mode = on archive_command = 'test ! -f /archive/%f && cp %p /archive/%f' logging_collector = on log_filename = 'postgresql-%Y-%m-%d.log' wal_level = replica synchronous_commit = local wal_keep_size = 32 synchronous_standby_names = '*' promote_trigger_file = '/home/agensql/data/trigger.signal' hot_standby = on | ||
primary 기본 설정 | host all all 0.0.0.0/0 trust host replication repluser 0.0.0.0/0 trust | ||
primary 기동 | ag_ctl start | ||
repluser 생성 및 권한 부여 | create user repluser with replication password '1234' login; grant all privileges on database agensdb to repluser; | ||
Replication 초기 구성 | pg_basebackup -h 192.168.54.184 -D $PGDATA -U repluser -p 5333 -v -P -R --wal-method=stream | ||
ag_ctl start | |||
recovery 모드 확인 | select pg_is_in_recovery(); | ||
wal_reciever 확인 | select * from pg_stat_replication; | ||
Primary 장애 상황 | ag_ctl stop | postgres=# select * from pg_stat_replication; pid | usesysid | usename | application_name | client_addr | client_hostname | clien t_port | backend_start | backend_xmin | state | sent_lsn | write_lsn | flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state | reply_time --------+----------+----------+------------------+---------------+-----------------+------ -------+-------------------------------+--------------+-----------+-----------+----------- +-----------+------------+-----------+-----------+------------+---------------+----------- -+------------------------------- 382500 | 16384 | repluser | walreceiver | 192.168.54.83 | | 35792 | 2024-06-04 08:44:55.378618+09 | | streaming | 0/3000060 | 0/3000060 | 0/3000060 | 0/3000060 | | | | 1 | sync | 2024-06-04 08:45:35.489058+09 (1 row) postgres=# select pg_is_in_recovery(); pg_is_in_recovery ------------------- t (1 row) | |
Secondary Promote | [방법 2 가지] 1. pg_ctl promote -D $PGDATA 2. vi $PGDATA/postgresql.conf promote_trigger_file = '/home/agens/data/trigger.signal' pg_ctl reload / select pg_reload_conf(); touch /home/agens/data/trigger.signal | [agens@bitnine data]$ pg_ctl promote -D $PGDATA waiting for server to promote.... done server promoted | |
DDL 발생 | create table test(a int); insert into test select * from generate_series(1,1000); |
과정 | Single DB | 비고 | |
---|---|---|---|
설정 추가 | vi postgresql.conf wal_log_hints = on | vi postgresql.conf wal_log_hints = on | vi postgresql.conf |
재기동 및 설정 등록 | ag_ctl start ag_ctl stop | pg_ctl reload | |
pg_rewind(sync) | pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P | [agens@bitnine data]$ pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P pg_rewind: connected to server pg_rewind: servers diverged at WAL location 0/30000D8 on timeline 1 pg_rewind: rewinding from last common checkpoint at 0/3000060 on timeline 1 pg_rewind: reading source file list pg_rewind: reading target file list pg_rewind: reading WAL in target pg_rewind: need to copy 86 MB (total source directory size is 124 MB) 88135/88135 kB (100%) copied pg_rewind: creating backup label and updating control file pg_rewind: syncing target data directory pg_rewind: Done! | |
rm $PGDATA/postgresql.auto.conf | |||
설정 추가 | vi postgresql.conf primary_conninfo='user=repluser password=1234 host=192.168.54.83 port=5333' | ||
standby.signal 추가 | touch $PGDATA/standby.signal | [agens@bitnine ~]$ pg_rewind --source-server='host=192.168.54.83 port=5333 user=agens dbname=postgres' --target-pgdata=$PGDATA -P pg_rewind: connected to server pg_rewind: servers diverged at WAL location 0/50000A0 on timeline 1 pg_rewind: rewinding from last common checkpoint at 0/5000028 on timeline 1 pg_rewind: reading source file list pg_rewind: reading target file list pg_rewind: reading WAL in target pg_rewind: need to copy 85 MB (total source directory size is 124 MB) 87921/87921 kB (100%) copied pg_rewind: creating backup label and updating control file pg_rewind: syncing target data directory pg_rewind: Done! | |
재기동 | ag_ctl start |
✔ 주의해야할 내용
현재 2번 노드가 Primary이고 1번 노드에서 pg_rewind를 하는 과정입니다.
이 때 2번 노드는 Old Primary였던 1번 노드에서 basebackup으로 만든 후 promote한 DB이기 때문에 postgresql.auto.conf 파일이 존재합니다.
pg_rewind는 Primary서버와 Sync를 맞추는 행위이므로 아래 사진과 같이 184번을 host로 설정한 파일까지 복사하기 때문에 1번 노드를 다시 기동할 경우 Replication이 붙기보다 184번(노드 1)이 스스로에게 복제하고 리시브를 하는 상태가 됩니다. 따라서 1번 노드에서 pg_rewind 후 postgresql.auto.conf 파일이 있다면 삭제하는 과정이 필요합니다.
postgresql.conf 파일에 primary_conninfo 에 제대로 값을 설정했다고 하더라도 postgresql.auto.conf 파일을 우선순위로 읽기 때문입니다.
rm $PGDATA/postgresql.auto.conf
primary_conninfo='user=repluser password=1234 host=192.168.54.83 port=5333'
찾아보니 postgresql pg_rewind 공식 문서에 다음과 같은 옵션도 있네요!
옵션을 사용하면 따로 postgresql.auto.conf 파일을 삭제하고 standby.signal 파일을 생성하는 과정을 스킵할 수 있습니다.
과정 | new_secondary | new_primary | 비고 |
---|---|---|---|
recovery 모드 확인 | select pg_is_in_recovery(); | postgres=# select pg_is_in_recovery(); pg_is_in_recovery ------------------- t (1 row) | |
wal_reciever 확인 | select * from pg_stat_replication; | postgres=# select * from pg_stat_replication; |
잘보고갑니다:)