Reed-Solomon 이란?

croc100·2024년 10월 6일

server engineer

목록 보기

2/6

들어가며

해당 글은 전공자 및 IT업계 중급자 이상을 위해 작성된 글 입니다
비 전공자가 이해하기 쉽지 않으니, 비 전공자를 위해 작성된 다른 글 찾아가십쇼
음 그냥 봐주세요요. 네 봐달라구요...
멀리 안나갑니다 Yeee

Reed Solomon의 정의?

리드 솔로몬 코드는 블록 코드(block code)의 일종으로, 데이터 블록을 다항식(polynomial) 형태로 표현하고, 이러한 다항식을 통해 오류를 탐지하고 수정하는 방식이다

조금 더 정확히는, BCH 코드의 특수한 케이스로 [심볼 단위]로 동작하는 버전이라고 볼 수 있다

즉 [비트 하나하나]가 아닌 [심볼 한 묶음] 단위로 오류를 잡아낸다는 점이 핵심이다

여기서 잠깐.

'그래서 도대체 깨진 데이터를 어떻게 복원한다는것인가?' 라고 생각하는 당신을 위해 작성한다

핵심 직관은 [다항식 보간(Polynomial Interpolation)]에 있다.
중학교 수학에서, 서로 다른 두 점이 주어지면 그 두 점을 지나는 1차 다항식(직선)은 
유일하게 결정된다는것을 배웠다
같은 원리로, 서로 다른 k개의 점이 주어지면 그 점들을 모두 지나는 k-1차 다항식은 
유일하게 결정된다

리드 솔로몬은 이 성질을 그대로 사용한다
 1. k개의 데이터 심볼로 k-1차 다항식 P(x)를 만든다
 2. P(x) 위의 n개의 점을 뽑아서 전송한다 (n > k 이므로, 여분의 점이 생긴다)
 3. 받는 쪽에서는 n개의 점 중 일부가 망가져도, 멀쩡한 점이 k개 이상만 남아있으면
    그 점들을 지나는 다항식을 유일하게 복원할 수 있다 -> 원본 데이터 복원

즉 [원본을 직접 보호하는것]이 아닌, 
[원본이 만들어내는 다항식을 보호하는것]이 RS의 본질이다

1. 리드 솔로몬 코드의 개념

리드 솔로몬 코드는 일반적으로 $(n, k)$ 형식으로 표현되며, 이때 n은 인코딩된 코드 워드(codeword)의 길이, k는 원본 메시지의 길이이다. 따라서, 리드 솔로몬 코드는 n-k개의 패리티(parity) 심볼을 추가하여 원본 데이터를 보호한다.

리드 솔로몬의 기본 개념에 대해 알아보자.

메시지 다항식: 원본 데이터는 다항식 형태로 변환되며, 각 데이터 심볼은 다항식의 계수(coefficient)로 표현된다.
부호화: 원본 다항식에 패리티 심볼을 추가하여 부호화된 다항식을 생성한다. 이 다항식은 특정 에러 수정 능력을 갖게 된다.
디코딩: 수신된 데이터 블록이 에러를 포함하고 있더라도, 리드 솔로몬 코드의 패리티 정보를 이용해 에러를 탐지하고 수정할 수 있다.

리드 솔로몬 코드는

심볼 단위로 오류를 처리하며
2t개의 에러 심볼을 감지하고,
t개의 에러 심볼을 수정할 수 있는 능력을 가진다.
여기서 t = (n-k) / 2 이다. 즉 [패리티 심볼 개수의 절반까지 수정 가능]한 것이다

예를 들어, $(255, 223)$ 리드 솔로몬 코드는 32개의 패리티 심볼을 가지며,
최대 16개의 에러 심볼을 수정할 수 있다.

이 (255, 223) 코드는 실제로 NASA의 Voyager 탐사선 통신에 사용된 RS 코드이다

우주에서 지구로 데이터를 쏠 때, 노이즈가 끼더라도 16심볼 이내라면 복원이 가능한것

2. Reed-Solomon 의 원리

리드 솔로몬 코드는 유한체(Galois Field, GF)에서 정의된 다항식을 이용하여 에러를 탐지하고 수정한다. 이를 이해하기 위해서는 수학적인 이론들이 필요하다.(대부분 전공자 1~2학년 정도 수준이면 알 수 있을 것이다)

유한체(Galois Field): 유한한 개수의 원소를 가지는 체(Field)로, 일반적으로 $GF(2^m)$ 형태로 표현 가능하다. 리드 솔로몬 코드는 심볼 단위로 데이터 블록을 처리하며, 각 심볼은 유한체의 원소로 표현할 수 있다
다항식 표현: 리드 솔로몬 코드에서는 데이터를 다항식으로 변환하여 연산을 수행한다. 예를 들어, 데이터 D = [d_0, d_1, ..., d_{k-1}]는 다음과 같은 다항식으로 표현할 수 있다 :

$$ P(x) = d0 + d_1x + d_2x^2 + ... + d{k-1}x^{k-1} $$
패리티 생성: 메시지 다항식에 패리티 심볼을 추가하여 오류 탐지 및 수정을 위한 부호화 다항식을 생성하는데, 이때 패리티 심볼은 P(x)의 특정 점에서의 값으로 계산하는 것이다.
에러 위치 및 크기: 수신된 데이터가 손상되었을 때, 리드 솔로몬 코드는 에러 위치와 에러 크기를 결정하기 위해 신드롬 다항식(Syndrome Polynomial)의 나머지 연산을 이용한다.

3. 리드 솔로몬 코드의 주요 활용 사례

1) 디지털 통신

리드 솔로몬 코드는 디지털 신호의 무결성을 보장하기 위해 통신 시스템에서 널리 사용된다. 예를 들어, 위성 통신, 무선 통신, 광섬유 통신 등에서는 데이터가 손상되기 쉬운데, 리드 솔로몬 코드는 패리티 심볼을 추가하여 오류를 탐지하고 수정함으로써 이러한 문제를 해결한다.

2) 데이터 저장 장치

CD, DVD와 같은 광학 디스크에서는 데이터를 안전하게 읽고 쓰기 위해 리드 솔로몬 코드를 사용한다.
이러한 저장 매체에서 발생할 수 있는 물리적인 손상(긁힘이나 먼지로 인한 데이터 손실)을 리드 솔로몬 코드를 통해 보완할 수 있다

정확히는 CD에서는 RS 단독이 아닌, [CIRC(Cross-Interleaved Reed-Solomon Code)]라는 [RS + 인터리빙] 조합을 사용한다

인터리빙(Interleaving)은 데이터를 분산 배치하여 [연속된 영역의 손상(=burst error, 대표적으로 긁힘)]에 강하게 만들어주는 기법이다

CD를 손톱으로 살짝 긁어도 음악이 잘 재생되는 이유의 본체가 이것이다

3) QR 코드 및 바코드

QR 코드와 바코드는 데이터를 저장하고 인식할 때 오류가 발생할 수 있다
리드 솔로몬 코드는 이러한 오류를 수정하여 데이터를 정확하게 읽을 수 있도록 해주는 것이다.
QR 코드의 경우, 손상된 영역이 있어도 오류 정정을 통해 전체 데이터를 복구 가능하다

QR 코드는 정정 수준을 L(약 7%) / M(15%) / Q(25%) / H(30%) 의 네 단계로 선택할 수 있다

가장 높은 H 레벨에서는 코드 면적의 약 30%가 가려지거나 손상되어도 원본 데이터를 복원할 수 있다

광고에서 QR 한가운데 로고를 박아넣어도 멀쩡히 인식되는 이유가 이것이다 (보통 H 레벨로 출력)

QR코드가 포함된 사진을 SNS나 커뮤니티에 올릴 때에, 
'어느 부분을 가려야 안전한가?' 라는 의문이 생길 수 있다
정답은 '부분 모자이크는 안전하지 않다. 차라리 QR 자체를 통째로 가려라' 이다
H 레벨 기준 30%까지 복원되니까, 부분만 가린것은 사실상 무의미한 짓일 가능성이 높다

4) RAID 시스템

RAID(Redundant Array of Independent Disks) 시스템에서도 리드 솔로몬 코드를 사용한다.
RAID 시스템은 데이터 손실을 방지하기 위해 여러 개의 디스크에 데이터를 중복 저장하는데,
리드 솔로몬 코드는 이 중복 데이터를 효과적으로 관리하고 복구하는 데 사용한다고 생각하자
(자세한건 이전 글 RAID 끝판정리 (JBOD) 참고)

일반적으로 RAID 6 에서 사용한다

RAID 6에서 RS를 쓰는 이유는, XOR 연산만으로는 [독립적인 패리티 1개]까지밖에 만들 수 없기 때문이다

RAID 5는 패리티 디스크가 1개니까 XOR로 충분하지만, RAID 6는 패리티 디스크가 2개가 필요하다

[서로 독립적인 두 번째 패리티(보통 Q 라고 부른다)]를 만들려면, XOR보다 강력한 연산이 필요한 것이고, 그 자리에 RS의 생성다항식 기반 연산이 들어가는것

4. 리드 솔로몬 코드의 구현

Reed Solomon은 여러가지 백엔드 언어에서 구현이 가능한데,
아래의 코드는 Python에서 Reed Solomon 코드 구현 예제이다 :

import reedsolo

# 리드 솔로몬 인코딩 예제
data = b"Hello, Reed Solomon!"
rs = reedsolo.RSCodec(10)  # 10개의 패리티 심볼 추가
encoded = rs.encode(data)
print(f"Encoded: {encoded}")

# 오류가 있는 데이터 복구 예제
corrupted = bytearray(encoded)
corrupted[5] = 0x00  # 데이터 일부 손상
corrupted[10] = 0x00  # 데이터 일부 손상
print(f"Corrupted: {corrupted}")

# 오류 수정
decoded = rs.decode(corrupted)
print(f"Decoded: {decoded}")

위 예제는 reedsolo 라이브러리를 사용하여 리드 솔로몬 코드를 간단히 구현한 것이다.(참고 용으로만 생각해달라..)
원본 데이터에 10개의 패리티 심볼을 추가하여 인코딩하고, 일부 데이터를 손상시킨 후 오류를 수정하는 예제이다(동작 방식에 대한 것이니, 저 위의 예제가 정답이라고 생각하면 안된다)

5. 요약

리드 솔로몬 코드는 데이터 전송 및 저장에 사용되는 오류 정정 코드로,
다양한 분야에서 데이터 무결성을 보장하기 위해 널리 사용된다.
리드 솔로몬 코드는 수학적 원리로 높은 수준의 오류 수정 능력이 있는 하나의 방식이다

실무에서도 엄청나게 많이 사용된다
흔한 일은 아니지만, SE 단에서 깨진 파티션을 복구할때 사용한 경험이 있다

추가 사항

+ 여기서부턴 추가적으로 알면 좋은 개념
- 뇌가 아프기 시작할수도 있음.

1. 리드 솔로몬 코드의 구현

리드 솔로몬 코드를 구현할 때 주로 고려해야 할 부분에 대하여 :

유한체(Galois Field) 연산 구현
인코딩 및 디코딩 알고리즘 설계
에러 탐지 및 수정 알고리즘 구현

1.1 유한체(Galois Field) 연산 구현

리드 솔로몬 코드는 유한체(GF)에서 정의된 수학 연산을 사용한다.
유한체는 리드 솔로몬 코드에서 각 심볼(symbol)을 정의하는 기초 단위로 사용되는데,
일반적으로 $GF(2^m)$ 형태의 유한체를 사용하며, m은 각 심볼의 비트 수를 나타낸다.

유한체에서의 덧셈, 곱셈, 나눗셈 연산은 일반적인 실수 연산과는 다르다.
따라서, 리드 솔로몬 코드를 구현할 때는 유한체 연산을 정확하게 구현하는 것이 매우 중요하다.

유한체 연산 :

로그 테이블(Log Table): 유한체의 각 원소에 대한 로그 값을 저장하여 곱셈 및 나눗셈 연산을 효율적으로 수행한다
반로그 테이블(Anti-Log Table): 로그 테이블의 역표로, 지수 연산을 빠르게 수행하는 데 사용된다

Python을 사용하여 간단한 유한체 연산을 정의해보면 :

def gf_add(x, y):
    return x ^ y  # 유한체 덧셈은 XOR 연산

def gf_mul(x, y, log_table, anti_log_table):
    # x, y가 0인 경우 예외 처리
    if x == 0 or y == 0:
        return 0
    # x와 y의 로그를 더하고 반로그로 변환하여 결과 반환
    return anti_log_table[(log_table[x] + log_table[y]) % (len(anti_log_table) - 1)]

def gf_div(x, y, log_table, anti_log_table):
    # x 또는 y가 0인 경우 예외 처리
    if y == 0:
        raise ZeroDivisionError("유한체에서 0으로 나눌 수 없습니다.")
    if x == 0:
        return 0
    # x와 y의 로그를 빼고 반로그로 변환하여 결과 반환
    return anti_log_table[(log_table[x] - log_table[y]) % (len(anti_log_table) - 1)]

1.2 인코딩 알고리즘 설계

리드 솔로몬 인코딩은 원본 데이터 다항식에 n - k개의 패리티 심볼을 추가하여
부호화된 다항식을 생성하는 과정이다.

원본 데이터 블록을 다항식으로 표현.
생성 다항식(generator polynomial)을 이용하여 패리티 심볼을 계산.
패리티 심볼을 원본 데이터에 추가하여 인코딩된 데이터 생성.

def rs_encode(message, generator, log_table, anti_log_table):
    """리드 솔로몬 인코딩"""
    message = list(message)
    for i in range(len(message) - len(generator)):
        coef = message[i]
        if coef != 0:
            for j in range(len(generator)):
                # gf_mul 호출 시 log/anti_log 테이블을 같이 전달해야 한다
                message[i + j] ^= gf_mul(generator[j], coef, log_table, anti_log_table)
    return message

1.3 디코딩 알고리즘 설계

리드 솔로몬 디코딩은 수신된 데이터가 손상된 경우 이를 복구하는 과정이다.
디코딩 알고리즘에 대해 :

신드롬 다항식(Syndrome Polynomial) 계산: 수신된 데이터에 에러가 있는지 확인하고, 에러 위치 및 크기를 결정하는데 필요한 다항식을 생성.
에러 위치 다항식(Error Locator Polynomial) 및 에러 크기 다항식(Error Magnitude Polynomial) 계산: 에러 위치와 크기를 결정하기 위해 사용하는 다항식을 계산.
에러 수정: 계산된 에러 위치 및 크기를 이용하여 수신된 데이터를 복구.

간단한 디코딩 과정의 의사코드(pseudocode)는 다음과 같다 :

def rs_decode(received, n, k, alpha, log_table, anti_log_table):
    """
    리드 솔로몬 디코딩 - 의사코드(pseudocode)
    - alpha: 유한체의 원시원(primitive element)
    - 실제 동작은 reedsolo 등 검증된 라이브러리 구현을 참고할 것
    """
    # 1단계: 신드롬 다항식 계산
    # 수신 다항식을 alpha^1, alpha^2, ..., alpha^(n-k) 에서 평가한 값
    syndromes = [0] * (n - k)
    for i in range(1, n - k + 1):
        s = 0
        for j in range(len(received)):
            # GF 상의 곱셈/덧셈을 사용해야 한다 (일반 *, + 가 아님에 주의)
            term = gf_mul(
                received[j],
                gf_pow(alpha, i * j, log_table, anti_log_table),
                log_table, anti_log_table
            )
            s ^= term  # GF 덧셈 = XOR
        syndromes[i - 1] = s

    # 2단계: 에러 위치 다항식 계산 (Berlekamp-Massey 알고리즘 등)
    # 3단계: 에러 위치 찾기 (Chien Search)
    # 4단계: 에러 크기 계산 (Forney Algorithm)
    # 5단계: 수신 데이터에서 에러 보정
    pass

위 코드는 [동작 흐름]을 보이기 위한 의사코드이다. 그대로 돌아가지 않으니, 실제 구현은 reedsolo 같은 검증된 라이브러리를 참고하자

Berlekamp-Massey, Chien Search, Forney Algorithm 각각이 별도 글로 다뤄야 할 분량이다

2. 리드 솔로몬 코드의 최적화

리드 솔로몬 코드를 최적화할 때 고려해야 할 요소에 대하여? :

2.1 시간 복잡도 최적화

리드 솔로몬 코드의 인코딩 및 디코딩은 기본적으로 다항식 연산으로, 다항식 곱셈 및 나눗셈의 시간 복잡도에 의해 성능이 좌우된다.(매우매우 중요한 부분이다)

이러한 연산 최적화를 위한 여러가지 기법이 있는데, :

신드롬 다항식의 빠른 계산: 신드롬 다항식(Syndrome Polynomial)을 계산할 때 FFT(Fast Fourier Transform)와 같은 빠른 다항식 연산 알고리즘을 활용하여 성능을 높일 수 있다.
유한체 연산의 테이블화: 로그 테이블 및 반로그 테이블을 미리 계산하여 유한체 곱셈 및 나눗셈을 O(1) 시간 복잡도로 수행할 수 있다.

2.2 메모리 사용 최적화

리드 솔로몬 코드의 메모리 사용량을 줄이기 위해서는 다음의 접근 방식을 고려할 수 있다 :

C, C++ 를 사용하는것을 권장한다.
너무나 당연한 얘기지만, 해당 두 언어는 메모리 제어 능력이 미친 언어로써, 
코더의 수준에 따라 엄청난 정도의 메모리 사용량을 절약할 수 있다.

더 나아가, [저수준 연산&효율성, 메모리 제약 환경(임베디드 등), 라이브러리&SIMD 지원]등
 Reed-Solomon에 있어 가장 추천하는 언어를 꼽으라고 한다면, 당연히 C++를 추천한다

테이블 크기 줄이기: 유한체 연산을 위한 테이블 크기를 줄이기 위해 필요한 부분만 캐시하거나 압축된 형태로 저장할 수 있다.
다항식 연산의 인플레이스(In-place) 수행: 메모리를 절약하기 위해 다항식 연산을 인플레이스 방식으로 수행하여 중간 계산 결과를 저장하기 위한 추가 메모리 사용을 줄일 수 있다.

2.3 병렬 처리 및 SIMD 최적화

다양한 코어 및 SIMD(Single Instruction Multiple Data) 명령어를 활용하여 병렬 연산을 수행함으로써 성능을 크게 향상시킬 수 있다.
다항식 연산은 독립적인 연산들이 많아 병렬 처리가 용이한 편이며,

특히 병렬화가 가능하다는 점에서 이점이 있다 :

신드롬 다항식 계산의 병렬화: 각 다항식 항의 계산을 독립적으로 수행.
에러 위치 및 크기 계산의 병렬화: 각 에러 위치 및 크기를 독립적으로 추정 가능.

Python의 경우, NumPy와 같은 벡터 연산 라이브러리를 활용하여 병렬 연산을 구현할 수 있다.

그래도 C++ 써라.
서비스 투입 장비에 C++가 아닌, python으로 구현 가능하다고 자신있게 말하면,
눈총을 받을 가능성이 있다

3. 라이브러리

리드 솔로몬 코드를 구현할 때는 직접 구현할 수도 있지만,
이미 존재하는 라이브러리를 활용하면 구현 시간을 절약하고,
최적화된 성능을 얻을 수 있다.(라이브러리 최고다)

reedsolo (Python): Python을 위한 리드 솔로몬 인코딩 및 디코딩 라이브러리로, 유한체 연산과 에러 수정 알고리즘이 내장되어 있어 빠르고 효율적인 구현이 가능.
libfec (C): 리드 솔로몬 코드를 포함한 다양한 에러 정정 코드를 지원하는 C 라이브러리.
OpenFEC (C++): 효율적이고 최적화된 리드 솔로몬 코드 구현을 제공하는 오픈 소스 프로젝트.

이러한 라이브러리를 사용하면 기본적인 리드 솔로몬 구현을 빠르게 테스트하고,
각 라이브러리의 API를 통해 최적화된 성능을 얻을 수 있다

요약

구현하지 말고, 그냥 라이브러리 써라

croc100

DevOps / IaaS, SaaS provider

이전 포스트

RAID 끝판정리 (JBOD)

다음 포스트