예시를 들어보자면,
로봇 협업 학습 (예: 물류창고, 공장 로봇들)
문제: 서로 다른 환경에 있는 로봇들(예: 로봇 팔, 드론 등)이 유사한 작업을 하지만 환경이나 하드웨어가 조금씩 다름.
FRL 활용:
각 로봇은 자기가 있는 현장에서 로컬 강화 학습 수행.
정책만 공유 → 새로운 로봇이 빠르게 적응 가능 (few-shot transfer).
데이터는 유출되지 않으므로 보안 문제 없음. ! ! ! !
federated RL?
= clients가 그들의 locally하게 train된 모델들을 share해서 client가 collaborative하게 학습하는 것이다.
=> privacy up + communication resource down
federated RL과 online RL?
sequential interaction을 통해서 환경에 대해 배우고 + 연합학습 Policy를 배우는.
-> 얘는
federated RL과 offline RL?
=> 각 클라이언트는 환경과 직접 상호작용하지 못함( 다른 조건에서 수집된 데이터만 가지고 있음)
=> 그런데 이 데이터를 공유하지 않고도 전체적으로 가장 좋은 action policy를 어떻게 배울 수 있을까?
Offline RL알고리즘의 예시
CQL , TD3-BC : actor-critic learning approach
= 각 클라이언트에 이미 존재하는 데이터셋만을 활용해서 actor-critic 학습을 수행하는 방식
offline RL을 바로 fedearted learning에 적용했을 때의 문제점
많은 클라이언트들이 각각 작은 데이터셋만 보유하고 있음 -> 클라이언트마다 품질이 제각각인 정책(policy) 집합!이 생긴다.
=> 이런 상태에서, 이런 상태에서, 단순히 FedAvg 같은 일반적인 federated learning을 통해
이 policy들과 critic들을 평균 내듯이 통합하면,안됨.
offline RL을 federated learning에 적용했을 때 고려해야할 점
(i) Ensemble heterogeneity
클라이언트의 데이터셋이 서로 달라서, 만들어진 정책들 또한 성능이 제각각.
단순히 평균X
이 정책 집합이 가진 집단적인 지혜(collective wisdom)를 잘 반영하는 방식이 필요하다.
(ii) Pessimistic value-computation (비관적인 가치 계산)
Offline RL은, 데이터에서 잘 나타나지 않은 행동에 대해
분포 이동(distribution shift)을 피하려고 낮은 가치를 부여하는 pessimistic 접근.
-> 하지만 federated learning에서는 오히려,
이 policy 집합이 제공하는 가장 높은 가치(high-value actions)를
적극적으로 추출하려는 야심 있는 접근이 필요하다.
(iii) Data heterogeneity (데이터 이질성)
다른 federated learning과 마찬가지로,
클라이언트마다 다른 데이터로 여러 번 로컬 학습을 한 뒤 다 합치는 방식은 bias된 모델을 만들 위험이 있다.
-> 따라서, 로컬 정책이 너무 멀리 벗어나지 않도록 규제(regularize)하는 것이 필요하다.
문제 1 : Ensemble Heterogeneity
문제: 클라이언트의 데이터가 제각각이라 학습된 정책의 품질이 서로 다름. 단순 평균(FedAvg)을 하면 전체 성능이 악화될 수 있음.
해결:
→ 각 클라이언트의 정책을 평가하여 가중치를 다르게 주는 방식으로 결합함.
→ 엔트로피 정규화를 통해 과도한 쏠림 없이 ensemble wisdom를 추출.
문제 2 : Pessimistic Value Computation
문제: Offline RL은 훈련 데이터에 적게 나온 행동에 대해 낮은 가치를 부여함. 이로 인해 연합 시 높은 가치의 행동을 놓칠 수 있음.
해결:
→ 낙관적 평가(optimism) 원칙을 도입해, 연합 critic과 로컬 critic이 가장 높은 값을 추출하도록 유도.
→ policy가 적극적으로 high-value 행동을 하도록 훈련
문제 3 : (Data Heterogeneity
문제: 클라이언트마다 데이터 분포가 달라, 연합 전에 local 모델들이 너무 달라질 수 있음.
해결:
→ 클라이언트의 정책을 연합된 정책과 로컬 데이터 기준으로 정규화(regularization)
→ 이는 편향된 학습 경향(drift)을 줄이고 안정성을 향상
문제 4: 낮은 품질 데이터의 영향력 (Irrelevant or Low-Quality Data)
문제: 어떤 클라이언트는 매우 질 낮은 policy을 만들어, 전체 연합 정책에 악영향을 줄 수 있음.
해결:
→ policy의 품질을 추정하여, 품질이 낮은 경우 해당 클라이언트의 영향력을 점차 줄임
→ 즉, 무의미한 데이터는 자연스럽게 영향력이 감소
수식 관련된건 (2)탄에 올리도록 하겠습니다!