LLM 관련한 paper와 여러 게시물을 보는데 "alignment" 라는 단어가 심심찮게 등장한다.
Alignment를 번역기에서는 '정렬', 조정', 정돈'으로 나오는데 도대체... 무슨 말..?
특히 이번에 RLHF 관련된 정보를 찾다가 OpenAI의 "alignment tax" 가 나오면서..
AI 쪽에서 사용하는 Alignment가 도대체 무엇인지 찾아봐야 겠다고 생각했다.
AI alignment
인공지능 분야에서 AI 시스템을 인간이 의도한 목표, 선호도 또는 윤리적 원칙에 맞게 조정하는 것을 목표로 한다. AI 시스템이 의도한 목표를 달성하면 alignment 된 것으로 간주한다.
Misaligned AI (잘못 정렬된 AI) 시스템은 일부 목표를 추구하지만 의도한 목표는 추구하지 않는다.
AI 안전의 하위 분야로, 안전한 AI 시스템을 구축하는 방법을 연구한다.
alignment 연구는 해석 가능성 연구, (적대적) 경고성, 이상 탐지, 보정된 불확실성, 형식 검증, 선호도 학습, 안전에 중요한 공학, 게임 이론, 알고리즘 공정성, 사회 과학 등과 관련이 있다.
아래에 참고한 티스토리에 의하면 Alignment는 AI의 목적함수가 인류의 가치와 일치하도록 하는 연구를 AI alignment라고 이해할 수 있다고 했다.
Algnment는 넓은 의미 그리고 좁은 의미가 있는데,
넓은 의미에서 ambitious alignment는 대규모 스케일에서 자율적으로 행동하더라도 안전하게 작동하자는 AI를 작성하자는 주장이고
좁은 의미의 Alignment (narrowly aligned AI)는 사용자의 장기적인 목표에 대한 이대가 없더라도 즉각적으로 추론된 사용자의 선호도에 따라 작업을 성공적으로 수행할 수 있는 시룡적인 AI이다.
아무튼 이해한바에 따르면 AI에서 나오는 Alignment는 넓게 보면 인류의 가치나 좁게보면 사용자 유저의 목적에 부합하는 ai system으로 조정됐냐 아니냐 인가보다.
[참고문헌]