2023-12-02(Sat) by Lucas Ropek
[Photo: David Paul Morris/Bloomberg (Getty Images)]
지난주 충격적인 OpenAI 권력 다툼의 여파로 이 혼란의 에필로그와 같은 역할을 한 마지막 폭로가 있었는데, 바로 이 스타트업에서 놀라운 돌파구를 찾았다는 로이터 통신의 보도였다. 그 돌파구는 "Q-Star" 또는 "Q*"라고 불리는 잘 알려지지 않은 프로그램을 통해 이루어졌다고 한다.
보고서에 따르면, 이 영향력 있는 AI 회사에서 내부 갈등이 촉발된 원인 중 하나가 바로 이 Q 관련 "발견"이었다고 한다. Altman이 쫓겨나기 전, 몇몇 OpenAI 직원이 회사 이사회에 "인류를 위협할 수 있는 강력한 인공지능의 발견"에 대해 편지를 보냈다고 한다. 로이터 통신은 익명의 소식통을 인용해 이 편지가 "Altman 해고로 이어진 이사회의 긴 불만 목록 중 한 가지 요인"이라고 주장했다.
솔직히 이 이야기는 꽤나 황당하게 들렸다. 이 이상한 새 프로그램은 무엇이며, 왜 이 프로그램이 OpenAI의 모든 혼란을 야기했을까? 로이터 통신은 Q* 프로그램을 통해 AI 에이전트가 "초등학교 수준의 수학"을 할 수 있게 되었다고 주장했는데, 이것이 사실이라면 인공 일반 지능(AGI)을 만드는 데 더 큰 성공을 거둘 수 있는 놀라운 기술적 돌파구라고 소식통들은 말했다. The Information의 또 다른 보고서는 로이터 기사의 많은 부분을 반복하고 있다.
하지만 이 Q 프로그램을 둘러싼 세부 사항은 회사 측에서 공유하지 않았으며, 익명으로 제보된 보고서와 프로그램의 실체에 대한 온라인상의 추측만 난무하고 있다.
일부 사람들은 이 프로그램의 이름 때문에 머신 러닝의 한 형태인 Q-러닝과 관련이 있을 것이라고 추측하고 있다. 그렇다면 Q-러닝이란 무엇이며, OpenAI의 비밀 프로그램에 어떻게 적용될 수 있을까?
일반적으로 AI 프로그램에 어떤 작업을 수행하도록 가르치는 방법에는 몇 가지가 있다. 이 중 하나는 '지도 학습'으로 알려져 있으며, AI 에이전트에 '레이블이 지정된' 대량의 데이터를 공급하여 프로그램이 스스로 어떤 기능을 수행하도록 훈련시키는 데 사용된다(일반적으로 해당 기능은 데이터 분류에 더 가까움). 대체로 OpenAI의 콘텐츠 생성 봇인 ChatGPT와 같은 프로그램은 일종의 지도 학습을 사용하여 만들어졌다.
반면 비지도 학습은 분류할 패턴을 찾기 위해 레이블이 지정되지 않은 대량의 데이터를 AI 알고리즘이 샅샅이 훑어볼 수 있도록 하는 머신러닝의 한 형태이다. 이러한 종류의 인공 지능은 넷플릭스나 스포티파이 같은 회사에서 과거 소비자의 선택을 기반으로 사용자에게 새로운 콘텐츠를 제안하는 데 사용하는 추천 시스템을 만드는 등 다양한 용도로 배포할 수 있다.
마지막으로 강화 학습(RL)이 있는데, 이는 특정 환경 내에서 목표를 달성하도록 AI 프로그램에 인센티브를 제공하는 ML의 한 범주이다. Q-러닝은 강화 학습의 하위 범주이다. RL에서 연구자들은 AI 에이전트를 훈련시키려는 개처럼 취급한다. 프로그램이 특정 결과에 영향을 미치는 특정 행동을 취하면 '보상'을 받고 다른 행동을 취하면 불이익을 받는다. 이러한 방식으로 프로그램은 주어진 상황에서 가장 최적화된 결과를 추구하도록 효과적으로 '훈련'된다. Q러닝에서 에이전트는 시행착오를 거치며 프로그램된 목표를 달성하기 위한 최선의 방법을 찾게 된다.
이 모든 것이 OpenAI의 '수학' 혁신과 어떤 관련이 있을까? 간단한 수학 연산을 할 수 있는 것으로 추정되는 이 프로그램이 어떤 형태의 Q 관련 RL을 통해 그러한 능력에 도달했을 것이라고 추측할 수 있다. 하지만 많은 전문가들은 인공지능 프로그램이 실제로 수학 문제를 해결할 수 있을지에 대해 다소 회의적인 시각을 가지고 있다. 다른 이들은 AI가 그러한 목표를 달성할 수 있다고 해도 그것이 반드시 광범위한 AGI 혁신으로 이어지지는 않을 것이라고 생각한다. MIT Technology 리뷰는 다음과 같이 보도했다:
연구자들은 수년 동안 AI 모델이 수학 문제를 풀 수 있도록 노력해 왔다. ChatGPT나 GPT-4와 같은 언어 모델은 일부 수학을 수행할 수 있지만, 그다지 훌륭하거나 안정적이지는 않다. 에든버러 대학교의 AI 강사인 Wenda Li는 현재 AI를 사용해 수학 문제를 안정적으로 해결할 수 있는 알고리즘이나 적절한 아키텍처가 없다고 말한다. 언어 모델이 사용하는 딥러닝과 트랜스포머(일종의 신경망)는 패턴 인식에 탁월하지만 그것만으로는 충분하지 않을 수 있다고 리는 덧붙인다.
요컨대, 우리는 Q에 대해 잘 알지 못하지만, 전문가들의 말을 믿는다면 Q에 대한 과대광고는 그저 과대광고에 불과할 수 있다.
[Photo: Justin Sullivan (Getty Images)]
그가 OpenAI로 돌아왔다는 사실에도 불구하고 지난주 Sam Altman에게 무슨 일이 있었는지 아직 알 수 없다. Altman은 수요일 The Verge와의 인터뷰에서 회사에서 극적인 권력 투쟁이 촉발된 이유에 대해 거의 아무 말도 하지 않았다. 이 매체 기자의 계속되는 추궁에도 불구하고 Altman은 손을 내저으며 당분간은 이 문제에 대해 이야기하지 않겠다고 말했다. "사람들이 왜 지금 당장 답을 원하는지 충분히 이해합니다. 그러나 그것을 기대하는 것은 완전히 비합리적이라고 생각합니다."라고 반발하며 답했다. 대신 The Verge가 OpenAI 경영진으로부터 얻을 수 있었던 것은 회사가 이번 사건에 대해 "독립적인 검토"를 진행 중이며, 그 과정에 "간섭"하고 싶지 않다는 사실뿐이었다고 그는 말했다. 지난주 이 사건에 대한 보도는 이사회의 윤리와 OpenAI의 자동화 기술을 상용화하려는 Altman의 끈질긴 추진력 사이의 충돌을 포함하는 내러티브에 따라 해석했다. 하지만 이 이야기는 단지 이야기일 뿐dl다. Sam이 축출된 이유에 대해 자세히 알지 못하지만, 꼭 알고 싶다.
[뉴스 출처] https://gizmodo.com/sam-altman-openai-q-machine-learning-artificial-intelli-1851062584