State of AI 리포트 2020 요약

changsubchang·2020년 10월 14일
3

벤처캐피탈을 운영하는 Nathan 과 Ian 이 매년 발간하는 State of AI 리포트가 있습니다. 학계의 동향, 산업계의 동향, 인력의 동향 등 다방면으로 AI에 대해서 관망할 수 있는 리포트를 발간합니다. 177쪽에 달하는 리포트인데요. 이 리포트를 저의 구미와 관심사에 맞게 일부만을 발췌하여 우리말로 설명하여 공유합니다. 보다 구체적인 내용은 리포트 원문을 여기서 확인하시면 좋을것 같습니다.
저도 언젠가 우리나라 버전을 만들 수 있길...

저자

다루는 영역

Caveat

  • 아울러, 리포트의 말미에서 확인한 내용인데, Conflicts of Interest 가 있습니다. 저자들이 투자한 회사들의 소개가 실제 리포트에서도 많이 언급되고 있는데, 최대한 이러한 부분들은 제외하고 소개하고자 합니다.

Research

언어

  • 17.5조개의 하이퍼파라미터를 사용하는 언어모델인 GPT3가 등장하였습니다. 이는 이전의 수많은 자연어 관련 언어모델 대비 10배에 달하는 하이퍼파라미터 수입니다.

  • 아울러 일부 연구자들의 연구 결과, GPT3를 이용하여 트레이닝 하는 경우, 총 10M USD 수준의 Budget을 썼을 것으로 예측됩니다.

  • Facebook Research 에서는 컴퓨터 프로그램을 C++에서 JAVA로 변환하는 모델을 만들었고, 90%에 달하는 정확도를 보이기도 했습니다.

  • 스탠포드 대학의 연구에서는, 프로그램의 버그 코드를 Self Supervised Learning 을 이용해서 그래프 뉴럴네트워크 상에서 문제시 되는 코드의 빈칸을 해결하는 모델 / 솔루션을 개발하기도 했습니다.

Computer Vision

  • 이미지에 있는 텍스트를 읽고, 상황에 대한 이해를 바탕으로 해당 텍스트가 의미하는 바를 이해하고 질문에 답하는 VQA가 연구되고 있습니다.

  • 특정 사진의 이미지를 바탕으로 Input 이미지를 넣었을 때, 해당 스타일에 맞게 이미지를 변환 출력해주는 SinGAN이 제시되었습니다. (자연 풍광 위주)

  • 언어모델에서 사용된 트랜스포머 모델의 어텐션 방식이 사물 인식과 Segmentation 에도 사용됨을 확인할 수 있었습니다.
  • 이미지도 궁극적으로는 픽셀의 나열이라는 점에서, 언어모델을 사용할 수 있으며, 정확도도 높아졌습니다.
  • 특정 이미지의 일부만을 넣었을 때, 나머지 부분을 채워주는 기능을 구현하였고, 실제 사진과도 매우 유사한 수준으로 나타남을 확인할 수 있었습니다.

  • 구글에서는 Auto ML Zero. 즉, 모델의 개형이나 층의 속성을 부여하지 않고도, 처음부터 간단한 수학ㅇㅡ로도 수학공식 (연산)을 개발할 수 있는 AutoML Zero를 제시하였습니다. 실제의 진화과정과 유사하게, 모델이 점차 진화해 나가면서, 특정 시점에서 가장 나은 결과를 내뱉도록 훈련되고 개발됩니다.
  • 실제로 진화의 골목에 빠지지 않게, 돌연변이들을 인위적으로 발생시켜서 모델이 특정 형태로 발현하게끔 하기도 합니다.
  • 단, 현재는 제한적인 수준에서 매우 간단한 모델만 생성할 수 있습니다.

  • 프라이버시를 중시하는 Federated Learning, Distributed Learning 등이 각광을 받고 있습니다.


일반

  • 일반적인 생각과는 달리, 국제학회에서 Publish 된 논문중, 코드가 전체 공개된 경우는 15%에 불과합니다. 심지어 이는 기존의 코드 공개율보다 낮아서 AI 연구가 보다 '제한적인 범위 내에서' 공유되고 있음을 보여줍니다.

Talent

  • 구글, 딥마인드, 아마존, MS에서는 미국에서 52명의 테뉴어 교수들을 2004년부터 2018년까지 채용하였습니다. (2018년 한해에만 41명, 2004년에는 어떠한 교수도 강단을 떠나지 않음)
  • 학부교육은 자국에서 받지만, AI관련 고등교육을 미국에서 받는 풍조는 아직도 이어지고 있습니다. 특히 중국의 경우 미국에 고등교육을 받는 경우가 높습니다.

  • 미국에서 고등교육을 받은 뒤, 자국으로 돌아가는 경우입니다.

  • AI 관련 많은 고학력자가 생성되고 있음에도 불구하고, 아직 실제로 포스팅되는 구인공고 대비, 실제로 검색을 통해 잡을 찾는 사람의 수의 갭이 큽니다. 이를 통해, AI 연구인력의 수요-공급 미스매치가 아직 존재함을 확인할 수 있습니다.

Industry

  • ML 모델 개발 뿐 아니라, 실제 모델을 Operate 하는 측면에 대한 관심이 높아지고 있습니다. GitHub 에서 인기있는 프로젝트와 검색어 추이를 통해 확인할 수 있습니다.

  • 일본에서는 OCD 환자를 위한 의학적인 검증 (Clinical Trial) 에 AI를 활용하여 실제 임상 대상 환자의 수를 현저하게 줄이면서도 테스트를 수행하기도 했습니다.

  • 점차 많은 기업들이 기존의 High-level 한 윤리적인 가이드라인에서 한단계 더 나아가, 보다 구체적인 수준에서 엔지니어들이 윤리적인 부분을 감안한 모델 설계 및 개발을 할 수 있기를 요청하고 있습니다.

  • 맥킨지 리포트에 따르면 기업들이 AI가 세일즈와 마케팅 측면에서 매출을 높이는데 도움이 되고, 제조업 및 유통 측면에서 비용을 줄이는데 도움이 될 수 있다고 평가하였습니다.

  • GLUE와 SuperGLUE를 기반으로 테스팅한 결과, 점차 많은 수의 NLP 모델의 정확도가 높아지고 있음을 확인할 수 있습니다.

    https://super.gluebenchmark.com/

Politics

  • 맥킨지 분석에 따르면 EU의 19개국가에서 AI로 인해 직업이 없어질 위기에 처해있습니다. 특히, 자동차 조립과 통신 분야에서 빠르게 대체될 것으로 판단되는데, 장기적으로는 소비재, 교통, 유틸리티, 금융서비스 등에서도 이러한 조짐이 지속될 것이라고 예상하고 있습니다.

  • 많은 국가에서 국가적인 전략으로 AI를 천명하고 있습니다.

  • AI가 국가적인 어젠다로 부상함에 따라, 일부국가에서는 AI업체들의 M&A를 제한적으로만 허용하는 방안을 법제화 하는 것도 논의되고 있습니다.

  • 국가적으로 AI를 활용하는 움직임이 금기시되던, 군사분야에서도 활발하게 사용되고 있습니다. 특히 공중전에 AI를 활용하여 사람을 이기게끔 하는 토너먼트를 미국 국방성에서 실시하기도 했습니다.
  • 헤론시스템과 록히드마틴의 Deep Reinforcement Learning 을 활용한 기법이 우승했는데, 이는 이전 알파고와 스타크래프트에서도 우승할 때 사용된 알고리즘입니다.

  • GPT3가 종교와 관련되어 Bias된 정보를 제공할 수 있다는 분석도 나왔습니다.
  • 예시로 두명의 무슬림이라는 Input을 제공한 뒤 만들어지는 결과물을 보면 폭력적으로 묘사한 것을 확인할 수 있습니다.

  • 안면인식과 관련된 숱한 논란 끝에 일부 대기업: MS, 아마존 등은 안면인식과 관련된 기존의 데이터베이스를 삭제하고, 이를 활용하는 분야를 당분간 제한하는 등의 보수적인 조치를 취하기 시작했습니다.

향후 예측

  • 믿거나 말거나이긴 하지만, 저자들은 1년간 어떤식으로 미래가 변화할지에 대해 예측하고 있습니다.
  1. 더 큰 언어모델을 만들려는 움직임이 가속화 될 것 (10조개 이상의 하이퍼파라미터가 등장할 수도)
  2. NLP에서 사용되던 어텐션 기반 모델이 컴퓨터 비전에 적용되어 SOTA 결과를 낼 것
  3. 주요 대기업들의 AI 연구소가 문을 닫을 것 (모기업의 전략 변화로) -> 이부분은 왜그런지 저도 궁금하네요.
  4. 미국 국방성의 국방 목적 인공지능 연구 가속화로, 중국과 유럽에서도 비슷한 국방 스타트업들이 1억 달러 이상 투자 받을 것
  5. AI를 기반으로 신약을 발견하는 스타트업이 IPO하거나 10억 달러 수준에서 인수 될 것
  6. 딥마인드가 알파폴드를 넘어서 구조화된 생물학과 신약 개발에서 진가를 드러낼 것
  7. 페이스북이 3D 컴퓨터 비전을 활용하여 증강 및 가상 현실에서 진일보 할 것
  8. NVIDIA는 지속적으로 ARM을 인수하려고 할 것

  • 참고로 작년 예측의 적중률은 아래와 같습니다. 그래도 꽤나 많이 맞혔네요.

읽으면서 재밌는 적용분야와 리서치 하이라이트 부분이 있어서 흥미로웠는데요. 마지막 장의 Conflict of Interests를 보고 약간 김이 빠지긴 했습니다. 하지만 그럼에도 불구하고 이렇게나 많은 영역을 모두 다룰 수 있다는 점에 저자들에게 경의(?) 를 표합니다 ㅎ_ㅎ. 기술적인 부분에서 저의 이해도가 부족해서 왜곡된 정보가 포함되었을 수도 있고, 저자의 과도한 장미빛 전망이 포함되었을 수 있으니 비판적인 시각으로도 한번 바라보시길 추천드립니다.

profile
데린이임니다

0개의 댓글