AI 최신 소식

AID·2024년 6월 30일

AI 최신 소식에 대해서 소개하겠습니다.

새로 출시된 AI

<이미지 생성 AI>

◆ SD3 미디엄

-Stability에서 개발
-20억 매개변수짜리 소형 이미지 생성 AI
-Input으로 언어를 넣으면 output으로 해당하는 이미지가 생성되어 나옴
-노트북에서 돌아가고, 이미지 내에서의 텍스트 표현 성능이 우수하다는 장점이 있음
-인체 표현이 미흡하다는 단점이 있음('잔디에 누운 사람'이라는 이미지는 제대로 생성이 되지 않음)

<영상 생성 AI>

◆ Toon Crafter

-애니메이션 생성 AI
-Input으로 이미지를 넣으면 Output으로 애니메이션(영상)이 나옴
: 이미지 사이의 프레임을 자동으로 생성해서 자연스럽게 이어지도록 함
-Sketch Interpolation(기술)
: 완성된 이미지가 아닌 스케치 단계의 이미지를 input으로 넣으면 output으로 해당 스케치를 완성시킨 이미지가 나옴
-색이 칠해진 한 장 이상의 이미지와 색이 칠해지지 않은 이미지를 input으로 넣으면 output으로 일관성을 가지고 색이 칠해진 이미지들이 나옴
즉, 한 장만 칠해주면 자동으로 나머지 프레임도 색칠해줌-주의 : input의 프레임(이미지)들의 차이가 너무 심할 경우 원하는 output을 얻지 못할 수도 있음

◆ Musepose

-사진 한 장만으로 자연스러운 동작을 구현하는 AI 기술
-Input으로 인물의 이미지와 춤 동작을 넣으면 output으로 해당 인물이 해당 춤 동작을 추는 애니메이션이 나옴

◆ KLING

-중국에서 개발됨
-대중화되어있으며 중국 전화번호만 있으면 이용 신청 가능
-Sora와 비교했을 때 훨씬 정교하고 자연스러워짐

◆ Luma AI : Dream machine

-Input으로 언어나 이미지를 넣으면 output으로 영상이 생성되어 나옴
-Sora와 성능이 비슷함
-여러 개의 영상 생성 시 일관성이 유지됨
-텍스트의 인식과 이해의 측면에서 뛰어남
-영상 생성 시 자연스러운 스토리에 따라 생성함
-최대 5초 길이의 영상을 생성할 수 있음(영상의 마지막 프레임을 캡처한 후 그 프레임으로 영상 생성, 또 마지막 프레임 캡처... 를 반복하여 생성된 영상들을 연결하면 긴 영상도 만들 수 있음

단순히 영상을 생성하는 것이 아니라, 생성할 영상에 적히는 텍스트까지 완벽히 이해하여 영상을 생성함(아래의 예시에서 확인 가능)

<음향 생성 AI>

◆ Sound effect

-Elevenlaps에서 개발
-Input으로 언어(문장이나 단어)을 넣으면 output으로 해당 소리(효과음)이 나옴
-효과음이 필요할 때 녹음할 필요가 없어짐
-복잡하고 긴 문장으로 설명을 해도 올바르게 이해하여 실제처럼 생성해줌

◆ Udio 음악 생성 AI

-유저가 업로드한 오디오를 기반으로 음악을 생성해줌
-오디오의 앞뒤에 덧붙여서 음악을 생성해주거나 멜로디만 있는 오디오에 보컬(목소리)을 추가해주거나 오디오의 음악 장르르 변경해줌

◆ Stable Audio Open 1.0

-텍스트 프롬프트를 통해 다양한 음향 효과를 만듦
-Input으로 언어(문장 등)를 넣으면 output으로 해당 소리(음향)을 생성해줌
-최대 47초 길이의 짧은 오디오 클립 생성이 가능함(완전한 노래, 멜로디, 보컬의 생성은 불가)

◆ Suno

-일상의 소리를 노래(음악, 음향)으로 만들 수 있음
-목소리 오디오 파일과 원하는 텍스트를 입력하면, 해당 목소리로 해당 텍스트를 말하는 오디오 파일을 얻을 수 있음
-'노래'를 만들 수 있음(멜로디, 가사, 보컬, 음악 장르 등을 임의로 지정 가능)

<기타 AI>

◆ Showrunner

-Fable에서 개발한 최신 AI 플랫폼
-에이전트 마을이 있고, 그 안에서 AI들이 활동하는 것들을 관찰하여 에피소드로 엮어 애니메이션 TV를 만들 수 있음
-작동 방식 : 사용자가 원하는 타임랩스 비디오를 설명하는 프롬프트를 입력하면 AI가 비디오를 생성함
-긍정적인 프롬프트 : 사용자는 보고 싶은 것을 설명하는 "긍정적인" 프롬프트
부정적인 프롬프트: 원하지 않는 것을 설명하는 "부정적인" 프롬프트
-사용자의 프롬프트만으로 애니메이션 TV 에피소드를 제작할 수 있음
-AI 버전 트루먼쇼 혹은 게임 심즈와 같은 스타일로 이해할 수 있음

◆ 노래 검색 AI

-유튜브 뮤직에서 출시한 '허밍'만으로 노래를 검색하는 AI
-3초동안 허밍을 하면 노래를 찾아줌

◆ Perplexity AI

-문서 생성 AI
-검색어(제목)을 입력하면 검색 결과를 기사나 보고서의 형태로 자동 생성함
-일종의 웹 페이지를 자동으로 만들어줌
-필요한 정보가 정리되어 도출되기 때문에 효율적으로 정보를 얻을 수 있음

◆ Codestral

-code 생성 AI
-80개 이상의 프로그래밍 언어가 학습되어있음
-개발자들의 코드 작성 및 상호작용의 효율성을 높임
-이전 모델들에 비해 성능이 우수하고 지연시간이 짧다는 장점이 있음

◆ 노트북 LM

-Google에서 개발함
-Input에 해당하는 자료 기반으로 제공되는 자료의 요약, 자료에 대한 질의응답을 제공함
-이제 한국에도 도입

◆ Follow-your-emoji

-표정과 인물의 이미지를 input으로 넣으면 해당 인물이 해당 표정을 짓는 output이 생성됨

<립싱크 AI>

◆ V-Express

-인물의 말하는 입 모양을 소리와 일치시켜 구현하는 기술
-Input으로 이미지와 소리를 넣으면 output으로 인물의 입 모양이 소리에 맞게 생성(구현)됨
-Aespa의 'supernova'에서도 사용되었음
-유사한 것으로는 EMO, VASA가 있음

◆ Hallo

-표정과 입 모양을 소리와 일치시켜 구현함
-파라미터(매개변수)를 조절해서 pose를 크게하거나 작게하는 것도 가능함

<변경 AI>

◆ HOI-Swap

-비디오 안에서 물체를 바꾸는 것
-바뀐 물체의 경계면의 인식을 적절히 하여 영상에서도 자연스럽게 물체를 바꿀 수 있음

새로운 AI 관련 기술

◆ 다중 기기 어댑티브 오디오 머지

-Google meet(화상 회의)에서 출시한 새로운 기능(기술)
-"적응형 오디오"를 통해 근접 공간에서 여러 대의 노트북을 사용하여 Google Meet
에 동시 참여 가능
-여러 장비를 동시에 켜는데에서 오는 에코 및 오디오 피드백이 없음(소리 겹쳐서 한 템포 느리게 들린다거나, 잡음이 많이 발생한다던가 하는 문제가 사라짐)
-Google meet은 오디오를 병합하고 참가자를 사람 패널에서 그룹화함
-동일한 방에서 여러 참가자가 회의에 참여할 때 "적응형 오디오"가 자동으로 활성화됨
-> 여러 대의 노트북이 있는 방에서 자동으로 마이크와 스피커를 동기화하여 원활한 오디오 경험을 제공함
-> 팀이 단일 노트북에 몰리지 않고 어디서든 명확하게 들을 수 있는 즉석 회의 공간을 만들 수 있음

◆ MoRA

-기존의 LoRA, 미세조정 기술을 개선한 새로운 미세조정 기술
-새로운 지식에 대한 기억력과 제공되는 결과의 정확성의 측면에서 LoRA에 비해 뛰어나다는 장점이 있음
-전체 미세조정에 비해 성능이 떨어진다는 단점이 있음
-매개변수에 대한 전체 순위 가중치 행렬(full-rank weight matrix)을 업데이트하는 대신, 작은 부분 공간에 매핑하는 저순위 행렬(low-rank matrix)을 통해 매개변수를 업데이트함
-> 메모리 요구 사항이 크게 줄어듦
-> 미세조정 모델의 저장과 배포가 쉬워짐
-가중치를 추론 중에 기본 모델에 연결하는 별도의 ‘어댑터(Adapter)'로 대체 가능함
-> 막대한 비용을 들이지 않고도 맞춤형 LLM 기반 서비스를 제공할 수 있음

◆ Teleoperation(원격 조작 기술)

-로봇을 학습시키거나 작동시킬 때 vr을 착용하여 조작하는 기술
-의사의 수술, AI의 학습 시 유용할 것으로 예측됨

◆ 예쁜꼬마선충 프로그래밍

-예쁜꼬마선충 : 302개의 신경세포를 가진 미생물(실험에 자주 사용됨)
-예쁜꼬마선충의 신경세포의 구성, 상호작용, 작동을 프로그래밍함
-> 예쁜꼬마선충의 신경세포의 흐름대로 작동함
-프로그래밍 한 것으로
로봇을 제작하면 로봇이 예쁜꼬마선충의 신경세포의 흐름대로 작동하고
컴퓨터 공간에 넣어 시뮬레이션하면 컴퓨터 프로그램 안에서 예쁜꼬마선충의 신경세포의 흐름대로 작동함
-통 속의 뇌

◆ In-game help

-NVIDIA에서 개발
-게임을 플레이할 때, AI 게임 도우미에게 모르는 것을 물어보는 등 도움을 받으며 게임할 수 있음

◆ 생각하는 가상 쥐

-하버드와 구글에서 개발
-쥐의 인공두뇌는 AI로 만들어졌음
-컴퓨터 공간 안에서 실제 쥐와 같은 움직임을 구현할 수 있는 인공두뇌 프로그램
-실제 쥐의 뇌의 움직임을 추적해서 프로그래밍함
-역으로 시뮬레이션의 움직임으로 실제 쥐의 행동을 예측할 수 있음
-실제로 하지 않고 프로그래밍하여 시뮬레이션하면 동물실험과 같은 윤리적 문제도 해결가능할 수 있다는 예측이 있음
-메트릭스의 현실화다, AI 애완동물도 가능하겠다 라는 여러 의견들이 나오고 있음

LLM(거대 언어모델)

◆ QWEN2(Alibaba)

-영어와 중국어 외에 27개 언어로 데이터를 추가 학습했음
-다수의 벤치마크 평가에서 성능이 대부분 가장 뛰어나며 코딩과 수학 분야에서 크게 성능이 개선됨
-모든 모델 크기에 Group Query Attention(GQA)를 적용함
-> 추론 속도가 향상됨
-> 메모리 사용량이 감소됨

◆ Llama3-V(meta)

-Llama3-V는 Llama3를 기반으로 한 최초의 멀티모달 모델
-벤치마크에서 Llava보다 성능이 10-20% 향상되었음
-Llama3 8B에 비전 인코더를 추가한거임
-GPT4v, Gemini Ultra, Claude Opus와 같은 100배 큰 모델과 유사한 성능(모델의 크기가 작지만, 크기를 감안한다면 우수함)
-500달러 이하의 비용으로 효율적인 훈련 및 지도 학습 파이프라인을 제공함

기타

◆ AI game(Relu Games)

AI의 추리와 음성 인식 기능을 이용한 추리 게임

-GPT-4가 도입됨

마법소녀 즈큥도큥

-음성인식이랑 결합해서 주문을 외우는 AI 게임
-GPT-4가 도입됨

AI SNS : Butterflies-Bring AI to Life

-AI 챗봇들이 공식적으로 활동하는 SNS
-AI 계정마다 컨셉이 정해져있고, 그 컨셉에 맞는 게시물이 업로드 됨
-AI 인플루언서 존재
-AI 에이전트들이 많아져 인간들은 더 이상 웹에 존재하지 않게 된다는 디스토피아적 미래인 '죽은 인터넷'이라는 가설의 시작이라는 의견이 있음

AI 동향

1. AI의 성능

-일부 작업에서는 인간을 앞서지만 모든 작업에서 인간을 앞서는 것은 아님

: 이미지 분류, 시각적 추론 및 영어 이해 등의 벤치마크에서는 인간의 성능을 능가했음
: 그러나 경쟁 수준의 수학, 시각적 상식적 추론 및 계획과 같은 더 복잡한 작업에서는 뒤쳐져 있음

-AI 모델은 매우 빠르게 발전하고, 개선되고 있음

-> 새로운 벤치마크의 필요성
: 기존의 벤치마크에서 성능 포화 상태에 도달함
-> 새로운 벤치마크 개발의 필요성
-> 2023년, 새로운 벤치마크가 등장(코딩을 위한 SWE-bench, 이미지 생성을 위한 HEIM, 일반 추론을 위한 MMMU, 도덕적 추론을 위한 MoCa, 에이전트 기반 행동을 위한 AgentBench, 환각을 위한 HaluEval 등)

2. AI에 대한 관심

-계속 증가하는 AI 관련 출판물의 수

: 2010년에서 2022년 사이에 AI 출판물의 총 수는 2010년 약 88,000개에서 2022년 240,000개 이상으로 거의 3배 증가함

-AI 특허 수의 급증

: 2021년부터 2022년까지 전 세계 AI 특허 등록은 62.7% 급증했고 2010년 이후 AI 특허 등록 건수는 31배 이상 증가했음

: 2022년 중국은 61.1%로 전 세계 AI 특허 발생의 과반수를 차지함(AI 특허 기원의 20.9%를 차지하는 미국을 추월함)
: 2010년 이후 미국의 AI 특허 점유율은 54.1%에서 감소함(절대적인 AI 특허 수는 증가하지만 중국이 차지하는 비율이 높아지면서 '비율'은 줄어듦)

-AI 관련 사업에 대한 투자 증가

: 지난해 전체 AI 민간 투자가 감소했음에도 불구하고 생성형 AI에 대한 자금 조달은 급증해 2022년 대비 거의 10억 달러 증가한 252억 달러에 달했음
: 생성형 AI 분야의 주요 업체들(오픈AI(OpenAI), 앤스로픽(Anthropic), 허깅페이스(Hugging Face), 인플렉션(Inflection) 등)은 상당한 규모의 자금 조달에 성공함

3. AI 관련 위험성

-LLM 책임에 대한 강력하고 표준화된 평가의 부족

: 주요 개발자는 주로 다양한 책임 있는 AI 벤치마크에 대해 모델을 테스트함
-> AI 모델의 위험과 한계를 체계적으로 비교하려는 노력이 복잡해짐
-> 책임 있는 AI 보고에 대한 표준화가 부족해짐

-계속 증가하는 AI 사고의 수(딥페이크)

: 2023년 AI 오용과 관련하여 보고된 사고는 123건으로 2022년 대비 32.3% 증가했고, 2013년 이후 AI 사고는 20배 이상 증가했음(점점 증가하는 추세임)

: AI 관련 사고 중에서도 딥페이크가 심각한 문제임
: AI가 가짜 콘텐츠를 쉽게 만들고 유포함
-> 정치적으로 이용하여 전 세계 선거에 영향을 미침
-> 성적으로 노골적인 딥페이크를 생성할 수 있음

-투명성 점수가 낮은 AI 개발자들

: AI 개발자들이 특히 학습 데이터 및 방법론 공개와 관련하여 투명성이 부족함
-> AI 시스템의 견고성과 안전성의 더 깊은 이해에 방해가 됨

-정치적으로 편향된 CHATGPT

: CHATGPT의 정치적인 편향은 주요 글로벌 선거가 있는 해에 사용자의 정치적 견해에 영향을 미칠 수 있음

-일자리의 감소

: 주요 AI 기업의 채용 공고가 줄어듦
-> 기업 내의 기술 직무의 비율이 감소함
-> 미국의 AI 관련 직책의 채용 공고 비율은 2022년 2.0%, 2023년에는 1.6%로 감소했음

4. AI 관련 규제

-전 세계의 정책 입안자들은 AI에 대한 논의를 멈출 수 없습니다.

: 전 세계 입법 절차에서 AI에 대한 언급이 2022년 1,247건에서 2023년 2,175건으로 거의 두 배로 증가함
: 2023년 49개국의 입법 절차에서 'AI'가 언급되었음
2023년, 모든 대륙에서 최소 1개국이 AI에 대해 논의했음
-> 그만큼 AI 정책 담론의 진정한 글로벌 영향력이 강하다는 뜻임

-점점 더 많은 규제 기관이 AI에 관심을 기울이고 있습니다.

: AI 규제를 발행하는 미국 규제 기관의 수는 2022년 17개에서 2023년 21개로 증가함(미국 규제 기관에서 AI 규제에 대한 우려가 커지고 있음)
: 2023년 처음으로 새로운 규제기관(교통부, 에너지부, 산업안전보건청)에서 AI 관련 규정을 제정

5. AI가 가져다주는 이점

-AI에 의한 과학적 진보

: 2023년 알고리즘 분류를 보다 효율적으로 만드는 AlphaDev, 재료 발견 프로세스를 용이하게 하는 GNoME 등 많은 과학 관련 AI 애플리케이션이 AI에 의해 출시됨

-AI에 의한 의학적 발전

: 이전에도 AI 시스템은 AI의 임상 지식을 평가하기 위한 핵심 테스트인 MedQA 벤치마크에서 빠르게 발전함
: 2023년 대표적인 모델인 GPT-4 Medprompt는 2022년 최고 점수보다 22.6%포인트 상승하여 90.2%의 정확도를 기록함(2019년 벤치마크가 도입된 이후 MedQA의 AI 성능은 거의 3배 증가함)

-데이터 제공: AI는 작업자의 생산성을 높이고 작업 품질을 높입니다.

: AI가 노동에 미치는 영향에 대한 결과는 AI를 통해 작업자가 작업을 더 빨리 완료하고 결과물의 품질을 개선할 수 있다고 나옴(저숙련 노동자와 고숙련 노동자 간의 기술 격차를 해소 가능)

6. AI에 대한 사람들의 인식

-전 세계 사람들은 AI의 잠재적 영향에 대해 더 잘 인식하고 있으며 더 긴장하고 있습니다.

: 지난 한 해 동안 AI가 향후 3년에서 5년 사이에 자신의 삶에 극적인 영향을 미칠 것이라고 생각하는 사람들의 비율이 60%에서 66%로 증가했음
: 미국인의 52%가 AI에 대해 흥분보다 우려를 더 많이 느낌

AID 5기 송지윤

AID

부산대학교 인공지능 동아리

이전 포스트