강명호 강사님
AI 에 대한 이해를 높이기 위해 스탠포드 대학교에서 매년 발간하는 AI Index Report를 다룹니다. 2024년 자료 뿐만 아니라 2023년 자료 내용도 소개합니다.
스탠포드 대학교 HAI (Human-Centered Artificial Intelligence) 연구소에서 2017년부터 매 해 AI Index 보고서를 발간
인공지능이 몇몇 분야에서 인간을 이기기 시작했다. (이미지 분류, 시각적 추론, 영어 이해)
산업계가 인공지능 연구에서 선도적인 위치를 지속하고 있다.
선도하는 모델들의 비용이 매우 커지고 있다.
미국이 중국 및 유럽과 영국을 제치고 탑 AI 모델을 만들었다.
LLM 책임에 대한 견고하고 표준화된 평가가 매우 부족하다.
생성형 AI에 대한 투자가 급증하고 있다.
인공지능이 노동자의 생산성을 높이고 더 높은 품질의 작업을 이끌어낸다.
인공지능 덕분에 과학적 발전이 더욱 가속화되고 있다.
미국에서 인공지능 규제가 급속히 증가하고 있다.
전 세계 사람들이 인공지능의 잠재적 영향에 대해 더욱 인식하게 되었다. (불안)
이미지 분류 (Image Classification) : 표현하고자 하는 사물에 따라 이미지를 분류할 수 있는 능력
얼굴 검출 및 인식 (Face Detection and Recognition) : 이미지나 비디오에서 인공지능이 얼굴을 인식할 수 있는 능력
-FNMR(fALSE non-match rate) : 에러율. 다른 사람이라고 구별하는데 실패하는 비율
딥페이크 검출 (Deepfake Detection) : 딥페이크는 인공지능 기술을 이용하여 인간 이미지를 합성하는 기술 (Deep Learning + Fake)
-정확도 (Accuracy)
-정밀도 (Precision)
-재현율 (Recall)
인간 자세 추정 (Human Pose Estimation) : 이미지에서 인간 신체가 어떤 자세를 취하고 있는지를 예측
의미 분할 (Semantic Segment) : 개별적인 이미지 픽셀(화소)을 특정한 범주로 나누는 것. 자율 주행이나 의학 영상 진단 등에 적극 활용
-mIoU(Mean Intersection-Over-Union) : 모델이 예측한 영역들이 실제 영역들과 얼마나 겹치는지 나타내는 지표
IoU = Area of Overlap / Area of Union
IoU = 교집합 / 합집합
의료 이미지 분할 (Medical Image Segmentation) : 이미지 내 병변이나 장기 등의 개체를 분할
개체 감지 (Object Detection) : 개체를 식별하고 위치를 알아내는 것
이미지 생성 (Image Generation) : 실제 이미지와 구별할 수 없는 이미지를 만들어내는 작업
시각적 추론 (Visual Reasoning) : 텍스트와 시각적 데이터를 모두 고려하여 추론
활동 인식 (Activity Recognition) : 비디오에서 발생하는 활동들을 분류
자연어 처리(NLP) : 컴퓨터 시스템이 텍스트를 이해하는 능력
영어 언어 이해 (English Language Understanding)
텍스트 요약 (Text Summarization)
자연어 추론 (Natural Language Inference) : 주어진 가설이 참(True), 거짓(False) 또는 결정되지 않았는지 (underdeterminded) 판단하는 능력
감성 분석 (Sentiment Analysis) : 텍스트에 나타난 감정의 식별을 위해 자연어 처리 기술을 적용. 주로 비즈니스 분야 고객 리뷰 파악 위해 사용
다중 작업 언어 이해 (Multitask Language Understanding) : 언어 모델이 여러 전문 분야 영역을 넘나드는 이해 및 추론 능력을 의미
기계 번역 (Machine Translation) : DeepL, Google 번역과 같은 신경만 기반 기술이 주도. 가장 인기 있는 AI 언어 서비스 중 하나. 사용 서비스 수는 지속적 증가
음성 인식 (Speech Recognition) : 음성 단어를 식별하고, 텍스트로 변환하고, 화자를 구분하는 것을 의미
-FAR (False Acceptance Rate) : 잘못된 허용 비율 / 틀린 허용 = 정답은 틀림
-FRR (False Rejection Rate) : 잘못된 거절 비율 / 틀린 거절 = 정답은 맞음
인공지능 모델의 성능을 더 높이기 위한 새로운 벤치마크들 등장
코딩 : 컴퓨터가 작업을 수행할 수 있도록 지시사항을 생성하는 것을 포함
최근 LLM들은 숙련된 코더로서 컴퓨터 과학자들에게 귀중한 조력자 역할
Devin : AI software engineer
NeRF : Neural Radiance Fields 2D 이미지를 3D 이미지로 변환하는 기술
LDM : latent diffusion models 잠재 확산 모델
AI 추론 : 다양한 형태의 정보로부터 논리적으로 유효한 결론을 도출
일반 추론
추상적 추론 : 제한된 정보에서 패턴을 파악하고 일반적인 원리를 추론하는 것. 인간의 인지 능력에서 매우 중요한 요소
수학적 추론 : 인공지능의 계획 수립 능력을 평가. LLM을 통해 계획을 수립하는 시스템
시각적 추론 : VCR (Visual Commonsense Reasoning)
도덕적 추론 : 인공지능에서 도덕적 고려가 점점 더 중요해지면서 (의료, 법률 등), 확고한 도덕적 추론 능력이 요구
인과 추론 : 인공지능 시스템이 인과관계를 이해할 수 있는지 확인. Theory-of-Mind(ToM) 역량 (믿음, 의도, 감정 등과 같은 정신 상태를 이해하고 인지하는 역량)
Meta의 Musicgen은 언어 모델. 트랜스포머 아키텍처를 활용하여 오디오를 생성하는 모델
특정 환경에서 목표를 달성하기 위해 설계된 자율적 또는 반자율적 시스템. 현재 최신 AI 연구 분야
학술 연구 지원, 회의 일정 조정, 온라인 쇼핑, 휴가 예약 등 다양한 잠재적 응용 분야 가지고 있음
일반 에이전트
작업 특화 에이전트
PaLM-E : 구글에서 개발한 새로운 AI 모델. 로봇 공학과 언어 모델링을 결합하여 로봇 조작, 지식 작업, 질문 응답, 이미지 캡션 작성 등 실제 작업 처리
RT-2 : 구글 딥마인드에서 만든 LLM 기능을 갖춘 일반화 가능한 로봇 모델. 트랜스포머 기반 아키텍처 사용
failure detection 로봇에서 중요한 영역
시스템은 원하는 목표를 달성하면 보상을 받고, 실패하면 페널티를 받음
RLHF (Reinforcement Learning from Human Feedback) : 기존 강화학습 보상 함수에 인간의 피드백을 포함시켜, 도움이 되고 해가 없는 특성에 대해 모델을 학습시킴
RLAIF (Reinforcement Learning from AI Feedback) : 보상함수에 AI의 피드백을 포함. 인간의 피드백과 성과 측면에서 유사
AI 시대 흐름을 일목요연하게 알 수 있는 수업이었습니다.
스탠포드 대학교에서 모두에게 공개한 자료인데, 지금에서야 접했다는 것이 아쉬웠습니다.
반면에, MS AI School 에서 학습 기회를 얻어 양질의 컨텐츠를 압축해서 배울 수 있는 기회에 감사했습니다.
사용자 편의성까지 고려한 다양한 AI 서비스들이 있음을 알게 됐습니다.
1) 이미 주어진 도구들이 어떤 것이 있는지 알고
2) 필요할 때 자유자재로 해당 서비스를 사용하는 것만으로도
큰 경쟁력이 될 수 있음을 깨달았습니다.
넘쳐난 AI 기술 동향 자료와 서비스들
관심만 있으면 학습하고 서비스를 이용할 수 있다.
Be diligent in AI Report & Service