희망 연구 분야

꼼댕이·2023년 5월 17일
0

희망 연구 분야

목록 보기
1/1
post-thumbnail

시간이 지나고 좀더 고민하면서 계속해서 이 분야에 관한 생각을 정리해나가야겠다. (항상 이 페이지에서 썼던 건 생각이 바뀌더라도 지우지말고 남겨두자)

희망 연구분야라고 쓰고 일기라고 읽는 페이지..


2023/09월

2023/09/14

이전에 생각했던 Human Computer Interaction에서 더 natural한 감정을 사람이 내보이는 것을 포착하기 위해선 감시가 답인건가..? 라는 생각이든다..

감정인식을 하고 싶은 이유는 진짜 내 감정을 이해해주는 AI를 원하기 때문인데, 이전에 생각했던 것처럼 사람과 사람이 대화하듯, 사람이 컴퓨터에 대고 내 솔직한 심정을 말을 하는 경우가 얼마나 될까? 아마 정말 많이 없을 것이라고 생각한다.

그렇기에 사람의 진짜 감정을 이해하기 위해서는 사람이 컴퓨터(혹은 그냥 기계)에 자신이 노출되고 있음을 인지하지 못한 상태에서 기계가 이를 인지할 수 있는 것은 휴머노이드가 정말 잘 발달되지 않는 한 "감시"의 개념밖에 없는가? 라는 생각이 든다.


2023/08월

2023/08/31

논문을 읽을 때 어떤 걸 주의해야 할까?

현재 problem에 대해 정의를 내릴 생각을 하면서 동시에 멀티모달 퓨전 방법에 대해 필요함


2023/08/27

8월 23일에 했던 고민에 대한 답이 어느 정도 나왔다..

감정에 대한 정확한 정의를 하며 affect와 emotion의 차이를 정의하게 됐고, 둘의 가장 큰 차이점은 인지 전/후와 사람의 언어로 표현할 수 있는 분류의 문제라고 생각하게 됐다.

즉, emotion은 사람이 인지할 수 있는 언어로 표현가능한 분류(행복, 기쁨 ...)이며 base로 쓰이는 6가지 감정이 이미 정의 돼있지만, affect는 사람이 인지하기 이전의 언어로 표현 불가능한, 감정의 스펙트럼에 대한 continuous한 값이다.

앞서 고민했던 discrete한 감정분석의 이유, dimensional modeling, 미묘한 감정을 인식하는 방법 등이 모두 affect와 관련된 것이고 이에 대한 연구로써 이미 Affective Computing이라는 task가 있다.

문제는 Affective Computing에 쓰이는 데이터로 audio, visual 등의 비언어적 모달로 얻는 것과 동시에 EEG, 그 외 psycholgical signal (뇌 신호 등..)의 데이터도 많이 쓰여서 abstract를 모두 읽으며 논문을 정리해야 downstream task에 맞는 논문들을 추릴 수 있다는 것이고, 생각보다 audio-visual multimodal affect recognition은 많지 않다.

또한 multimodal affect recognition을 표현하는데 키워드가 생각보다 다양하는 점 또한 문제가 있었다.

  • continuous emotion recognition
  • dimensional emotion recognition
  • affective computing
  • affect recognition
  • visual-audio fusion affect recognition

2023/08/23

감정 분석이 왜 필요한가?

논문들을 보면 감정분석은 단순하게 사람간의 소통에서 굉장히 중요하며 이는 고객 맞춤형 추천에 도움이되거나 NLP를 통한 다양한 활용에 사용할 수 있다고 한다.. 하지만 나는 감정분석이라는 것 자체가 단순하게 이 사람에 대한 정보를 알기 위한 하나의 수단 보다는 이 사람에게 좀 더 직접적으로 중요한 결정을 내려주는 것으로 활용될 수 있다고 생각한다. 실생활에서 감정분석이란 정말 미묘하고 빠르게 변화되며 이를 알아차리고 공감하고, 해결책을 내려주는 것에 큰 고마움을 느낄 수 있다고 생각하기 때문이다.

이러한 관점에서 현재까지 연구된 감정분석은 두가지 범주를 무시하고 있다고 생각한다.
1. 미묘한 감정 분석에 대한 연구를 discrete하게 보는 관점
2. 실시간 처리보다는 이미 지나간 과거의 감정(input으로써 complete한 video 혹은 댓글 등..)을 보려는 관점

물론 여기서 (1) discrete하게 보는 관점에 대한 연구일수 밖에 없는 이유는 많은 논문들에서 쓰이고 있는 것 같고, 이를 dimensional model(continuous model)로써 활용하려는 논문도 있는 것 같아, 이 부분에 대해 먼저 공부해야할 것 같다.

(2)번은 감정분석에 대한 audio-visual multimodal의 가장 큰 장점이 될 수 있다고 생각한다. 기본적으로 NLP를 활요한 감정 분석은 모두 complete한 input에 대한 감정분석이 이뤄질 수 밖에 없기 때문에 text기반의 감정분석은 이를 활용할 수 없다 생각하며, 실생화에서 빠르게 표현되는 감정에 대해서는 표정과 목소리의 매칭이 변화가 가장 중요하다고 생각한다. 또한 이 둘을 기반으로 uni-modal보다 더 정교한 감정분석을 이뤄낼 수 있을거라 생각하기 때문이다.

late fusion에 대한 생각

late fusion에 대해서는 상당히 부정적인 편이다. 사실 그 이유에 대해 명확하고 논리적으로는 설명할 수 없지만, modal에서 나온 각각의 결과를 합치는 방법은 각 modal의 temporal한 특성을 무시하고, 각 modal의 feature간의 realationship을 제대로 catch하기 못한 채 결과를 앙상블하는 느낌으로밖에 다가오지 않기 때문인 것 같다. 이 부분은 Early fusion을 지양하는 이유와도 유사한데 결과적으로 가장 중요한 건 각modal에서 나오는 feature의 temporal함과 relationship을 잘 매칭 시키는 것이 이 연구의 핵심이 될 것이다.

결국 내가 하려는 연구에서 중요한 점들은?

결국 현재까지 중요하다고 생각되는건 다음 3가지로 요약할 수 있을 것 같다.

  • 미묘한 감정을 인식할 수 있는 방법에 대한 연구
  • feature relationship의 matching에 대한 깊은 연구
  • 실시간 처리가 가능한 모델의 연구
  • 가벼운 모델 (보류)

그럼 지금 해야될 일은?

  • 감정에 대한 정확한 정의들 (affect, emotion, sentiment 등... 생각보다도 많다..)
  • discrete한 감정분석으로 진행해야만 했던 이유 찾기
  • dimensional model(continuous한 emotion recognition)에 대한 논문 찾기
  • 실시간 모델링
  • feature relationship matching 논문 찾기
  • 모델 경량화(가벼운 모델링을 위한 방법 찾기)

2023/07월

2023/07/29

video frame을 기반으로 말을 예측?
-> visual audio이면서 활용성도 높아보임
-> 국내 기업에는 어떤게 있을까?에 대해 조사해보자

2023/07/27

처음 감정분석을 생각한 이유:

사람과 사람간의 대화에서 가장 중요한 요소중 하나이며 감정을 파악하고 위로해줄 수 있는 것은 후에 고령화 사회에서 정신질환에 많은 도움이 될 것으로 막연하게 추측했었다.

간과한건 엄연하게 컴퓨터와 사람의 대화에서 얻을 수 있는 정보를 기반으로 하는 것이기 때문에 100% 사람과 사람의 대화 상황을 고려하려면 마치 인공지능이 사람과 똑같은 대화와 행동을 할 수 있을정도의 발달이 기반이 되어야 의미가 있는 연구이다. 즉 소비자 입장에서는 "내 감정을 알아줘!" 라고 말하지 않아도 감정을 알아주고 어떤 제품이든 노래든 추천해주거나 혹은 어떤 행동을 하는 것을 더 추구할 것이라 생각된다. 내가 만드려고 했던 것은 철저히 연구에 기반한 "내 감정을 알아줘!" 수준이다. 왜냐하면 핸드폰을 두고 본인의 표정과 목소리를 계속해서 프로그램에 사용하지 않을 것이기 때문이다. 무의식중에 나오는 감정을 포착하는 데 있어 이 부분이 가장 큰 문제가 된다고 느껴진다.

만약에 이 연구주제를 정하게 된다면 정말 나중에 영화와 같은 상황처럼 프로그램에 대고(그게 아이로봇의 물리적 인공지능 기계든, 홀로그램 화상회의와 같은 프로그램이든) 사람과 사람이 대화하는 듯한 조건이 주어진다면 유의미하지 않을까 싶다.

2023/07/25

심리학, 감정분석 쪽으로는 점점 생각이 바뀌는 것 같고, 오히려 회사를 탐색 후 오디오 + text 기반 생성 모달쪽으로 생각해봐야 할 듯함

오디오 + text기반 생성 모델 쪽
ex) input 들어간 뉴진스 노래를 new age로 바꿔줘~
-> 대표적으로 AI Cover와 유사한 기술들에 대해 고민해보기

-> 근데 이렇게 하면 아마 실력상 부족할 부분이 많음
-> 현재 AI Cover 역시 원하는 목소리의 wav 파일 + 입힐 노래 파일을 입혀서 text를 포함하는 멀티모달보다는 단순 오디오 생성으로 보임

-> 실질적으로 국내에서 audio+text를 활용하는 것이 있나? 있어도 굉장히 불안정할 것 같은데..

2023/07/04

여전히 심리학과 오디오 생성에서 고민하고 있지만, 좀 더 실용성을 생각해서 멀티 모달에 관한 부분을 자세히 공부하고 있어야겠다.

심리학과 관련해서는

  • 성과를 겉으로 볼 수 있는가?
  • 실용성이 있는가?
  • 자료가 많은가?

이것들에 대해 고민을 이어가야 할 것 같고.

심리학을 쓰더라도 결국엔 멀티모달이 기반이 되어야하며 심리학과 관련되지 않더라도 멀티모달에 대한 base는 언젠가 쓸모가 있겠지...

일단 멀티 모달에 대한 공부(code base, 이론)을 진행하자.

8월 전까지 유명 최신 논문과 멀티모달 관련 논문 하나씩 정리하자

  • Stable Diffusion (CV 논문 하나 정리)
  • 멀티모달은 아직 미정...

2023/06월

2023/06/30

현재 고민하고 있는 건 크게 두가지다

  • 심리학 관련 AI

    • Neuro DataScience, Computational DataScience 분야가 이와 유사

    심리학 관련 AI는 하고싶긴 하지만 결과물이 명확하지 않을 수 있고, 실용성을 따지면 조금 부족할 수도 있다고 생각된다.

    그리고 난 결과물이 명확하지 않으면 생각보다 흥미를 덜 가지는 경향이 있는 것 같다. 그래서 백엔드보다 프론트엔드를 조금 더 재밌게 했던 것 같기도한다.

  • 오디오 생성 AI
    결과물도 명확하고 실용성도 굉장히 높을 것으로 생각된다. 다만 이미 잘 개발된 모델이 많은 것 같아 이 분야에서 살아남을 수 있을지 모르겠다.

원하는 건 아래에도 계속 했던 것처럼 사람에게 심적으로 선한 영향력을 줄 수 있는 것을 원한다. 이에 음악이 활용됐으면 하는거고... 좀 더 자료조사하고 대학원 시작 전까지는 명확한 목표를 설정하자.

자료조사를 할 때 고려해야할 점을 생각해보자

  • 실용성
  • 이 업계에서 내가 살아남을 수 있는가?

2023/06/24

음악 생성 분야쪽도 재밌을 것 같다.

막약에 감성분석이 실용성이 없다면 이 분야에 대해 제대로 공부해보고 싶다는 생각이 갑자기 든다.

ex)

  • 가사에 맞는 pop 스타일 변경
  • kpop -> jpop
  • pop -> kpop 등...

2023/06/18

사람의 감성을 분석하는 연구 => 과연 실용적일까?

좀 더 연구 선정에 명확한 목적을 정의해보자

Q) 하고 싶은게 정확하게 뭐야?
A) 공감형AI: 사람을 위로해주는 선한 영향력을 줄 수 있는 AI를 원해

Q) 사람을 위로하려면 어떻게 해야하는데?
A) 우선 그 사람의 현재 상황을 파악해야겠지?

Q) 현재 상황이나 기분을 파악해서 어떤 방식으로 위로해줄껀데?

Q) 어떻게 할때 내가 위로받는 생각이 들지?
A) 내가 위로받는 건 나와 공감되는 사연을 들을 때, 내가 상황에 맞는 노래(멜로디, 가사가 모두 중요한 것 같아)를 들을 때, 같이 있어줄 사람이 필요할 때 인것 같아.

Q) 기쁠 때, 슬플 때 사람은 어떤 것을 필요로 하지?


2023/05월

내가 원하는 연구분야는 무엇인가?

-> 멀티 모달 기반의 감성 분석

이유: 사람을 표현하고 이해하는데 있어 이미지, 오디오 등 modal 하나를 집중적으로 파는 것보다, 여러 modal을 통해 종합적인 판단을 내리는 것이 더 큰 의미가 있고 AI에 맞다 생각하기 때문이다.

실제로, 사람의 감정을 판단하는데 있어 표정과 음성 두 가지를 기반으로 분석할 수 있다면 더 정확한 판단을 할 수 있는 것과 마찬가지라고 생각한다.

해당 연구분야를 통해 개발하고 싶은 프로그램은?

-> 공감 AI Music Bot

사람의 표정과 목소리를 기반으로 그 시점에 가장 잘 어울리는 음악을 생성하거나 혹은 추천해주는 서비스를 개발하고 싶다.

음악은 사람의 감정을 극대화시키기도 하고 완화시키기도 한다. 기쁠 때는 더 신나게 해주기도 하고, 슬플 때는 위로해주기도 하는 것을 보면 그런 생각이 든다.

즉 음악으로 사람을 더 공감해주고 일상에서 힐링할 수 있는 서비스를 개발해, 스마트폰 혹은 기가 지니 등에 탑재하고 싶은 꿈이 있다.

해당 연구에 대한 사례 혹은 앞으로의 방향은 어떻게 하고 있는가?

<해당 연구 분야 논문 조사>

1. Visual-Audio 논문

  • Deep Fusion: An Attention Guided Factorized Bilinear Pooling for Audio-video Emotion Recognition

논문을 정한 이유:
2019년 중국에서 IEEE에 등재한 논문이다.
음악 생성 혹은 추천을 제외하고, 앞단(추천 혹은 생성에 필요한 input)에 들어가기 위한 사람의 표정 인식 및 오디오 인식에 가장 적합하다고 생각했기 때문이다.

논문 정리
https://syjeong.tistory.com/2

profile
사람을 연구하는 공돌이

0개의 댓글