퍼실레이터 상담

이영락·2024년 10월 17일
0

인공지능 공부

목록 보기
31/33

Daniel.lee/이영락
안녕하세요!!

질문이 있습니당

Profile Avatar
sally(이현경)
안녕하세요!!

Profile Avatar
Daniel.lee/이영락
“특정 도메인에서 모델을 선정할때 어떤 기준들을 가지고 고려를 해야하는가?
관련된 자료나 어떻게 찾아보는게 좋을지???”

가 궁금해져서 찾아오게 되었습니다

Profile Avatar
Daniel.lee/이영락
세부적인것도 적어두긴 했어요 ㅎㅎ

sally(이현경)
혹시 인풋하는 텍스트에서 아미노산 염기서열 관련 텍스트는 어떤 게 있을 수 있을까요??

구분자를 와 같이 사용한다는 거죠?!

Profile Avatar
Daniel.lee/이영락
똑같이 아미노산 염기서열을 쓰긴 하는데

처럼 G0-annotation이라는 단백질 기능을 알려주는 주석을 붙이는건 proteinbert였고

Profile Avatar
sally(이현경)
아아 네네!
아 1,2,3 번이 모델 종류군요!!

Profile Avatar
Daniel.lee/이영락
알파폴드2는 찾아보니까 template으로 넣어서 3d 구조를 파악할 수 있는 input data 한개를 추가해주는게 다른긴 했습니다

넵 맞습니다

Profile Avatar
sally(이현경)
우선 현재는 학습 단계이니 3가지를 다 실험해보시면서 그 성능을 비교해보고 그 차이점이 어디서 오는지를 서베이해보신 것과 연관 지어서 트랜스포머 구조/언어모델의 토큰 등으로 한번 생각해보셔도 도움이 될 것 같아요..!

Profile Avatar
sally(이현경)
그런데 하나를 정해서 먼저해보고자 한다면 저라면 보통 vocab 구성을 먼저 볼 거 같아요

Profile Avatar
Daniel.lee/이영락
비교 분석을 실험을 통해 찾아봐야하는거군요! 현업에서도 모델을 선정하는 과정에서 우선시하는것이 있기보다는 실험적으로 적용해보면서 찾아보는걸까요??

sally(이현경)
염기서열이 예를 들면 "A-T" 이런 텍스트 구조인거 맞나요?!

Profile Avatar
Daniel.lee/이영락
넵 맞습니다!

Profile Avatar
sally(이현경)
회사 문화에 따라 다른 것 같아요

좀더 연구소여서 모델을 연구하는 팀이면 여러가지를 실험해보고 실제로 그 결과를 파악해보는 것도 업무중에 하나가 될 수 있는데요

Profile Avatar
sally(이현경)
좀더 에자일하게 빠르게 개발하는 문화의 회사라면

최근에는 모델을 깊게 연구하기 보다는 좀 퀵하게 가장 나을 모델을 찾고 그것만 학습시켜볼 수 있을 것 같아요

특히 올해들어서 LLM 쪽에서 새로운 PLM이 너무 짧은 주기로 많이 나왔었거든요..ㅠ

ㅋㅋㅋㅋ

Profile Avatar
sally(이현경)
아마 저라면 생명분야에서 예를 들면 염기서열 같은 텍스트를 잘 처리하려면

Profile Avatar
Daniel.lee/이영락
"최근에는 모델을 깊게 연구하기 보다는 좀 퀵하게 가장 나을 모델을 찾고 그것만 학습시켜볼 수 있을 것 같아요" 어느정도 성능이 보장되었기 때문에를 전제로 진행한다고 판단해봐도 되는걸까요??

기본 kobert를 학습시킬때에는 코퍼스로 사용되지 않았던 염기서열 텍스트에서 토큰을 잘 처리하고 연산하기 위한 특정 데이터들을 수집해서 pre-training 과정에서 코퍼스를 어떻게 구성해서 사용했는지를 볼것 같아요!

그렇죠 이미 다른 곳들 다른 사람들이 다 범용적으로 쓰고 있는 모델이니까요 ㅎㅎ

Profile Avatar
sally(이현경)
오전 09:45
이번주에 막 등장해서 성능에 대한 감을 모르겠는 모델이라면 직접 학습시켜봐야 괜찮은지 알겠죠

그런데 지난번에 대학원 생각이 있다고 하셨으니까

아마 아카데믹한 쪽과 현업의 교집합은 아직은 engineering/개발 보다는 모델 연구가 아닐까 싶네용..?

Profile Avatar
sally(이현경)
오전 09:46
근데 이쪽 업계가 너무 빨리 바뀌고 있어서 장담은 못하겠어요

한번 인사이트를 가지고 동향을 읽을 수 있게 여러가지로 관심을 열어두시고 한번 생각해보세요 ㅎㅎ

sally(이현경)
오전 09:47
저라면 예를들면 내가 대학원 졸업하고 나올 n 년 뒤에도 이쪽분야가 연구가 계속 되고 있어서

내가 전공한 대학원과 특정 분야가 현업에서 연구개발하는데 니즈가 있을까?

Profile Avatar
Daniel.lee/이영락
오전 09:47
개인적으로는 대회가 끝나고 성능 비교를 진행해보는것도 재미있다고 생각은 하고 있는데 아무래도 말씀해주시것처럼 현장에서는 이런식으로 진행하지 않는거 같아서 이런점들이 궁금했던것 같아요

Profile Avatar
sally(이현경)
오전 09:47
그런 질문이 종종 들거같아요

Profile Avatar
sally(이현경)
오전 09:48
사실 성능은 같은 모델 파라미터 사이즈 내에서는 큰~ 차이는 없는 편이에요

그런데 지난번에 말씀드렸듯이 좀더 모델을 연구하는 업무 성향의 팀에서는 그런 정량적으로 표현될 수 있는 성능에도 살짝은 집착하는 경향이 있어서

Profile Avatar
sally(이현경)
오전 09:49
성능을 2%p 3%p 높였다고 쓸모가 없진 않고 충분히 성과로 인정받는 분위기가 있어요

그런데 서비스가 더 중심인 회사라면 그런 수치적인 성능보다는 실제로 서비스할때 사용감이 어떤가

쓸만한가 비즈니스적으로는 수치적인 영향력보다 그런점이 중요한 것 같아요!

Profile Avatar
sally(이현경)
오전 09:50
그런데 분야가 생명이다보니 pre-trained PLM에서 관련 토큰들을 못배운 경우라면 성능이 확 좋지 않을 수는 있을 것 같아요

Daniel.lee/이영락
오전 09:50
ㅇㅎ 이해하였습니다!! 그렇다면 " 성능은 같은 모델 파라미터 사이즈 내에서는 큰~ 차이는 없는 편이에요" 한번 직접 확인도 해보겠습니다!! 저번에 말씀해주신 정량적 성능 과 서비스 측면에서 성능 차이에서 선정하는 과정에도 반영이 되는거 같네요!!

그런데 분야가 생명이다보니 pre-trained PLM에서 관련 토큰들을 못배운 경우라면 성능이 확 좋지 않을 수는 있을 것 같아요 이것 관련해서는 같으 모델 파라미터 사이즈내에서 큰 차이가 있는지 없는지 꾸준히 읽어보면서 고찰을 해보겠습니다 ㅎㅎ

Profile Avatar
sally(이현경)
오전 09:51
지금은 학습하시는 과정이니 직접 실험해보셔서 비교해보시면 많은 도움이 되실거에요! 좀 감이 온달까요

네네! 아마 지금 염기서열 태스크에서는 토큰상 한계가 잘 없을 것 같은데

Profile Avatar
Daniel.lee/이영락
오전 09:52
설명해주시는 것을 들어보니 대회까지는 서비스 측면처럼 준비를 한번 해보고 대회 이후에 혼자 직접 비교해보는 실험까지 도전을 해볼까 생각을 해봅니다 ㅎㅎ 재밌을거 같아요!!!

Profile Avatar
sally(이현경)
오전 09:52
제가 생명쪽을 잘 모르지만 다른 태스크라면 아무래도 관련된 토큰들이 포함된 코퍼스들로 사전학습을 진행한 모델이 더 해당 토큰들을 잘 처리하고 파인튜닝 성능도 다소 높게 나올 것 같네요!!

대회가 어떤 대회일까요??

리더보드로 성능을 측정하는 경진대회 같은 건가요?

아님 서비스 기획하는 공모전??

Profile Avatar
sally(이현경)
오전 09:53
아 데이콘이군요

Daniel.lee/이영락
오전 09:53
네네 데이콘이라 성능 측정이긴 한데 시간이 많지는 않아서요 ㅎㅎ 기본적인것에서 성능을 올려볼까 하다가 어떻게 접근해볼까 하는데 저 스스로도 시간 vs 성능 관련해서 고민하다 이런 고민을 해보게 된거 같아요

Profile Avatar
sally(이현경)
오전 09:54
아아 21일까지군요..!!

그럼 모델들 서베이하신 거 바탕으로

추가적으로 사전학습 과정에서 코퍼스를 어떤 경로로부터 어떤 소스 데이터셋으로 수집해서 학습시켰는지를 먼저 찾아보시고 (보통 깃허브 리드미에 정보 적어놨던 거 같아요 허깅페이스에도 가끔 설명 있구요)

Profile Avatar
sally(이현경)
오전 09:55
다른 사람들이 많이 사용하는 거 한번 찾아보시고

벤치마크 성능같은거 있으면(생명쪽 벤치마크) 그걸로 PLM 성능 비교해보셔서 21일까지니까 우선은 하나로 학습시켜서 점수 제출해보시고

Profile Avatar
sally(이현경)
오전 09:56
시간 되는대로 마감전까지 다른 실험도 돌려보시면 좋을 것 같네요!

흠 근데 이거 정형데이터인데요??!

Profile Avatar
Daniel.lee/이영락
오전 09:57
넵!!! 그래서 proteinbert로 일단은 finetuning하던거 마무리해볼거 같습니다

네네

오잉? 제가 놓친게 있을까요??

Profile Avatar
sally(이현경)
오전 09:57
데이터 엑셀 파일은 정형데이터인데

Profile Avatar
sally(이현경)
오전 09:58
모델에 어떤 텍스트를 인풋해서 어떤 걸 분류?하는 태스크일까요??

아 저게 original sequence를 찾고 저건 mutation 만 표시해준거라 그걸 기반으로 데이터 전처리해서 sequence로 다**꿔서 넣을려고 합니다

Profile Avatar
sally(이현경)
오전 09:59
아하 아웃풋은 암종 26개로 분류되어야 하나보네요!

아아 그렇군요 그래서 BERT를 쓸수 있군요 ㅎㅎ

아마 분류 태스크면 버트로도 성능이 준수할거에요 ㅎㅎ

Profile Avatar
Daniel.lee/이영락
오전 09:59
R895R 이게 895번이 R에서 muation일어나도 다시 R이 되었다 이런 의미라

Profile Avatar
sally(이현경)
오전 10:00
오 혹시 가능하시면 추가실험 해보실때

그런 의미적인것도 sequence 구성 시 맥락으로 같이 넣어서 실험해봐도 좋을 것 같아요!

Profile Avatar
Daniel.lee/이영락
오전 10:02
어 맞아요!! go - annotation에서 주석을 사용한 방식에서 맥락으로 넣어볼까 했고, Git에서 그런식으로 Driven(암 유발 변이) /passenger(우연히 일어난 변이) 로 의미를 나누는데 집중하는것 같아서 이를 종합해보는 방향도 생각해보고 있습니다!!

Profile Avatar
sally(이현경)
오전 10:02
오오 좋네요!!

Profile Avatar
Daniel.lee/이영락
오전 10:03
아직은 공부단계라 오래 걸리수도 있지만 꾸준히 해보고 기회도미녀 공유해보겠습니당!!!!

혹시 대화내용 복붙해가도 될까요?? 정리해둘까 합니다!

Profile Avatar
sally(이현경)
오전 10:03
네 좋아용ㅎㅎ 화이팅입니다!!

그럼요~~

Profile Avatar
Daniel.lee/이영락
오전 10:03
항상 답변 너무 열심히 해주셔서 감사합니다!!

Profile Avatar
sally(이현경)
오전 10:03
감사합니다ㅎㅎ

profile
AI Engineer / 의료인공지능

0개의 댓글

관련 채용 정보