Daniel.lee/이영락
안녕하세요!!
질문이 있습니당
Profile Avatar
sally(이현경)
안녕하세요!!
Profile Avatar
Daniel.lee/이영락
“특정 도메인에서 모델을 선정할때 어떤 기준들을 가지고 고려를 해야하는가?
관련된 자료나 어떻게 찾아보는게 좋을지???”
가 궁금해져서 찾아오게 되었습니다
Profile Avatar
Daniel.lee/이영락
세부적인것도 적어두긴 했어요 ㅎㅎ
sally(이현경)
혹시 인풋하는 텍스트에서 아미노산 염기서열 관련 텍스트는 어떤 게 있을 수 있을까요??
구분자를 와 같이 사용한다는 거죠?!
Profile Avatar
Daniel.lee/이영락
똑같이 아미노산 염기서열을 쓰긴 하는데
처럼 G0-annotation이라는 단백질 기능을 알려주는 주석을 붙이는건 proteinbert였고
Profile Avatar
sally(이현경)
아아 네네!
아 1,2,3 번이 모델 종류군요!!
Profile Avatar
Daniel.lee/이영락
알파폴드2는 찾아보니까 template으로 넣어서 3d 구조를 파악할 수 있는 input data 한개를 추가해주는게 다른긴 했습니다
넵 맞습니다
Profile Avatar
sally(이현경)
우선 현재는 학습 단계이니 3가지를 다 실험해보시면서 그 성능을 비교해보고 그 차이점이 어디서 오는지를 서베이해보신 것과 연관 지어서 트랜스포머 구조/언어모델의 토큰 등으로 한번 생각해보셔도 도움이 될 것 같아요..!
Profile Avatar
sally(이현경)
그런데 하나를 정해서 먼저해보고자 한다면 저라면 보통 vocab 구성을 먼저 볼 거 같아요
Profile Avatar
Daniel.lee/이영락
비교 분석을 실험을 통해 찾아봐야하는거군요! 현업에서도 모델을 선정하는 과정에서 우선시하는것이 있기보다는 실험적으로 적용해보면서 찾아보는걸까요??
sally(이현경)
염기서열이 예를 들면 "A-T" 이런 텍스트 구조인거 맞나요?!
Profile Avatar
Daniel.lee/이영락
넵 맞습니다!
Profile Avatar
sally(이현경)
회사 문화에 따라 다른 것 같아요
좀더 연구소여서 모델을 연구하는 팀이면 여러가지를 실험해보고 실제로 그 결과를 파악해보는 것도 업무중에 하나가 될 수 있는데요
Profile Avatar
sally(이현경)
좀더 에자일하게 빠르게 개발하는 문화의 회사라면
최근에는 모델을 깊게 연구하기 보다는 좀 퀵하게 가장 나을 모델을 찾고 그것만 학습시켜볼 수 있을 것 같아요
특히 올해들어서 LLM 쪽에서 새로운 PLM이 너무 짧은 주기로 많이 나왔었거든요..ㅠ
ㅋㅋㅋㅋ
Profile Avatar
sally(이현경)
아마 저라면 생명분야에서 예를 들면 염기서열 같은 텍스트를 잘 처리하려면
Profile Avatar
Daniel.lee/이영락
"최근에는 모델을 깊게 연구하기 보다는 좀 퀵하게 가장 나을 모델을 찾고 그것만 학습시켜볼 수 있을 것 같아요" 어느정도 성능이 보장되었기 때문에를 전제로 진행한다고 판단해봐도 되는걸까요??
기본 kobert를 학습시킬때에는 코퍼스로 사용되지 않았던 염기서열 텍스트에서 토큰을 잘 처리하고 연산하기 위한 특정 데이터들을 수집해서 pre-training 과정에서 코퍼스를 어떻게 구성해서 사용했는지를 볼것 같아요!
그렇죠 이미 다른 곳들 다른 사람들이 다 범용적으로 쓰고 있는 모델이니까요 ㅎㅎ
Profile Avatar
sally(이현경)
오전 09:45
이번주에 막 등장해서 성능에 대한 감을 모르겠는 모델이라면 직접 학습시켜봐야 괜찮은지 알겠죠
그런데 지난번에 대학원 생각이 있다고 하셨으니까
아마 아카데믹한 쪽과 현업의 교집합은 아직은 engineering/개발 보다는 모델 연구가 아닐까 싶네용..?
Profile Avatar
sally(이현경)
오전 09:46
근데 이쪽 업계가 너무 빨리 바뀌고 있어서 장담은 못하겠어요
한번 인사이트를 가지고 동향을 읽을 수 있게 여러가지로 관심을 열어두시고 한번 생각해보세요 ㅎㅎ
sally(이현경)
오전 09:47
저라면 예를들면 내가 대학원 졸업하고 나올 n 년 뒤에도 이쪽분야가 연구가 계속 되고 있어서
내가 전공한 대학원과 특정 분야가 현업에서 연구개발하는데 니즈가 있을까?
Profile Avatar
Daniel.lee/이영락
오전 09:47
개인적으로는 대회가 끝나고 성능 비교를 진행해보는것도 재미있다고 생각은 하고 있는데 아무래도 말씀해주시것처럼 현장에서는 이런식으로 진행하지 않는거 같아서 이런점들이 궁금했던것 같아요
Profile Avatar
sally(이현경)
오전 09:47
그런 질문이 종종 들거같아요
Profile Avatar
sally(이현경)
오전 09:48
사실 성능은 같은 모델 파라미터 사이즈 내에서는 큰~ 차이는 없는 편이에요
그런데 지난번에 말씀드렸듯이 좀더 모델을 연구하는 업무 성향의 팀에서는 그런 정량적으로 표현될 수 있는 성능에도 살짝은 집착하는 경향이 있어서
Profile Avatar
sally(이현경)
오전 09:49
성능을 2%p 3%p 높였다고 쓸모가 없진 않고 충분히 성과로 인정받는 분위기가 있어요
그런데 서비스가 더 중심인 회사라면 그런 수치적인 성능보다는 실제로 서비스할때 사용감이 어떤가
쓸만한가 비즈니스적으로는 수치적인 영향력보다 그런점이 중요한 것 같아요!
Profile Avatar
sally(이현경)
오전 09:50
그런데 분야가 생명이다보니 pre-trained PLM에서 관련 토큰들을 못배운 경우라면 성능이 확 좋지 않을 수는 있을 것 같아요
Daniel.lee/이영락
오전 09:50
ㅇㅎ 이해하였습니다!! 그렇다면 " 성능은 같은 모델 파라미터 사이즈 내에서는 큰~ 차이는 없는 편이에요" 한번 직접 확인도 해보겠습니다!! 저번에 말씀해주신 정량적 성능 과 서비스 측면에서 성능 차이에서 선정하는 과정에도 반영이 되는거 같네요!!
그런데 분야가 생명이다보니 pre-trained PLM에서 관련 토큰들을 못배운 경우라면 성능이 확 좋지 않을 수는 있을 것 같아요 이것 관련해서는 같으 모델 파라미터 사이즈내에서 큰 차이가 있는지 없는지 꾸준히 읽어보면서 고찰을 해보겠습니다 ㅎㅎ
Profile Avatar
sally(이현경)
오전 09:51
지금은 학습하시는 과정이니 직접 실험해보셔서 비교해보시면 많은 도움이 되실거에요! 좀 감이 온달까요
네네! 아마 지금 염기서열 태스크에서는 토큰상 한계가 잘 없을 것 같은데
Profile Avatar
Daniel.lee/이영락
오전 09:52
설명해주시는 것을 들어보니 대회까지는 서비스 측면처럼 준비를 한번 해보고 대회 이후에 혼자 직접 비교해보는 실험까지 도전을 해볼까 생각을 해봅니다 ㅎㅎ 재밌을거 같아요!!!
Profile Avatar
sally(이현경)
오전 09:52
제가 생명쪽을 잘 모르지만 다른 태스크라면 아무래도 관련된 토큰들이 포함된 코퍼스들로 사전학습을 진행한 모델이 더 해당 토큰들을 잘 처리하고 파인튜닝 성능도 다소 높게 나올 것 같네요!!
대회가 어떤 대회일까요??
리더보드로 성능을 측정하는 경진대회 같은 건가요?
아님 서비스 기획하는 공모전??
Profile Avatar
sally(이현경)
오전 09:53
아 데이콘이군요
Daniel.lee/이영락
오전 09:53
네네 데이콘이라 성능 측정이긴 한데 시간이 많지는 않아서요 ㅎㅎ 기본적인것에서 성능을 올려볼까 하다가 어떻게 접근해볼까 하는데 저 스스로도 시간 vs 성능 관련해서 고민하다 이런 고민을 해보게 된거 같아요
Profile Avatar
sally(이현경)
오전 09:54
아아 21일까지군요..!!
그럼 모델들 서베이하신 거 바탕으로
추가적으로 사전학습 과정에서 코퍼스를 어떤 경로로부터 어떤 소스 데이터셋으로 수집해서 학습시켰는지를 먼저 찾아보시고 (보통 깃허브 리드미에 정보 적어놨던 거 같아요 허깅페이스에도 가끔 설명 있구요)
Profile Avatar
sally(이현경)
오전 09:55
다른 사람들이 많이 사용하는 거 한번 찾아보시고
벤치마크 성능같은거 있으면(생명쪽 벤치마크) 그걸로 PLM 성능 비교해보셔서 21일까지니까 우선은 하나로 학습시켜서 점수 제출해보시고
Profile Avatar
sally(이현경)
오전 09:56
시간 되는대로 마감전까지 다른 실험도 돌려보시면 좋을 것 같네요!
흠 근데 이거 정형데이터인데요??!
Profile Avatar
Daniel.lee/이영락
오전 09:57
넵!!! 그래서 proteinbert로 일단은 finetuning하던거 마무리해볼거 같습니다
네네
오잉? 제가 놓친게 있을까요??
Profile Avatar
sally(이현경)
오전 09:57
데이터 엑셀 파일은 정형데이터인데
Profile Avatar
sally(이현경)
오전 09:58
모델에 어떤 텍스트를 인풋해서 어떤 걸 분류?하는 태스크일까요??
아 저게 original sequence를 찾고 저건 mutation 만 표시해준거라 그걸 기반으로 데이터 전처리해서 sequence로 다**꿔서 넣을려고 합니다
Profile Avatar
sally(이현경)
오전 09:59
아하 아웃풋은 암종 26개로 분류되어야 하나보네요!
아아 그렇군요 그래서 BERT를 쓸수 있군요 ㅎㅎ
아마 분류 태스크면 버트로도 성능이 준수할거에요 ㅎㅎ
Profile Avatar
Daniel.lee/이영락
오전 09:59
R895R 이게 895번이 R에서 muation일어나도 다시 R이 되었다 이런 의미라
Profile Avatar
sally(이현경)
오전 10:00
오 혹시 가능하시면 추가실험 해보실때
그런 의미적인것도 sequence 구성 시 맥락으로 같이 넣어서 실험해봐도 좋을 것 같아요!
Profile Avatar
Daniel.lee/이영락
오전 10:02
어 맞아요!! go - annotation에서 주석을 사용한 방식에서 맥락으로 넣어볼까 했고, Git에서 그런식으로 Driven(암 유발 변이) /passenger(우연히 일어난 변이) 로 의미를 나누는데 집중하는것 같아서 이를 종합해보는 방향도 생각해보고 있습니다!!
Profile Avatar
sally(이현경)
오전 10:02
오오 좋네요!!
Profile Avatar
Daniel.lee/이영락
오전 10:03
아직은 공부단계라 오래 걸리수도 있지만 꾸준히 해보고 기회도미녀 공유해보겠습니당!!!!
혹시 대화내용 복붙해가도 될까요?? 정리해둘까 합니다!
Profile Avatar
sally(이현경)
오전 10:03
네 좋아용ㅎㅎ 화이팅입니다!!
그럼요~~
Profile Avatar
Daniel.lee/이영락
오전 10:03
항상 답변 너무 열심히 해주셔서 감사합니다!!
Profile Avatar
sally(이현경)
오전 10:03
감사합니다ㅎㅎ