LangCon2024 후기

Judy·2024년 3월 3일

LangCon LangCon2024 랭콘

NLP

목록 보기

7/8

이번 LangCon 의 주제는 '생성 모델 튜닝(LLM)' 으로,
학계 및 업계의 다양한 시각과 시도에 대해 전해 들을 수 있었던 시간이었습니다.

(개인적으로 Langcon2020 에서 발표한 후, 첫 랭콘 참석이었습니다 😊)

LangCon2024 안내 페이지
발표자 및 발표자료

발표내용

발표내용을 최대한 받아 적었으며, 중간중간 사진도 찍었으나
공개되지 않은 발표자료의 경우 발표자의 의사를 존중하여 사진을 첨부하지 않았습니다.

Keynote : 생성 모델 튜닝 어디까지 왔나?

고석현 (Sionic AI Inc Chief Executive Officer)

키노트답게 LLM에 대한 Wrap-up 이 훌륭했던 세션이었습니다.

왜 튜닝?

one-shot, few-shot, zero-shot 이 어려운 태스크를 해결하기 위해서
모델의 결과물과 스타일을 제어하기 위해서
내가 원하는 대상을 학습하고 싶을 때

생성 모델 튜닝의 주요 사건

오픈소스 모델의 공개와 튜닝의 시대
In-context Learning -문맥에서 등장한 개념을 즉시 습득하는 능력
단순한 하지만 빠른 방식의 양자화(Quantization) 라이브러리 -> 컴퓨팅 자원 감소
- LLM 튜닝의 큰 어려움 중 하나인 Optimizer 의 메모리 양자화의 수혜
  - 단, Fine-Tuning 에서만 잘 됨.
- 그러나 이는 LLM의 모델 규모가 증가하며 매우 안정된 가중치의 분포를 보인 이후 시점부터 한정적으로 가능한 방법들.
  - 라틴 계열이 아닌 소수 언어(한국어) sLLM 의 경우 여전히 막대한 규모.

생성 모델 튜닝의 방식

Pre-Training -> SFT -> RLHF -> Downstream Application

검색 증강 생성 기법 (RAG)

실제 산업계에서는 더 중요하게 본다
기존 생성 방법의 문제점
- '적당히 좋은' 생성의 후보를 고를 가능성
  - ex : 할루시네이션

LLM 이 잘 할 수 있는 일 : 추론

오픈북으로 시험을 보는 사람과 같음
LLM에게 추론할 재료를 주고 추론을 시킨다

남은 문제점들

차원의 저주
- 우리는 아직 고차원을 쉽게 다룰 방법을 알지 못함
RAG의 검색 문제 자체가 LLM보다 더 비싸고 어려워짐
주어진 지식과 상식이 다를 때 성능이 떨어짐
- RAG 를 쓰더라도 모델이 작아지면 성능이 떨어짐
모델과 지침의 변경마다 일관된 성능을 내기 위한 MLOps 영역까지 고려

한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성

(a.k.a. 기브 미 쪼꼬렛: 한국어 오픈소스 LLM 주세요 🍫)

신정규 (Lablup Inc. Chief Executive Officer)

LLM 을 개발하기 위한 컴퓨팅 자원 위주의 발표였습니다.

최근 LLM 을 넣어서 논리를 처리할 수 있게 됨

언어 구조 밑에 깔려 있는 수학적, 논리적 구조를 결합한 것을 인간의 언어로 된 인터페이스로 통합.
언어 종류 상관없이 논리가 깔려 있음.

스케일 전쟁

스케일은 너무나 빨리 커지고 있다
사전 훈련 모델 / 파운데이션 모델 (Pre-trained Model == Foundation Model)
- 문제 : 파운데이션 모델 훈련에는 막대한 자원이 들어감!
파인 튜닝
- 뭐든 다 되는 모델을 만들어 놓고 파인튜닝시킴.
모델에 들어가는 자원은 5년간 만 배가 늘음.
- 모델은 엄청난 속도, 엄청난 사이즈로 발전(증가)하고 있음.

AI 연산 자원 소개 (1세대~ 4세대) 및 전력 소모량 소개/비교

AI + 딥러닝 : 오픈소스 문화 기반 분야

AI는 GitHub 이후에 발전됨.
코드가 있어도 규모 (장비) 가 없고, 노하우가 없으면 개발하기 어려움.
Llama 가 의도치 않게 오픈소스로 풀려버림...

2023년 3월 이후

독점적 파운데이션 모델 사업의 변화
파운데이션 모델도 오픈소스로?
국가 단위의 기반 언어 모델 공개
한국어는 아직... (모델이 한국어를 할 줄 아는 것이지, 한국어 모델 자체가 나온 것이 아님)
- 사실상 폴리글랏 제외하면 없음.

토크나이저
1세대 : 형태소 기반, 서브워드...
2세대 : 형태소 없는 통계 기반

de facto tokenizers 등

결론

확실한 미래
- AGI 와 sLLM 의 간극
- 저렴해지는 연산 자원
- 알고리즘과 우리 이해의 발전
자본의 역학과 오픈소스 모델의 중요성

LLM의 능력과 활용: 혁신적인 문제 해결을 위한 새로운 도구

박우명 (Sionic AI Inc, CDO / Head of Research)

LLM 활용 1타 강사 우명님...!
개인적으로 작년부터 LLM 붐이 일었는데 트렌드 팔로업을 못해서 랭콘에 귀동냥을 하러 온 지라
이 발표만으로 LLM에 대해 많이 알 수 있고 트렌드를 팔로업할 수 있었습니다!

발표자료

1. Introduction:생성 모델, 튜닝

언어 모델 : 현재의 입력을 바탕으로 다음에 나올 단어를 예측하는 모델
초거대 언어 모델 : 엄청나게 큰 언어 모델
- parameter 100억 개 이상 모델
튜닝 : LLM을 활용하여 원하는 동작을 수행하기 위해 입맛에 맞게 “조율”하는 것

2. LLM의 능력

Prompt : LLM 의 가장 큰 특징 (=In-Context Learning. Fine-Tuning 이 없어도 됨)

Prompt는 사람이 LLM과 소통할 수 있는 수단
Prompt의 구성
Instruction+Demonstrations(Optional)
간단한 지시문과 몇 개의 예제만으로 간단히 AI 모델 제작 가능

1. 추론

추론 : 미리 알려진 사실을 근거로 새로운 판단 또는 결론을 이끌어 냄

초기 시도 : 풀이 과정을 LLM이 스스로 생성
Scratch pads:추론 과정을 Code로 생성. 답변 작성에 활용
Chain of Thoughts(CoT):추론 과정을 자연어로 생성(= 자유도가 높음) -> 답변 작성에 활용
- • EmergentAbility : LLM이 일정 수준 이상인 경우 효과가 발생
추론 성능 향상하기
- Self-consistency : 동일 Prompt로 다양한 sampling방법을 통해 여러개의 답을 생성한 후 다수결로 최종 답을 선택
  - Ensemble로 인한 개선 효과 존재. 추론을 여러 번 해야 하므로 Cost증가
- Diversity of Thoughts(DoT) : 풀이 방법에 대한 지시문을 입력하여 다양한 방법으로 답변을 생성한 후 다수결로 최종 답변을 선택
  - SC대비 더 뛰어난 cost-performance trade off 제공

1 : 여러 번 풀어본 후 생성 결과 조합
• Self-consistency:동일 Prompt로 다양한 sampling방법을 통해 여러 개의 답을 생성한 후 다수결로 최종 답을 선택

2 : Coding 능력 활용하기
Chain of Code(CoC):추론 과정에 Code를 생성하고, Python code interpreter 와 LLM interpreter 양쪽 능력을 모두 활용할 수 있는 방법
• 평균적인 사람보다 잘하며 알고리즘 문제는 사람의 최고 점수보다 더 높음

3 : 정답과 오답을 동시에 참고하기

4 : 단계별로 기록하며 풀기

5 : 풀이 방법을 정한 후 실제 문제 풀기

추론 능력은 AI기술이 “Intelligence”를 갖기 위해 필요한 능력
• LLM은 긴 문맥과 맥락을 이해하고, 주어진 글을 토대로 관계를 파악하고 답변을 도출하는 등 사람들이 하는 지적 활동을 비슷하게 수행
• 최근의 연구 경향은 사람이 문제를 해결하는 방식을 흉내내는 방향에 주로 집중하고 있음
• 점차 LLM에 대한 의존도가 높아지면서 Cost및 Latency가 증가
-> 비용 효율적이며 실용적인 방법론 필요

2. 판단

추론 능력이 뛰어나면 주어진 기준에 의해 판단을 하고 결론을 내리는 것도 가능할 수 있음
• 다양한 항목에서 자동으로 판단하고 평가하려는 시도가 활발히 진행 중
• 위험성 판단
• 사실 관계 판단
• 추론 과정에서 논리적인 오류 탐지 및 답변 교정

일반적으로 LLM은 자신의 능력을 과신하는 경향이 존재
• 간단한 평가의 경우 의미 있는 수준으로 동작하는 것으로 보임
• 반면 높은 수준의 사고력이 요구되는 평가의 경우 아직 어려움이 존재
• Finetuning을 통해 평가를 위한 전용 모델을 만드는 시도는 의미가 있음

3. LLM 잘 쓰기

Prompt의 구성
• Instruction+Demonstrations
• 간단한 지시문과 몇 개의 예제만으로 간단히 AI모델 제작 가능
• 최적의 Prompt작성의 어려움
• Task에 적합한 Instruction은 무엇이며 어떻게 작성해야 하는가?
• 예제로는 어떤 데이터를 얼마나 넣어야 하는가?
• 예제로 사용할 데이터가 없으면?

1. Instruction자동 생성

2. 예제 선택

3. Prompting의 의의 및 한계

Prompt는 사람이 LLM과 소통할 수 있는 수단
• 장점
• 누구나 자신이 원하는 AI모델을 손쉽고 빠르게 제작할 수 있음
• 단점
• 제어할 수 있는 범위가 제한적
• 입력할 수 있는 데이터나 정보의 양에 한계가 있음
• 추론 비용 및 시간이 많이 소요
• 활용 방안
• 현재의 LLM기술로 어떤 문제를 할 수 있는지 탐색하고 발굴하는 수단
• 내가 풀고 싶은 문제가 현재의 LLM기술로 해결 가능한지 빠르게 검증하는 수단
• 내가 만들고자 하는 AI서비스의 PoC혹은 데모 버전을 빠르게 제작하는 수단

4. 한국어 말뭉치 구축

1. KoSuperNI

2. 모두의 말뭉치

...

데이터 깎는 소상공인으로 살아남기

'데이터 담당'으로 살아남는다는 것은 어떤 의미일까요?

한국어 자연어처리 데이터를 보는 시각 변화를 중심으로 -

조원익 (서울대학교)

개인적으로 언제나 흥미로운 주제에 대한 연구를 하시고, 연구를 즐기시는 모습이 부럽고 멋진 박사님이십니다!
원익박사님 발표 보러 랭콘 온 건 안비밀.... 😆

발표자료

LLM 시대의 데이터 공개 양상

Model-dependent 하게 변화하고 있음
multi-task,domain-specific etc.

마치며..
• 데이터 작업의 본질은 데이터의 이해에 있다 (tool에 넣을 재료도잘다듬어야 하고,실제로 무언가 가치를 창출하기를 원한다면 이해해야한다)
• Domain전문가,데이터 담당,모델러의 브릿징은 무슨 모델을쓰든(쓰지않아도)중요하다
• 데이터 담당은 datain-out/modeling모두 고려해야 하는 기술'기획자'이다
• 한국어 특화로 무언가를 해야 한다면,model,domain을 모두 잘 보고최대한 있는 것을 leverage하자
-그리고 한국어 특화가 되는 부분에 집중하자

Beyond Linear Context: Key Information Extraction from Semi-structured Documents

명함, 신용장, 영수증 등 이미지로 된 구조화 문서에서 정보를 추출하는데, OCR을 통하여 문맥 정보뿐만 아니라 단어의 위치 정보까지 결합하여 활용하는 multi-modal 접근 방법에 대해 소개

송치성 (BHSN.AI AI 엔지니어)

발표자료

Background

다차원적 데이터 context 를 다룰 때!

Document Understanding

문서로부터 NLU
문서로부터 날것의 input 이 들어왔을 때 understanding 하기 (ex : OCR)
Tasks : 문서 분류, VQA, KIE...

NLP는 linear 한 경우가 많으나
문서의 경우 사람이 보기에 편하게 구조화되어 있고, 테이블 구조 등이 포함되어 있음.

semi-structured document
From-like Document (Form 처럼 생겼다는 뜻)
Visually-rich Document (VrDU)

Document IE : 주변 context 정보를 활용하여 해당 시퀀스가 무엇인지 추론
(Sequence Labeling / Span Extraction)

Semi-structed Document IE

OCR 해서 처리하지만 현실적인 장벽 존재 (영수증, 명함, invoice...)
초기 입력을 하나의 시퀀스로 가정하여 처리할 경우 문제점...
- 레이아웃이 너무 복잡하다!
- 계층이 있는 정보 구조를 인코딩하기에 적합하지 않음
Benchmark
(FUNSD, CORD, SROIE)

Various Approaches

LayoutLM

overview of LayoutLM (고려대 DBMS 연구실 발표자료 참고)

SPADE : SPAtial Dependency parser
복잡한 문서로부처 계층적 정보를 추출할 수 있는 e2e 방식 아키텍쳐

BROS : BERT Relying on Spatiality

Masked LM 뿐만 아니라 Area-mask 도 활용
상대적 위치정보 활용

FormNetV2

Graph Convolutional Network 활용 아키텍처

https://arxiv.org/pdf/2305.02549.pdf

Challenges

Multi-page Documents
- 여러 페이지로 구성된 문서가 여러 페이지에 걸쳐 맥락과 일관성을 유지해야 함
  = 여러 페이지 간의 관계를 이해하고 정보를 효과적으로 활용해야 함
Cross-Page Relationships
- 한 페이지의 목차가 다른 페이지의 특정 섹션이나 챕터를 참조할 경우
- 이 경우 페이지 간 관계를 파악하고 활용하는 것이 필수적
Resource Intensiveness
- 방대한 양의 이미지 기반 문서를 처리하기 위해 효율적인 알고리즘과 아키텍쳐 개발이 필요

영어 잘 하는 모델을 한국어 잘 하는 모델로 바꾸는 레시피

(부제: Llama-2-Ko, Yi-Ko, Solar-Ko와 함께하는 한국어 언어모델 만들기)

이준범 (https://github.com/Beomi)

한국어 언어 모델 만들기
베이스 영어모델 : ex) Llama-2
영어 모델의 문제점 : 토크나이저 효율성이 떨어짐.
새 토크나이저 -> 언어 모델이 모르는 신규 임베딩

그렇다고 한국어 위주로 학습하면 한국어 '만' 잘하게 된다 (영어를 까먹음...)

어떻게 학습하나요? : EasyLM
Jax/FLAX 기반으로 LLM 학습을 위한 프레임워크

OpenLlama 학습을 위해 사용
https://github.com/young-geng/EasyLM

Gemma-EasyL 으로 TPU(GPU) 에서 Gemma 학습하기
https://github.com/Beomi/Gemma-EasyLM

금융 도메인에서 LLM 활용하기

Agent를 활용하여 개인 투자자들을 위한 쉽고 정확한 주식 종목 정보 제공 어플리케이션 개발 방법론

김성현 (토스 증권 Machine learning team, machine learning engineer)

발표 애티튜드 (딕션, 발성, 시각적으로 잘 정리된 예시, 스토리텔링) 아주 뛰어나셨습니다. 엄청 인상적이셨어요!!

어떻게 하면 수많은 금융 상품 정보들을 쉽고 빠르게 정리할 수 있을까?
-> AI 모델이 이 정보들을 잘 이해할 수 있어야 한다!
=> 현재 이해도가 가장 높은 모델 == LLM

금융 투자 도메인에서 필요한 지식/중점?
=> 일단 투자 벤치마크 데이터셋을 만들자!

벤치마크 데이터셋 구축

LLM 이 사람과 차이점을 가지는 지점 찾기
해당 지점을 고도화 할 수 있는 방안 찾기

raw data -> 데이터 내에서 애널리스트와 경영진의 질의응답 추출
=> 이 과정을 거쳐 QA pair 데이터셋을 만드심!

데이터셋 구축 이후 검증...

Aspect 분석

관련성 & 내재 의미 분석

Reasoning 분석
Answer 분석

결론

LLM이야말로 가장 다양한 관점과 넓은 스펙트럼을 가지고 있는 핵심 인공지능.
But 이 능력을 충분히 활용하지 못하는 이유는?
=> LLM 은 각 과정에서 narrow 하게 생성하는 경향이 있음 -> Casual LM 의 원론적 한계
- 질문에 답변해나가는 과정에서 점점 좁은 길로만 나아가는 셈.
해결 : Gemma 모델 튜닝 (디코딩에 전략 사용)

Open Model을 Long Context 형태로 튜닝하는 방법

이성진 (BHSN AI Engineer)

앞 발표자인 송치성님과 같은 BHSN 에서 근무하셔서 그런지
주요 발표 내용은 문서 즉 Long Context 데이터를 처리하기 위한 방법론에 대한 소개였으며
특히 Transformer 에서 Long Context (방대한 양의 문서와 같은 input 데이터) 를 처리하기 위한 튜닝 방법론 위주로 소개해 주셨습니다.

Long Context Summarization & QA

Transformer 에서 Long Context (방대한 양의 문서와 같은 input 데이터) 를 처리하기 위한 튜닝 방법론 소개

결론 : Self-Attention 기반 Transformer 구조의 한계는 명확함.

Context 길이의 제한을 받지 않는 RNN 기반 RWKV, S3 기반 Mamba 등 새로운 모델 구조 연구 진행 중

Backgrounds
Self-Attention Mechanism
Positional Encodings

보완 : Rotary Positional Encodings (RoPE) 등등.
Lost in the Middle
Task/Data for Long Context SFT
Efficient Training Methods for Long Context
Long Context w/ Legal Domain

더 빠른 대규모 벡터 연산을 위해 FPGA를 이용해 가속을 해볼까? (feat. MetisX)

김주현 (MetisX CPO, Co-founder)
박진형 ( Sigrid Jin) (Sionic AI Inc Software Engineer)

개인적으로 하드웨어(컴퓨팅 자원, 징비) 부분은 제가 잘 몰라서 거의 이해하지 못했습니다.. 😂

김주현님 : FPGA 가속 편

발표자료

박진형님 : 벤치마크 편

차원의 저주

LLM 이후 임베딩 크기가 커지고 벡터 수가 증가하는 상황에서 LLM 이전과 같이 몇십~몇백 차원의 벡터 크기로 검색 시스템을 구현하는 것이 효율적인가?
에 대한 내용...

LLM을 활용한 나만의 검색 만들기

LLM을 활용해서 구성하는 앱으로 필수적인 기능들을 모아 만드는 내 시스템.
개인의 관심사로 꾸며보는 나만의 검색시스템 만들기

김현 (LG AI Research)

발표자료

LLM 및 오픈소스들만을 이용해 RAG 를 만드는 방법을 소개해 주셨습니다.

최대한 로컬환경(노트북)과 무료 서비스들을 활용
GPTs : 챗GPT 유저가 직접 챗GPT를 특정 목적에 맞게 커스터마이징해서 만든 챗봇

openai에서 좋은 예제를 제공하고 있습니다.
https://github.com/openai/chatgpt-retrieval-plugin

• Openai - 임베딩 생성
• Pinecone - 임베딩 관리, 탐색
• ngrok - public 주소
• google - web search

온고지신? 상용 성능 기계번역기 혼자서 만드는 방법

데이터를 수집하고 허깅페이스를 활용하여 상용 수준 성능의 기계번역 모델을 개발하고 커뮤니티에 기여한 내용을 공유하고자 합니다.

김기현 (LG유플러스)

개인적으로 기계번역 연구를 하던 저에게 너무나도 반가운 내용이었습니다 🥹
이제 기계번역기를 만드는 작업이 너무나도 쉬워졌어요. 기계번역 개발자 및 연구자에게 이것은 기회일까요 위기일까요...?

NMT vs LLM

LLM 은 이전 context 를 참고할 수 있어 더 자연스러운 번역 가능
하지만 번역 자체의 정확도가 낮고, 여러 문장일 경우 중간중간 번역이 생략됨
NMT 의 경우 여러 문장의 입력이 들어올 경우 문장 분리 과정이 필요함 -> LLM에 비해 불리함.
- 앞 문장의 내용을 참고할 수 없으므로.

번역 활용 사례 (여전히 번역의 수요는 많다!)

컨텐츠 번역
한국어 LLM 부재로 인한 영어 LLM 보조
LLM 학습 데이터셋 번역
- ex) 대부분의 LLM이 Orca 등을 사용해서 학습하는데, Orca 데이터에 번역기 돌려서 사용.
또한 대규모 번역은 공짜가 아니다

코퍼스 수집

특허 (한국어 - 영어 문서가 대부분 쌍으로 존재)
논문 초록
자막 (최근 OTT 시대가 오면서 구하기 어려워짐, 저작권 주의)
기술문서 (API 문서, 튜토리얼)

오픈소스 라이브러리

OpenNMT, FairSeq
HuggingFace Transformers (발표자님은 이것 사용하심)

모델 학습

BPE tokenizer 를 두 언어에 대해 동시 학습
T5-small 을 from-scratch 로 학습

성능 평가

대화체에서는 DeepL 이 압도적 (매끄러움)
논문 번역은 Google 이 낫다

논문 자동 번역기 개발

Arxiv-dl 을 통해 paper 다운로드
Nougat OCR 을 이용해 마크다운으로 변환 (시도... 하셨음)
Arxiv HTML 파싱해서 개발 완료

Q&A

Q : 전문용어 번역 시 전문용어는 어떻게 번역이 잘 되도록 하셨는지?
A : 디코더에 start token 을 붙이는 형태로 해결하셨음.

오성우 (KB국민은행 AI 엔지니어)

발표자료

진짜 사용자와 함께 진화하는 Agent 운영기

Agent 기반 프로덕트를 1년 여간 운영하며 얻은 배움과 노하우, Data Flywheel 구축을 향한 여정을 다룹니다.

허훈 ((현) Liner 테크니컬 리드)

Liner 에서 실제로 Agent 기반 프로덕트를 운영하며 얻은 노하우를 아낌없이 전수해 주셨습니다.
저희 회사에도 적용하고 싶은 내용 (특히 결론) 이 많아서 현재 제가 진행중인 프로젝트에 적용하려 합니다!

Prompting

프롬프팅만 잘 해도 기획에 맞는 결과를 만들 수 있다!
프롬프트 엔지니어의 의문 : 이게 최선인가? (= Blind Prompting)

Agent Ops + Data Flywheel

에이전트 코드 베이스에 컴포넌트 로깅
하나의 요청에 대한 컴포넌트들이 묶일 수 있도록 설계
최종적으로 동일한 요청에 대해 순서에 따른 디버깅과 평가 가능한 구조 구축

RAG

Liner 의 경우 벡터 서치를 위해 엘라스틱서치 사용.

결론

초반부터 evaluation 을 시작한다 (= 테스트에 집중한다)
- 간단한 유닛 테스트라도 반드시 검증하면서 진행해 나가는 것이 중요
- 특정 태스크 벤치마크 데이터셋을 활용해 역량을 근사할 수 있음 (WanDB 기반 성능 시각화 활용 등)
Flow-based Development
- PromptFlow, LangFlow, Vellum...
- 단, 통합 의존성이 외부에 크게 걸리지 않도록 주의.

한국에서 일본어 NLP 서비스 출시하기

정다운 (스캐터랩 ML 리서처)

발표자료가 깔끔하고 내용이 잘 적혀있어서 발표 당시 구두로 언급한 부분만 정리했습니다.
개인적으로 기계번역 연구/업무를 주로 해 왔고, 아직까지도 가장 사랑하는 태스크라
일본어 즉 한국어 이외의 외국어를 다루신 점이 너무나도 흥미로웠습니다.
다운님의 일본어에 대한 높은 이해도와 발표 애티튜드 (쉬운 예시, 정확한 딕션과 매끄러운 설명) 또한 인상적이었습니다.

발표자료

일본어의 특징 설명

교착어 -> 형태소 분석 연구 활발
어순의 자유도가 높다
생략이 잦다 -> 모델이 생략된 부분의 의미까지 유추해서 context 추론해야 함.

=> 이러한 문제들 때문에 일본어 자연어처리의 경우 문장의 의미를 정확히 해석하려는 연구가 활발함!

띄어쓰기가 없다 (덕분에(?) 띄어쓰기 오류가 없음), 히라가나/가타카나/한자 3가지 표기를 혼용한다 (=그래서 띄어쓰기가 없는 게 가능함... )
-> 동일한 의미에 대한 3가지 문자를 다 대응시켜야 함. 또한 문자 3종류를 인식해야 함.

일본어 데이터의 특징

한자, 가타카나 표기 변동(오류 (=노이즈))
문자 코드
- 전각문자, 반각 문자 혼용 -> 일반적으로 NFKC 유니코드 정규화하여 문자 통일.
- 사전학습 코퍼스가 NFKD 정규화되어 있어 일본어에 적합하지 않음 (탁점, 반탁점 등의 일본어 기호가 유실됨

LLM 시대의 일본어 NLP

다양한 일본어 오픈소스 모델 및 데이터셋이 공개되어 있음
리더보드 및 벤치마크도 잘 되어있는 편.
일본어 NLP 생태계는 매우 활발함.
이하 자세한 설명은 발표자료 참고.

현실

모델 / 데이터셋 / 리더보드 및 벤치마크별 한계 존재 (발표자료 참고)

평가

이해 태스크 성능 < 생성 태스크 성능이 높은 모델 선택
정성평가 툴 활용

출시 후의 빠른 성능 개선 지향

오픈 베타 기간 동안의 유저 데이터를 기반으로 빠른 모델 개선

일본 AI 프로젝트의 실제적 사례 소개(과거와 현재)

허석원 (Sionic AI Inc Business Development Manager)

제조업 클라이언트 위주로 프로젝트를 진행한 경험을 소개해 주셨는데요,
무엇보다도 과거 프로젝트에서 아쉬웠던 점을 현재 기술을 접목하여 해결한다면? 이라는 발상과 함께
해결 방법을 함께 제시하고 또 실제로 적용해 보신 점이 존경스러웠습니다!

아사히 글라스

공장 시설, 설비에 대한 DB화 및 검색 시스템 구축
장애 발생 시 원인 파악 및 과거 사례 검색 목적.

문제점 : 문서 양식이 통일되어 있지 않음

해결 : IBM Watson R&R (Retrieve and Rank) 를 활용해 서비스 구축

키워드 중심 검색 및 단순 문서 리스트업만 가능한 한계, 고객이 원하는 랭킹이 만들어지지 않음

이 때의 문제를 RAG 으로 새로 구축해본다면? 과 같이 과거의 문제 사례에 현재 최신 기술을 적용하는 방안을 생각해보신 점이 매우 인상적!

혼다 바이크

바이크 디자이너들의 스케치 아카이브 시스템 구축

이 프로젝트는 당시 POC 까지만 진행하셨으나,
지금의 이미지 생성 모델을 활용할 수 있다면? 이라는 상상에서 출발해 직접 미드저니 이용해 결과물을 뽑아 보셨음.
과거의 문제점을 파악하는 것에 그치지 않고 기술이 발전한 지금이라면 어떻게 해결할지 다시 한번 고민해 보셨다는 점이 너무나도 인상적이셨다!!

일본 시장 진출 시 유의할 점

발표자료 미공개로 인한 생략

참석 후기

LLM 이라는 최신 트렌드에 대해 다각도로 발표자분들의 경험을 살려 노하우를 공유해 주신 점,
컨퍼런스 후반부에서는 Researcer 또는 Engineer 분들 이외에도
Business Development Manager, 데이터 사이언티스트 분들의 발표도 접한 덕분에
다양한 시각을 간접적으로 경험할 수 있었다는 점이 매우 유익했습니다.

특히, 현재 저희 회사(팀) 에 적용할 수 있는 연구 방법론 및 문제 해결 노하우를 많이 얻을 수 있어서
앞으로 더 나은 업무 성과를 내는 데에, 또 회사 전체의 생산성을 향상시키는 데에 도움이 될 것 같습니다.

귀한 연휴에 시간 내어주시고 행사를 준비해 주신 발표자분들과 스탭분들께 감사드립니다.
내년에는 참가자가 아니라 발표자로서 랭콘에 참여하고 싶습니다! 🥰

Judy

AI Researcher

다음 포스트

[NMT] COMET : 신경망 기반 번역 품질 평가 지표

2개의 댓글

murphybread

2024년 3월 4일

굿입니다
요약도 잘되있고 , 외부 사용자가 파악하기 쉽게 잘 정리해주셨군요~~

답글 달기

murphybread

2024년 3월 4일

굿입니다
요약도 잘되있고 , 외부 사용자가 파악하기 쉽게 잘 정리해주셨군요~~

답글 달기

LangCon2024 후기

NLP

발표내용

Keynote : 생성 모델 튜닝 어디까지 왔나?

한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성

LLM의 능력과 활용: 혁신적인 문제 해결을 위한 새로운 도구

1. Introduction:생성 모델, 튜닝

2. LLM의 능력

1. 추론

2. 판단

3. LLM 잘 쓰기

1. Instruction자동 생성

2. 예제 선택

3. Prompting의 의의 및 한계

4. 한국어 말뭉치 구축

1. KoSuperNI

2. 모두의 말뭉치

데이터 깎는 소상공인으로 살아남기

Beyond Linear Context: Key Information Extraction from Semi-structured Documents

Background

Various Approaches

Challenges

영어 잘 하는 모델을 한국어 잘 하는 모델로 바꾸는 레시피

금융 도메인에서 LLM 활용하기

벤치마크 데이터셋 구축

Open Model을 Long Context 형태로 튜닝하는 방법

더 빠른 대규모 벡터 연산을 위해 FPGA를 이용해 가속을 해볼까? (feat. MetisX)

김주현님 : FPGA 가속 편

박진형님 : 벤치마크 편

LLM을 활용한 나만의 검색 만들기

온고지신? 상용 성능 기계번역기 혼자서 만드는 방법

당신의 인공지능, 저작권은 안녕하십니까?

진짜 사용자와 함께 진화하는 Agent 운영기

한국에서 일본어 NLP 서비스 출시하기

일본 AI 프로젝트의 실제적 사례 소개(과거와 현재)

아사히 글라스

혼다 바이크

일본 시장 진출 시 유의할 점

참석 후기

[NMT] COMET : 신경망 기반 번역 품질 평가 지표

2개의 댓글