[๐Ÿ“–๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] FinGPT: Open-Source Financial Large Language Models (2023)

Becky's Study Labยท2023๋…„ 12์›” 15์ผ
1

PaperReview

๋ชฉ๋ก ๋ณด๊ธฐ
9/22

Bloomberg GPT๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ชจ๋ธ์ด ์ตœ๊ทผ 6์›”์— ์ถœ์‹œ๋˜์—ˆ๋‹ค๋Š” ์†Œ์‹์„ Hugging Face์—์„œ ์ ‘ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. FinGPT ๋กœ ๊ฐ„๋žตํ•˜๊ฒŒ ๋ฏธ๊ตญ์ฃผ์‹ ticker์™€ ๋‚ ์งœ๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๊ทธ ๋•Œ์˜ expert opinion, analysis, related news๋ฅผ ๋ฐ˜ํ™˜ํ•ด์„œ ๋ณด์—ฌ์ฃผ๋Š” ์ฒดํ—˜์„ ํ•ด๋ดค๋‹ค. Hugging Face FinGPT ๋งํฌ์— ๋“ค์–ด๊ฐ€๋ฉด ์ •๋ง ์‰ฝ๊ฒŒ ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์‹ค์ œ๋กœ ์œ„์˜ ์‚ฌ์ง„์€ ์• ํ”Œ(AAPL) ์ฃผ์‹์˜ 2023๋…„ 12์›” 15์ผ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ๊ด€๋ จ ๋‰ด์Šค๊ฐ€ ๋ณด์—ฌ์ง€๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทผ๋ฐ, ๊ฐ€๋” ์ƒˆ๋ฒฝ์— ๊ฒฐ๊ณผ๋ฅผ ๋Œ๋ฆฌ๋ฉด ํ•ด์™ธ์ฃผ์‹ ์žฅ๊ณผ ์‹œ๊ฐ„์ด ๊ฒน์ณ์„œ ๊ทธ๋Ÿฌ๋Š”์ง€ ๋ชฐ๋ผ๋„, API ํ˜ธ์ถœ์ด ์ž˜ ์•ˆ๋  ๋•Œ๊ฐ€ ์žˆ๋‹ค....

ํ˜„์žฌ ๋ถ€์บ ๊ณผ ํ•จ๊ป˜ ์ง„ํ–‰ ์ค‘์ธ Financial AI ํ”„๋กœ์ ํŠธ๊ฐ€ ์‚ฌ์‹ค์ƒ ๊ธˆ์œต ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ €์ธ๋ฐ RAG ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ์žˆ์–ด์„œ FinGPT ๊ฒฐ๊ณผ๋Š” ์ด๋ฒˆ ํ”„๋กœ์ ํŠธ์— ๋งŽ์€ ์˜๊ฐ์„ ์ฃผ์—ˆ๋‹ค. ๊ผญ ๊ด€์‹ฌ์žˆ๋Š” ๊ฑด ์•Œ์•„๋ณด๋Š” ์„ฑ๊ฒฉ์ด๊ธฐ์—, FinGPT ๋…ผ๋ฌธ๋„ ๋ฆฌ๋ทฐํ•ด๋ณด์•˜๋‹ค.

์ฐธ๊ณ ๋กœ, ์ด Fin-GPT ์—ฐ๊ตฌ๋Š” AI4Finance-Foundation์ด๋ผ๋Š” 2018๋…„ ์— ์ƒˆ์›Œ์ง„ ๋น„์˜๋ฆฌ Financial Tech ๊ธฐ๊ด€์—์„œ ์—ฐ๊ตฌ๋˜์—ˆ๋‹ค. ๊นƒํ—™ ๋งํฌ๋ฅผ ๋“ค์–ด๊ฐ€์„œ ๋ณด๋ฉด ์ง€๊ธˆ๋„ ํ™œ๋ฐœํžˆ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

0. Abstract

  • ๊ณ ํ’ˆ์งˆ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์— ์•ก์„ธ์Šคํ•˜๋Š” ๊ฒƒ์€ ๊ธˆ์œต LLM(FinLLM)์˜ ์ฒซ ๋ฒˆ์งธ ๊ณผ์ œ
  • BloombergGPT์™€ ๊ฐ™์€ ๋…์  ๋ชจ๋ธ์€ ๊ณ ์œ ํ•œ ๋ฐ์ดํ„ฐ ์ถ•์ ์„ ํ™œ์šฉ, ์ด๋Ÿฌํ•œ ๊ถŒํ•œ ์žˆ๋Š” ์•ก์„ธ์Šค์—๋Š” ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ๊ธˆ์œต ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏผ์ฃผํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์˜คํ”ˆ ์†Œ์Šค ๋Œ€์•ˆ์ด ํ•„์š”ํ•จ
  • BloombergGPT์™€ ๊ฐ™์€ ๋…์  ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ FinGPT๋Š” ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•˜์—ฌ ์—ฐ๊ตฌ์›๊ณผ ์‹ค๋ฌด์ž์—๊ฒŒ FinLLM์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๊ณ  ํˆฌ๋ช…ํ•œ ๋ฆฌ์†Œ์Šค๋ฅผ ์ œ๊ณต
  • FinGPT ๊ตฌ์ถ•์— ์žˆ์–ด ์ž๋™ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํŒŒ์ดํ”„๋ผ์ธ(automatic data curation pipeline)๊ณผ ๊ฒฝ๋Ÿ‰ ํ•˜์œ„ ์ ์‘ ๊ธฐ์ˆ (lightweight low-rank adaptation technique)์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐ
  • ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ €, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฑฐ๋ž˜, ๋กœ์šฐ์ฝ”๋“œ ๊ฐœ๋ฐœ ๋“ฑ ์‚ฌ์šฉ์ž๋ฅผ ์œ„ํ•œ ๋””๋”ค๋Œ๋กœ์„œ ์—ฌ๋Ÿฌ ์ž ์žฌ์ ์ธ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์„ ๋ณด์ž„
  • FinGPT๋Š” ์˜คํ”ˆ ์†Œ์Šค AI4Finance ์ปค๋ฎค๋‹ˆํ‹ฐ ๋‚ด์˜ ๊ณต๋™ ๋…ธ๋ ฅ์„ ํ†ตํ•ด ํ˜์‹ ์„ ์ด‰์ง„ํ•˜๊ณ  FinLLM์„ ๋ฏผ์ฃผํ™”ํ•˜๋ฉฐ ๊ฐœ๋ฐฉํ˜• ๊ธˆ์œต์—์„œ ์ƒˆ๋กœ์šด ๊ธฐํšŒ๋ฅผ ์ฐฝ์ถœํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

1. Introduction

  1. ๊ณ ํ’ˆ์งˆ์˜ ๊ด€๋ จ์„ฑ ์žˆ๋Š” ์ตœ์‹  ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ด ํšจ๊ณผ์ ์ด๊ณ  ํšจ์œจ์ ์ธ ์˜คํ”ˆ ์†Œ์Šค ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์š”์†Œ์ด๋‹ค.
  2. ๊ธˆ์œต ๋ถ„์•ผ์—์„œ ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋Š”๋ฐ ์žฅ์• ๋ฌผ์ด ์žˆ๋‹ค.
    ex) ๋ฐ์ดํ„ฐ ํš๋“, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ํ˜•์‹ ๋ฐ ์œ ํ˜• ์ฒ˜๋ฆฌ, ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ถˆ์ผ์น˜ ๊ด€๋ฆฌ์˜ ์–ด๋ ค์›€๋ถ€ํ„ฐ ์ตœ์‹  ์ •๋ณด์˜ ํ•„์ˆ˜ ์š”๊ตฌ ์‚ฌํ•ญ๊นŒ์ง€ ๋‹ค์–‘
    ex) ํŠนํžˆ ๊ณผ๊ฑฐ ๋˜๋Š” ์ „๋ฌธ ๊ธˆ์œต ๋ฐ์ดํ„ฐ ์ถ”์ถœ์€ ์›น ํ”Œ๋žซํผ, API, PDF ๋ฌธ์„œ, ์ด๋ฏธ์ง€ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋งค์ฒด๋กœ ์ธํ•ด ๋ณต์žกํ•ด์ง.
  3. ๋…์  ์˜์—ญ(proprietary sphere)์—์„œ๋Š” BloombergGPT๋Š” ์ „๋ฌธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋…์ ์ ์ธ ์•ก์„ธ์Šค๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธˆ์œต ๊ด€๋ จ ์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ด.
    ๊ทธ๋Ÿฌ๋‚˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๊ต์œก ํ”„๋กœํ† ์ฝœ์˜ ์ œํ•œ๋œ ์ ‘๊ทผ์„ฑ๊ณผ ํˆฌ๋ช…์„ฑ์œผ๋กœ ์ธํ•ด ๋ณด๋‹ค ๊ฐœ๋ฐฉ์ ์ด๊ณ  ํฌ๊ด„์ ์ธ ๋Œ€์•ˆ์— ๋Œ€ํ•œ ์š”๊ตฌ๊ฐ€ ๋”์šฑ ์ปค์กŒ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์š”๊ตฌ์— ๋ถ€์‘ํ•˜์—ฌ ์šฐ๋ฆฌ๋Š” ์˜คํ”ˆ ์†Œ์Šค ๋„๋ฉ”์ธ์—์„œ ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ๊ธˆ์œต ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏผ์ฃผํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”ํ•˜๋Š” ์ถ”์„ธ๋ฅผ ๋ชฉ๊ฒฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์™€ ๊ด€๋ จ๋œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ๊ธˆ์œต ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(FinLLM)์„ ์œ„ํ•œ end-to-end ์˜คํ”ˆ ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์ธ FinGPT๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค.
๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•œ FinGPT๋Š” ์˜คํ”ˆ ์†Œ์Šค FinLLM ๊ฐœ๋ฐœ์—์„œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ •๋ฆฌ ๋ฐ ์ „์ฒ˜๋ฆฌ์˜ ์ค‘์š”ํ•œ ์—ญํ• ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. F
inGPT๋Š” ๋ฐ์ดํ„ฐ ์ ‘๊ทผ์„ฑ์„ ์˜นํ˜ธํ•จ์œผ๋กœ์จ ๊ธˆ์œต ๋ถ„์•ผ์˜ ์—ฐ๊ตฌ, ํ˜‘์—… ๋ฐ ํ˜์‹ ์„ ๊ฐ•ํ™”ํ•˜๊ณ  ๊ฐœ๋ฐฉํ˜• ๊ธˆ์œต ๊ด€ํ–‰์˜ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก[Contribution] Democratization

์˜คํ”ˆ ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์ธ FinGPT๋Š” ๊ธˆ์œต ๋ฐ์ดํ„ฐ์™€ FinLLM์„ ๋ฏผ์ฃผํ™”ํ•˜์—ฌ ๊ฐœ๋ฐฉํ˜• ๊ธˆ์œต์—์„œ ์•„์ง ํ™œ์šฉ๋˜์ง€ ์•Š์€ ์ž ์žฌ๋ ฅ์„ ๋ฐœ๊ตดํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

๐Ÿ’ก[Contribution] Data-centric approach

FinGPT๋Š” ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์˜ ์ค‘์š”์„ฑ์„ ์ธ์‹ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ํ˜•์‹๊ณผ ์œ ํ˜•์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์—„๊ฒฉํ•œ ์ •๋ฆฌ ๋ฐ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์„ ๊ตฌํ˜„ํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์žฅํ•œ๋‹ค.

๐Ÿ’ก[Contribution] End-to-end framework

FinGPT๋Š” 4๊ฐœ ๊ณ„์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ FinLLM์šฉ ์ „์ฒด ์Šคํƒ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ˆ˜์šฉํ•ฉ๋‹ˆ๋‹ค.

-โ€“1-- Data source layer

์‹ค์‹œ๊ฐ„ ์ •๋ณด ์บก์ฒ˜๋ฅผ ํ†ตํ•ด ๊ธˆ์œต ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐ„์  ๋ฏผ๊ฐ๋„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉด์„œ ํฌ๊ด„์ ์ธ ์‹œ์žฅ ๋ฒ”์œ„๋ฅผ ๋ณด์žฅ

-โ€“2-- Data engineering layer

์‹ค์‹œ๊ฐ„ NLP ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์— ์ตœ์ ํ™”๋œ ์ด ๊ณ„์ธต์€ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์˜ ๋†’์€ ์‹œ๊ฐ„ ๋ฏผ๊ฐ๋„์™€ ๋‚ฎ์€ ์‹ ํ˜ธ ๋Œ€ ์žก์Œ๋น„๋ผ๋Š” ๊ณ ์œ ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ

-โ€“3-- LLMs layer

๋‹ค์–‘ํ•œ ๋ฏธ์„ธ ์กฐ์ • ๋ฐฉ๋ฒ•๋ก ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์ด ๊ณ„์ธต์€ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์˜ ๋งค์šฐ ๋™์ ์ธ ํŠน์„ฑ์„ ์™„ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ด€๋ จ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋ณด์žฅ

-โ€“4-- Application layer

์‹ค์šฉ์ ์ธ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๊ณผ ๋ฐ๋ชจ๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์ด ๋ ˆ์ด์–ด๋Š” ๊ธˆ์œต ๋ถ€๋ฌธ์—์„œ FinGPT์˜ ์ž ์žฌ์ ์ธ ์—ญ๋Ÿ‰์„ ๊ฐ•์กฐ

2. Related Work

2.1 LLMs and ChatGPT

  • LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์€ GPT-3 ๋ฐ GPT-4 Brown ๋“ฑ๊ณผ ๊ฐ™์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์˜ ๊ธฐ์ˆ ์  ํ˜์‹ ์œผ๋กœ ์ธ์‹๋˜์—ˆ๋‹ค. ๊ทธ๋“ค์€ Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.
  • OpenAI๊ฐ€ ๊ฐœ๋ฐœํ•œ GPT ์ œํ’ˆ๊ตฐ์˜ ํŒŒ์ƒ๋ฌผ์ธ ChatGPT๋Š” ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.์ด๋ฉ”์ผ ์ดˆ์•ˆ ์ž‘์„ฑ๋ถ€ํ„ฐ ์ฝ”๋“œ ์ž‘์„ฑ, ์‹ฌ์ง€์–ด ์„œ๋ฉด ์ฝ˜ํ…์ธ  ์ž‘์„ฑ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์ƒ๋‹นํ•œ ์œ ์šฉ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

2.2 LLMs in Finance

  • LLM์€ ๊ธˆ์œต ๋ถ€๋ฌธ์˜ ๋‹ค์–‘ํ•œ ์—…๋ฌด์— ์ ์šฉ๋˜์—ˆ๋‹ค. ์˜ˆ์ธก ๋ชจ๋ธ๋ง๋ถ€ํ„ฐ ์›์‹œ ์žฌ๋ฌด ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ์„ค๋ช… ์ƒ์„ฑ๊นŒ์ง€, ์ตœ๊ทผ ๋ฌธํ—Œ์—์„œ๋Š” ๋‰ด์Šค ๊ธฐ์‚ฌ, ์‹ค์  ๋ณด๊ณ ์„œ, ์†Œ์…œ ๋ฏธ๋””์–ด ๊ฒŒ์‹œ๋ฌผ ๋“ฑ ์ด ๋ถ„์•ผ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ํ’๋ถ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธˆ์œต ํ…์ŠคํŠธ ๋ถ„์„์„ ์œ„ํ•ด ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘์—ˆ๋‹ค.
  • ๊ธˆ์œต LLM์˜ ์ฒซ ๋ฒˆ์งธ ์˜ˆ๋Š” BloombergGPT Wu et al. (2023๋…„) , ์ด๋Š” ๊ธˆ์œต ๋ฐ ์ผ๋ฐ˜ ์†Œ์Šค๊ฐ€ ํ˜ผํ•ฉ๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ํ›ˆ๋ จ๋˜์—ˆ๋‹ค. ์ธ์ƒ์ ์ธ ๊ธฐ๋Šฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์•ก์„ธ์Šค ์ œํ•œ์ด ์กด์žฌํ•˜๋ฉฐ ์—„์ฒญ๋‚œ ๊ต์œก ๋น„์šฉ์œผ๋กœ ์ธํ•ด ์ €๋น„์šฉ ๋„๋ฉ”์ธ ์ ์‘์ด ํ•„์š”ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.

FinGPT๋Š” ์ด๋Ÿฌํ•œ ๊ณผ์ œ์— ๋Œ€์‘ํ•˜์—ฌ ์˜คํ”ˆ ์†Œ์Šค ๊ธˆ์œต LLM์„ ์ œ์‹œํ•œ๋‹ค. RLHF(Reinforcement Learning from Human Feedback)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐœ์ธ์˜ ์„ ํ˜ธ๋„๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ด์— ์ ์‘ํ•จ์œผ๋กœ์จ ๋งž์ถคํ˜• ๊ธˆ์œต ๋ณด์กฐ์›์„ ์œ„ํ•œ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ChatGPT์™€ ๊ฐ™์€ ์ผ๋ฐ˜ LLM์˜ ๊ฐ•์ ์„ ์žฌ์ •์  ์ ์‘๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ LLM์˜ ๊ธˆ์œต ์—ญ๋Ÿ‰์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

2.3 Why Open-Source FinLLMs?

( AI4Finance Foundation์€ ๊ธˆ์œต ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(FinLLM)์„ ํฌํ•จํ•˜์—ฌ ์ธ๊ณต ์ง€๋Šฅ(AI)๊ณผ ๊ธˆ์œต ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ํ†ตํ•ฉํ•˜๋Š” ๋น„์˜๋ฆฌ ์˜คํ”ˆ ์†Œ์Šค ์กฐ์ง )

  • FinLLM ๋ฏผ์ฃผํ™”๋ฅผ ํ†ตํ•ด ํ‰๋“ฑํ•œ ๊ธฐํšŒ ์ฆ์ง„:
    ์˜คํ”ˆ ์†Œ์Šค ๋ฐฉ๋ฒ•๋ก ์„ ์ฑ„ํƒํ•˜๋ฉด FinLLM ๋ฏผ์ฃผํ™” ์ •์‹ ์„ ๊ณ ์ˆ˜ํ•˜๋ฉด์„œ ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ๋ณดํŽธ์ ์ธ ์ ‘๊ทผ์ด ์ด‰์ง„
  • ํˆฌ๋ช…์„ฑ๊ณผ ์‹ ๋ขฐ ๊ตฌ์ถ•:
    ์˜คํ”ˆ ์†Œ์Šค FinLLM์€ ๊ธฐ๋ณธ ์ฝ”๋“œ๋ฒ ์ด์Šค์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ๊ฐœ์š”๋ฅผ ์ œ๊ณตํ•˜์—ฌ ํˆฌ๋ช…์„ฑ๊ณผ ์‹ ๋ขฐ๋ฅผ ๊ฐ•ํ™”
  • ์—ฐ๊ตฌ ๋ฐ ํ˜์‹  ๊ฐ€์†ํ™”:
    ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์€ AI ์˜์—ญ ๋‚ด ์—ฐ๊ตฌ ๊ฐœ๋ฐœ์˜ ๋ฐœ์ „์„ ์ด‰์ง„, ์ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋Š” ๊ธฐ์กด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ํ˜์‹ ๊ณผ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋” ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰
  • ๊ต์œก ๊ฐ•ํ™”:
    ์˜คํ”ˆ ์†Œ์Šค FinLLM์€ ๊ฐ•๋ ฅํ•œ ๊ต์œก ๋„๊ตฌ ์—ญํ• ์„ ํ•˜๋ฉฐ ํ•™์ƒ๊ณผ ์—ฐ๊ตฌ์›์—๊ฒŒ ์™„์ „ ์šด์˜ ๋ชจ๋ธ๊ณผ์˜ ์ง์ ‘์ ์ธ ์ฐธ์—ฌ๋ฅผ ํ†ตํ•ด FinLLM์˜ ๋ณต์žก์„ฑ์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œ
  • ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ฐœ๋ฐœ ๋ฐ ํ˜‘์—… ์ฐธ์—ฌ ์ด‰์ง„:
    ์˜คํ”ˆ ์†Œ์Šค๋Š” ๊ธฐ์—ฌ์ž์˜ ๊ธ€๋กœ๋ฒŒ ์ปค๋ฎค๋‹ˆํ‹ฐ๋ฅผ ์ด‰์ง„, ์ด๋Ÿฌํ•œ ๊ณต๋™ ์ฐธ์—ฌ๋Š” ๋ชจ๋ธ์˜ ์žฅ๊ธฐ์ ์ธ ๋‚ด๊ตฌ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฐ•ํ™”

3. Data-Centric Approach for FinLLMs

โœ… FinGPT์˜ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘, ์ค€๋น„ ๋ฐ ์ฒ˜๋ฆฌ๋ฅผ ์šฐ์„ ์‹œ!!

3.1. Financial Data and Unique Characteristics

์žฌ๋ฌด ๋ฐ์ดํ„ฐ ๋ฐ ๊ณ ์œ  ํŠน์„ฑ์˜ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

"Financial news"

Financial news(๊ธˆ์œต ๋‰ด์Šค)๋Š” ์„ธ๊ณ„ ๊ฒฝ์ œ, ํŠน์ • ์‚ฐ์—…, ๊ฐœ๋ณ„ ๊ธฐ์—…์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ „๋‹ฌ

1) Timeliness(์ ์‹œ์„ฑ)
: ๊ธˆ์œต ๋‰ด์Šค ๋ณด๊ณ ์„œ๋Š” ์ ์‹œ์— ์ตœ์‹  ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ ๊ธˆ์œต๊ณ„์˜ ์ตœ์‹  ๋™ํ–ฅ์„ ํฌ์ฐฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ
2) Dynamism(์—ญ๋™์„ฑ)
: ๊ธˆ์œต ๋‰ด์Šค์— ํฌํ•จ๋œ ์ •๋ณด๋Š” ์—ญ๋™์ ์ด๋ฉฐ ๋ณ€ํ™”ํ•˜๋Š” ๊ฒฝ์ œ ์ƒํ™ฉ๊ณผ ์‹œ์žฅ ์ •์„œ์— ๋”ฐ๋ผ ๋น ๋ฅด๊ฒŒ ๋ณ€ํ™”ํ•จ
3) Influence(์˜ํ–ฅ)
: ๊ธˆ์œต ๋‰ด์Šค๋Š” ๊ธˆ์œต ์‹œ์žฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์ณ ํŠธ๋ ˆ์ด๋”์˜ ๊ฒฐ์ •์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ  ์ž ์žฌ์ ์œผ๋กœ ๊ทน์ ์ธ ์‹œ์žฅ ์›€์ง์ž„์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Œ

"Company filings and announcements"

Company filings and announcements(ํšŒ์‚ฌ ์„œ๋ฅ˜ ๋ฐ ๋ฐœํ‘œ)๋Š” ํšŒ์‚ฌ๊ฐ€ ๊ทœ์ œ ๊ธฐ๊ด€์— ์ œ์ถœํ•˜๋Š” ๊ณต์‹ ๋ฌธ์„œ๋กœ, ํšŒ์‚ฌ์˜ ์žฌ๋ฌด ๊ฑด์ „์„ฑ๊ณผ ์ „๋žต์  ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณต

1) Granularity(์„ธ๋ถ„์„ฑ)
: ์ด ๋ฌธ์„œ๋Š” ์ž์‚ฐ, ๋ถ€์ฑ„, ์ˆ˜์ต ๋ฐ ์ˆ˜์ต์„ฑ์„ ํฌํ•จํ•˜์—ฌ ํšŒ์‚ฌ์˜ ์žฌ๋ฌด ์ƒํƒœ์— ๋Œ€ํ•œ ์„ธ๋ถ€์ ์ธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ
2) Reliability(์‹ ๋ขฐ์„ฑ)
: ํšŒ์‚ฌ์˜ ๊ธฐ์žฌ ๋‚ด์šฉ์—๋Š” ๊ทœ์ œ ๊ธฐ๊ด€์ด ์กฐ์‚ฌํ•œ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ณ  ๊ฒ€์ฆ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Œ
3) Periodicity(์ฃผ๊ธฐ)
: ํšŒ์‚ฌ ์ž‘์„ฑ ์ž๋ฃŒ๋Š” ์ •๊ธฐ์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ถ„๊ธฐ๋ณ„ ๋˜๋Š” ์—ฐ๊ฐ„ ๊ธฐ์ค€์œผ๋กœ ์ œ์ถœ๋˜์–ด ํšŒ์‚ฌ์˜ ์žฌ๋ฌด ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ •๊ธฐ์ ์ธ ์Šค๋ƒ…์ƒท์„ ์ œ๊ณตํ•จ
4) Impactfulness(์˜ํ–ฅ๋ ฅ)
: ํšŒ์‚ฌ์˜ ๋ฐœํ‘œ๋Š” ์ข…์ข… ์‹œ์žฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์ณ ์ฃผ๊ฐ€์™€ ํˆฌ์ž ์‹ฌ๋ฆฌ์— ์˜ํ–ฅ์„ ๋ฏธ์นจ

"Social media discussions"

Social media discussions(๊ธˆ์œต๊ณผ ๊ด€๋ จ๋œ ์†Œ์…œ ๋ฏธ๋””์–ด ํ† ๋ก )์€ ํŠน์ • ์ฃผ์‹, ๋ถ€๋ฌธ ๋˜๋Š” ์ „์ฒด ์‹œ์žฅ์— ๋Œ€ํ•œ ๋Œ€์ค‘์˜ ์ •์„œ๋ฅผ ๋ฐ˜์˜

1) Variability(๊ฐ€๋ณ€์„ฑ)
: ์†Œ์…œ ๋ฏธ๋””์–ด ํ† ๋ก ์€ ์–ด์กฐ, ๋‚ด์šฉ, ํ’ˆ์งˆ์ด ๋งค์šฐ ๋‹ค์–‘ํ•˜๋ฏ€๋กœ ๋ณต์žกํ•˜๊ธฐ๋Š” ํ•˜์ง€๋งŒ ์ •๋ณด ์†Œ์Šค๊ฐ€ ํ’๋ถ€
2) Real-time sentiment(์‹ค์‹œ๊ฐ„ ์ •์„œ)
: ์ด๋Ÿฌํ•œ ํ”Œ๋žซํผ์€ ์ข…์ข… ์‹ค์‹œ๊ฐ„ ์‹œ์žฅ ์ •์„œ๋ฅผ ํฌ์ฐฉํ•˜์—ฌ ์—ฌ๋ก ์˜ ์ถ”์„ธ์™€ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€
3) Volatility(๋ณ€๋™์„ฑ)
: ์†Œ์…œ ๋ฏธ๋””์–ด์— ํ‘œํ˜„๋œ ์ •์„œ๋Š” ๋งค์šฐ ๋ณ€๋™์„ฑ์ด ํฌ๋ฉฐ ๋‰ด์Šค ์ด๋ฒคํŠธ๋‚˜ ์‹œ์žฅ ์›€์ง์ž„์— ๋”ฐ๋ผ ๋น ๋ฅด๊ฒŒ ๋ณ€ํ•  ์ˆ˜ ์žˆ์Œ

Seeking Alpha, Google Trends, ๊ธฐํƒ€ ๊ธˆ์œต ๊ด€๋ จ ๋ธ”๋กœ๊ทธ ๋ฐ ํฌ๋Ÿผ๊ณผ ๊ฐ™์€ ์›น์‚ฌ์ดํŠธ๋ฅผ ํ†ตํ•ด ํ”ํžˆ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ํŠธ๋ Œ๋“œ๋Š” ์‹œ์žฅ ๋™ํ–ฅ๊ณผ ํˆฌ์ž ์ „๋žต์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณต

1) Analyst perspectives(๋ถ„์„๊ฐ€ ๊ด€์ )
: ์ด ํ”Œ๋žซํผ์€ ๋…ธ๋ จํ•œ ์žฌ๋ฌด ๋ถ„์„๊ฐ€ ๋ฐ ์ „๋ฌธ๊ฐ€์˜ ์‹œ์žฅ ์˜ˆ์ธก ๋ฐ ํˆฌ์ž ์กฐ์–ธ์— ๋Œ€ํ•œ ์•ก์„ธ์Šค๋ฅผ ์ œ๊ณต
2) Market sentiment(์‹œ์žฅ ์ •์„œ)
: ์ด๋Ÿฌํ•œ ํ”Œ๋žซํผ์— ๋Œ€ํ•œ ๋‹ด๋ก ์€ ํŠน์ • ์ฆ๊ถŒ, ๋ถ€๋ฌธ ๋˜๋Š” ์ „์ฒด ์‹œ์žฅ์— ๋Œ€ํ•œ ์ง‘๋‹จ์  ์ •์„œ๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ ์ง€๋ฐฐ์ ์ธ ์‹œ์žฅ ๋ถ„์œ„๊ธฐ์— ๋Œ€ํ•œ ๊ท€์ค‘ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณต
3) Broad coverage(๊ด‘๋ฒ”์œ„ํ•œ ์ ์šฉ ๋ฒ”์œ„)
: ์ถ”์„ธ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์–‘ํ•œ ์ฆ๊ถŒ ๋ฐ ์‹œ์žฅ ๋ถ€๋ฌธ์— ๊ฑธ์ณ ํฌ๊ด„์ ์ธ ์‹œ์žฅ ๋ฒ”์œ„๋ฅผ ์ œ๊ณต

-> ์ด๋Ÿฌํ•œ ๊ฐ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋Š” ๊ธˆ์œต ์„ธ๊ณ„์— ๋Œ€ํ•œ ๊ณ ์œ ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
-> FinGPT์™€ ๊ฐ™์€ ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ๊ธˆ์œต ์‹œ์žฅ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ดํ•ด๋ฅผ ์ด‰์ง„ํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ๊ธˆ์œต ์˜์‚ฌ ๊ฒฐ์ •์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

3.2. Challenges in Handling Financial Data

๐Ÿค” High temporal sensitivity

๊ธˆ์œต ๋ฐ์ดํ„ฐ๋Š” ์‹œ๊ฐ„์— ๋ฏผ๊ฐ. ์‹œ์žฅ์„ ์›€์ง์ด๋Š” ๋‰ด์Šค๋‚˜ ์—…๋ฐ์ดํŠธ๋Š” ์ผ๋‹จ ๊ณต๊ฐœ๋˜๋ฉด ํˆฌ์ž์ž๊ฐ€ ์•ŒํŒŒ(ํˆฌ์ž์˜ ์ƒ๋Œ€์  ์ˆ˜์ต ์ธก์ •)๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์ข์€ ๊ธฐํšŒ ์ฐฝ์„ ์ œ๊ณต

๐Ÿค” High dynamism

๊ธˆ์œต ํ™˜๊ฒฝ์€ ๋‰ด์Šค, ์†Œ์…œ ๋ฏธ๋””์–ด ๊ฒŒ์‹œ๋ฌผ, ๊ธฐํƒ€ ์‹œ์žฅ ๊ด€๋ จ ์ •๋ณด๊ฐ€ ๋งค์ผ ์œ ์ž…๋˜๋ฉด์„œ ๋Š์ž„์—†์ด ์ง„ํ™”ํ•˜๊ณ  ์žˆ์Œ. ์ด๋Ÿฌํ•œ ๋ณ€ํ™”์— ๋Œ€์ฒ˜ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์„ ์ž์ฃผ ์žฌ๊ต์œกํ•˜๋Š” ๊ฒƒ์€ ๋น„์‹ค์šฉ์ ์ด๋ฉฐ ๋น„์šฉ๋„ ๋งŽ์ด ๋“ฌ.

๐Ÿค” Low signal-to-noise ratio (SNR)

๊ธˆ์œต ๋ฐ์ดํ„ฐ๋Š” ์ข…์ข… "๋…ธ์ด์ฆˆ์— ๋Œ€ํ•œ ๋‚ฎ์€ ์‹ ํ˜ธ"๋ฅผ ๋ณด์ž„. Liu et al. (2022๋…„) , ์ด๋Š” ์œ ์šฉํ•œ ์ •๋ณด๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ด€๋ จ์ด ์—†๊ฑฐ๋‚˜ ์‹œ๋„๋Ÿฌ์šด ๋ฐ์ดํ„ฐ๋กœ ์ธํ•ด ์™œ์†Œํ•ด์ง์„ ์˜๋ฏธํ•จ. ์ด ์ •๋ณด์˜ ๋ฐ”๋‹ค์—์„œ ๊ท€์ค‘ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ถ”์ถœํ•˜๋ ค๋ฉด ์ •๊ตํ•œ ๊ธฐ์ˆ ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

4. Overview of FinGPT: An Open-Source Framework for FinLLM

4๊ณ„์ธต์œผ๋กœ FinGPT๊ฐ€ ์ด๋ฃจ์–ด์ง.


1) Data source layer

  • FinGPT์˜ ์‹œ์ž‘์ , ๋‹ค์–‘ํ•œ ์˜จ๋ผ์ธ ์†Œ์Šค์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ๊ธˆ์œต ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์กฐ์œจํ•˜๋Š” ๋ฐ์ดํ„ฐ ์†Œ์Šค ๊ณ„์ธต
  • ๋‰ด์Šค ์›น์‚ฌ์ดํŠธ, ์†Œ์…œ ๋ฏธ๋””์–ด ํ”Œ๋žซํผ, ์žฌ๋ฌด์ œํ‘œ, ์‹œ์žฅ ๋™ํ–ฅ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ํฌ๊ด„์ ์ธ ์‹œ์žฅ ๋ฒ”์œ„๋ฅผ ๋ณด์žฅ
  • ๋ชฉํ‘œ๋Š” ์‹œ์žฅ์˜ ๋ชจ๋“  ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ•˜์—ฌ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ์‹œ๊ฐ„์  ๋ฏผ๊ฐ๋„๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ

2) Data engineering layer

  • ์ด ๊ณ„์ธต์€ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ High temporal sensitivity ์™€ Low signal-to-noise ratio ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด NLP ๋ฐ์ดํ„ฐ์˜ ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ์— ์ค‘์ ์„ ๋‘ 
  • ์ตœ์ฒจ๋‹จ NLP ๊ธฐ์ˆ ์„ ํ†ตํ•ฉํ•˜์—ฌ ๋…ธ์ด์ฆˆ๋ฅผ ํ•„ํ„ฐ๋งํ•˜๊ณ  ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ•์กฐ ํ‘œ์‹œ

3) LLMs layer

  • ์ค‘์‹ฌ์— ์œ„์น˜ํ•˜๋ฉฐ ๊ฒฝ๋Ÿ‰ ์ ์‘์— ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋‘๊ณ  ๋ชจ๋ธ์„ ์ตœ์‹  ์ƒํƒœ๋กœ ์œ ์ง€ํ•˜๊ณ  ๊ด€๋ จ์„ฑ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ฏธ์„ธ ์กฐ์ • ๋ฐฉ๋ฒ•๋ก ์„ ํฌํ•จ
  • ์—…๋ฐ์ดํŠธ๋œ ๋ชจ๋ธ์„ ์œ ์ง€ํ•จ์œผ๋กœ์จ FinGPT๋Š” ๊ธˆ์œต ๋ฐ์ดํ„ฐ์˜ ๋งค์šฐ ์—ญ๋™์ ์ธ ํŠน์„ฑ์„ ์ฒ˜๋ฆฌํ•˜์—ฌ ์‘๋‹ต์ด ํ˜„์žฌ ๊ธˆ์œต ํ™˜๊ฒฝ๊ณผ ์ผ์น˜ํ•˜๋„๋ก ๋ณด์žฅ

4) Application layer

  • FinGPT์˜ ๋งˆ์ง€๋ง‰ ๊ตฌ์„ฑ ์š”์†Œ๋Š” FinGPT์˜ ์‹ค์ œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๋ ˆ์ด์–ด
  • ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ € ์„œ๋น„์Šค, ์ •๋Ÿ‰ ๊ฑฐ๋ž˜, ๋กœ์šฐ ์ฝ”๋“œ ๊ฐœ๋ฐœ ๋“ฑ ๊ธˆ์œต ์—…๋ฌด๋ฅผ ์œ„ํ•œ ์‹ค์Šต ํŠœํ† ๋ฆฌ์–ผ๊ณผ ๋ฐ๋ชจ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์ œ๊ณต
  • ์ด๋Ÿฌํ•œ ์‹ค์ œ ์‹œ์—ฐ์€ ์ž ์žฌ์ ์ธ ์‚ฌ์šฉ์ž์—๊ฒŒ ๊ฐ€์ด๋“œ ์—ญํ• ์„ ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ธˆ์œต ๋ถ„์•ผ์—์„œ LLM์˜ ํ˜์‹ ์ ์ธ ์ž ์žฌ๋ ฅ์„ ๊ฐ•์กฐ

4.1. Data Sources

๋‹ค์–‘ํ•œ ์˜จ๋ผ์ธ ์†Œ์Šค์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ๊ธˆ์œต ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•จ. ์•„๋ž˜ ๋ฐ์ดํ„ฐ์…‹ ๋ง๊ณ ๋„ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๋„ ์‚ฌ์šฉ๋จ!

๐Ÿ”ธ Financial news

: Reuters, CNBC, Yahoo Finance ๋“ฑ์˜ ์›น์‚ฌ์ดํŠธ๋Š” ๊ธˆ์œต ๋‰ด์Šค์™€ ์‹œ์žฅ ์—…๋ฐ์ดํŠธ๋ฅผ ์ œ๊ณตํ•˜๋Š” ํ’๋ถ€ํ•œ ์†Œ์Šค. ์ด๋Ÿฌํ•œ ์‚ฌ์ดํŠธ๋Š” ์‹œ์žฅ ๋™ํ–ฅ, ํšŒ์‚ฌ ์ˆ˜์ต, ๊ฑฐ์‹œ ๊ฒฝ์ œ ์ง€ํ‘œ ๋ฐ ๊ธฐํƒ€ ๊ธˆ์œต ์ด๋ฒคํŠธ์— ๋Œ€ํ•œ ๊ท€์ค‘ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณต

๐Ÿ”ธSocial media

: Twitter, Facebook, Reddit, Weibo ๋“ฑ์˜ ํ”Œ๋žซํผ์€ ๋Œ€์ค‘ ์ •์„œ, ํŠธ๋ Œ๋“œ ์ฃผ์ œ, ๊ธˆ์œต ๋‰ด์Šค ๋ฐ ์ด๋ฒคํŠธ์— ๋Œ€ํ•œ ์ฆ‰๊ฐ์ ์ธ ๋ฐ˜์‘ ์ธก๋ฉด์—์„œ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณต

๐Ÿ”ธFilings

: ๋ฏธ๊ตญ SEC ๋“ฑ ๊ธˆ์œต ๊ทœ์ œ ๋‹น๊ตญ์˜ ์›น์‚ฌ์ดํŠธ์—์„œ ํšŒ์‚ฌ ์„œ๋ฅ˜์— ๋Œ€ํ•œ ์•ก์„ธ์Šค๋ฅผ ์ œ๊ณต. ์ด๋Ÿฌํ•œ ์„œ๋ฅ˜์—๋Š” ์—ฐ๊ฐ„ ๋ณด๊ณ ์„œ, ๋ถ„๊ธฐ๋ณ„ ์ˆ˜์ต, ๋‚ด๋ถ€์ž ๊ฑฐ๋ž˜ ๋ณด๊ณ ์„œ ๋ฐ ๊ธฐํƒ€ ์ค‘์š”ํ•œ ํšŒ์‚ฌ๋ณ„ ์ •๋ณด๊ฐ€ ํฌํ•จ. ์ฆ๊ถŒ ๊ฑฐ๋ž˜์†Œ(NYSE, NASDAQ, Shanghai Stock Exchange ๋“ฑ)์˜ ๊ณต์‹ ์›น์‚ฌ์ดํŠธ์—์„œ๋Š” ์ฃผ๊ฐ€, ๊ฑฐ๋ž˜๋Ÿ‰, ํšŒ์‚ฌ ๋ชฉ๋ก, ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ ๋ฐ ๊ธฐํƒ€ ๊ด€๋ จ ์ •๋ณด์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•ฉ

: Seeking Alpha, Google Trends, ๊ธฐํƒ€ ๊ธˆ์œต ์ค‘์‹ฌ ๋ธ”๋กœ๊ทธ ๋ฐ ํฌ๋Ÿผ๊ณผ ๊ฐ™์€ ์›น์‚ฌ์ดํŠธ์—์„œ๋Š” ๋ถ„์„๊ฐ€์˜ ์˜๊ฒฌ, ์‹œ์žฅ ์˜ˆ์ธก, ํŠน์ • ์ฆ๊ถŒ ๋˜๋Š” ์‹œ์žฅ ๋ถ€๋ฌธ์˜ ์›€์ง์ž„ ๋ฐ ํˆฌ์ž ์กฐ์–ธ์— ๋Œ€ํ•œ ์•ก์„ธ์Šค๋ฅผ ์ œ๊ณต

๐Ÿ”ธ Academic datasets

: ์ •๊ตํ•œ ์žฌ๋ฌด ๋ถ„์„์„ ์œ„ํ•ด ์„ ๋ณ„๋˜๊ณ  ๊ฒ€์ฆ๋œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์„ธํŠธ

์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด FinGPT๋Š” API, ์›น ์Šคํฌ๋ž˜ํ•‘ ๋„๊ตฌ, ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ ์ง์ ‘ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์•ก์„ธ์Šค ๋“ฑ ๊ตฌ์กฐ์  ๋ฐ ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋ฅผ ์Šคํฌ๋ž˜ํ•‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋„๊ตฌ๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ์Šคํ…œ์€ ์ด๋Ÿฌํ•œ ํ”Œ๋žซํผ์˜ ์„œ๋น„์Šค ์•ฝ๊ด€์„ ์กด์ค‘ํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์œค๋ฆฌ์ ์ด๊ณ  ํ•ฉ๋ฒ•์ ์ž„์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”ธ Data APIs

: FinGPT ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ API๋Š” ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์—…๋ฐ์ดํŠธ์—๋„ ์‚ฌ์šฉ๋˜์–ด ๋ชจ๋ธ์ด ์ตœ์‹  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํ›ˆ๋ จ๋˜๋„๋ก ํ•จ. ๋˜ํ•œ API ์‚ฌ์šฉ ์ œํ•œ์„ ์ค€์ˆ˜ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํ๋ฆ„ ์ค‘๋‹จ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์˜ค๋ฅ˜ ์ฒ˜๋ฆฌ ๋ฐ ์†๋„ ์ œํ•œ ์ „๋žต์ด ๊ตฌํ˜„๋จ

4.2. Real-Time Data Engineering Pipeline for Financial NLP

๊ธˆ์œต์‹œ์žฅ์€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์šด์˜๋˜๋ฉฐ ๋‰ด์Šค์™€ ์ •์„œ์— ๋งค์šฐ ๋ฏผ๊ฐ
ex) ์œ ๊ฐ€์ฆ๊ถŒ ๊ฐ€๊ฒฉ์€ ์ƒˆ๋กœ์šด ์ •๋ณด์— ๋”ฐ๋ผ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ•ด๋‹น ์ •๋ณด ์ฒ˜๋ฆฌ๊ฐ€ ์ง€์—ฐ๋˜๋ฉด ๊ธฐํšŒ๋ฅผ ๋†“์น˜๊ฑฐ๋‚˜ ์œ„ํ—˜์ด ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ— ๊ธˆ์œต NLP์—์„œ๋Š” ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๊ฐ€ ํ•„์ˆ˜์ !!

โ— ์‹ค์‹œ๊ฐ„ NLP ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ฃผ์š” ๊ณผ์ œ๋Š” ์ง€์†์ ์ธ ๋ฐ์ดํ„ฐ ์œ ์ž…์„ ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ!

๐Ÿ”ง Data cleaning

: ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์žก์Œ์ด ๋งŽ๊ณ  ์ผ๊ด€์„ฑ์ด ์—†์„ ์ˆ˜ ์žˆ์Œ
-> ๋”ฐ๋ผ์„œ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ •๋ฆฌ์—๋Š” ๊ด€๋ จ ์—†๋Š” ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ, ๋ˆ„๋ฝ๋œ ๊ฐ’ ์ฒ˜๋ฆฌ, ํ…์ŠคํŠธ ์ •๊ทœํ™”(์˜ˆ: ์†Œ๋ฌธ์žํ™”) ๋ฐ ์˜ค๋ฅ˜ ์ˆ˜์ •

๐Ÿ”งTokenization

: ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ๋Š” ํ† ํฐํ™”๊ฐ€ ์ฆ‰์‹œ ์ˆ˜ํ–‰๋˜์–ด์•ผ ํ•จ. ์—ฌ๊ธฐ์—๋Š” ํ…์ŠคํŠธ ์ŠคํŠธ๋ฆผ์„ ๋” ์ž‘์€ ๋‹จ์œ„๋‚˜ ํ† ํฐ์œผ๋กœ ๋‚˜๋ˆ„๋Š” ์ž‘์—…์ด ํฌํ•จ

๐Ÿ”ง Stop word removal and stemming/lemmatization

: ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋ถˆ์šฉ์–ด ๋ชฉ๋ก์„ ์‚ฌ์šฉํ•˜์—ฌ ํ† ํฐ ์ŠคํŠธ๋ฆผ์—์„œ ์ด๋Ÿฌํ•œ ์ผ๋ฐ˜์ ์ธ ๋‹จ์–ด๋ฅผ ํ•„ํ„ฐ๋งํ•  ์ˆ˜ ์žˆ์Œ. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํ˜•ํƒœ์†Œ ๋ถ„์„ ๋ฐ ํ‘œ์ œ์–ด ๋ถ„์„ ๊ธฐ์ˆ ์„ ์ ์šฉํ•˜์—ฌ ๋‹จ์–ด๋ฅผ ์–ด๊ทผ ํ˜•ํƒœ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ

๐Ÿ”ง Feature extraction and sentiment analysis

: ํŠน์ง• ์ถ”์ถœ์—๋Š” ์›์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ž…๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ.
TF-IDF, Bag of Words์™€ ๊ฐ™์€ ๊ธฐ์ˆ ์ด๋‚˜ Word2Vec๊ณผ ๊ฐ™์€ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ. ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ์„ฑ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ํ…์ŠคํŠธ๋ฅผ ๊ธ์ •์ , ๋ถ€์ •์  ๋˜๋Š” ์ค‘๋ฆฝ์œผ๋กœ ๋ถ„๋ฅ˜ํ•จ.

๐Ÿ”ง Prompt engineering

: ์–ธ์–ด ๋ชจ๋ธ์˜ ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐ”๋žŒ์งํ•œ ์ถœ๋ ฅ์œผ๋กœ ์•ˆ๋‚ดํ•  ์ˆ˜ ์žˆ๋Š” ํšจ๊ณผ์ ์ธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ƒ์„ฑ

๐Ÿ”ง Alerts/Decision making

: ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ž…๋ ฅ๋˜๋ฉด ๊ฒฐ๊ณผ๋ฅผ ์ „๋‹ฌํ•˜๊ฑฐ๋‚˜ ์กฐ์น˜๋ฅผ ์ทจํ•ด์•ผ ํ•จ. ํŠน์ • ์กฐ๊ฑด์— ๋”ฐ๋ผ ๊ฒฝ๊ณ ๋ฅผ ํŠธ๋ฆฌ๊ฑฐํ•˜๊ฑฐ๋‚˜ ์‹ค์‹œ๊ฐ„ ์˜์‚ฌ ๊ฒฐ์ • ํ”„๋กœ์„ธ์Šค์— ์•Œ๋ฆฌ๊ฑฐ๋‚˜ ์ถœ๋ ฅ์„ ๋‹ค๋ฅธ ์‹œ์Šคํ…œ์— ๊ณต๊ธ‰ํ•˜๋Š” ๊ฒƒ์ด ํฌํ•จ๋จ

๐Ÿ”ง Continuous learning

: ์‹ค์‹œ๊ฐ„ ์‹œ์Šคํ…œ์—์„œ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ๋ณ€ํ™”์— ์ ์‘ํ•ด์•ผ, ์ง€์†์ ์ธ ํ•™์Šต ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ
->ใ…์—ฌ๊ธฐ์„œ ๋ชจ๋ธ์€ ์ •๊ธฐ์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์žฌ๊ต์œก์„ ๋ฐ›๊ฑฐ๋‚˜ ๊ฐ๊ฐ์˜ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋กœ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•  ์ˆ˜ ์žˆ๋Š” ์˜จ๋ผ์ธ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์‚ฌ์šฉ๋จ

๐Ÿ”ง Monitoring

: ์‹ค์‹œ๊ฐ„ ์‹œ์Šคํ…œ์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ง€์†์ ์ธ ๋ชจ๋‹ˆํ„ฐ๋ง์ด ํ•„์š”
-> ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ง€์—ฐ์ด๋‚˜ ๋ฌธ์ œ๋Š” ์ฆ‰๊ฐ์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ฐ•๋ ฅํ•œ ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ๊ฒฝ๊ณ  ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ”๋Š” ๊ฒƒ์ด ์ค‘์š”

4.3. Large Language Models (LLMs)

โœ… LLM APIs

: ํ™•๋ฆฝ๋œ LLM์˜ API๋Š” ๊ธฐ๋ณธ ์–ธ์–ด ๊ธฐ๋Šฅ์„ ์ œ๊ณต

โœ… Trainable models

: FinGPT๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ๊ฐœ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๊ธˆ์œต ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋งž๊ฒŒ ๋งž์ถคํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์„ ์ œ๊ณต

โœ… Fine-tuning methods

: ์–‘ํ•œ ๋ฏธ์„ธ ์กฐ์ • ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด FinGPT๋ฅผ ๊ฐœ์ธํ™”๋œ ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ €์— ์ ์šฉ

๐Ÿค” ์ฒ˜์Œ๋ถ€ํ„ฐ ์žฌ๊ต์œก(retrain)ํ•˜๋Š” ๋Œ€์‹  LLM์„ fine-tune ํ•˜๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๊ธฐ์กด LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์„ ํ™œ์šฉํ•˜๊ณ  ์žฌ๋ฌด์— ๋งž๊ฒŒ fine-tuneํ•˜๋ฉด ๋น„์‹ธ๊ณ  ์˜ค๋žœ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฌ๋Š” ๋ชจ๋ธ ์žฌ๊ต์œก์— ๋Œ€ํ•œ ํšจ์œจ์ ์ด๊ณ  ๋น„์šฉ ํšจ๊ณผ์ ์ธ ๋Œ€์•ˆ์„ ์ œ๊ณต

  • BloombergGPT๋Š” ๊ธˆ์œต ๊ด€๋ จ ๊ธฐ๋Šฅ์ด ๋›ฐ์–ด๋‚˜์ง€๋งŒ ์ง‘์ค‘์ ์ธ ๊ณ„์‚ฐ ์š”๊ตฌ ์‚ฌํ•ญ์ด ์žˆ์Œ.
    ํ›ˆ๋ จ์— ์•ฝ 130๋งŒ GPU ์‹œ๊ฐ„์ด ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ, AWS ํด๋ผ์šฐ๋“œ์˜ 2.3๋‹ฌ๋Ÿฌ ์š”์œจ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐํ•˜๋ฉด ํ›ˆ๋ จ๋‹น ์•ฝ 300๋งŒ ๋‹ฌ๋Ÿฌ์— ๋‹ฌํ•˜๋Š” ์—„์ฒญ๋‚œ ๋น„์šฉ์ด ์†Œ์š”๋จ.

    BloombergGPT์™€ ๊ฐ™์€ ๋ชจ๋ธ์˜ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ๋‹ฌ๋ฆฌ FinGPT๋Š” ์ตœ๊ณ ์˜ ์˜คํ”ˆ ์†Œ์Šค LLM์˜ ๊ฒฝ๋Ÿ‰ํ™”์— ์ค‘์ ์„ ๋‘์–ด ๋ณด๋‹ค ์ ‘๊ทผํ•˜๊ธฐ ์‰ฌ์šด ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ ์‘ ๋น„์šฉ์€ ํ›ˆ๋ จ๋‹น $300 ๋ฏธ๋งŒ์œผ๋กœ ํฌ๊ฒŒ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.

  • ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์—ญ๋™์ ์ธ ๊ธˆ์œต ์˜์—ญ์— ํ•„์ˆ˜์ ์ธ ์‹œ๊ธฐ์ ์ ˆํ•œ ์—…๋ฐ์ดํŠธ์™€์ ์‘์„ฑ์„ ๋ณด์žฅ.

    ์˜คํ”ˆ ์†Œ์Šค์ธ FinGPT๋Š” ํˆฌ๋ช…์„ฑ์„ ์ด‰์ง„ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฌ์šฉ์ž ๋งž์ถคํ™”๋ฅผ ํ—ˆ์šฉํ•˜์—ฌ ๊ฐœ์ธํ™”๋œ ์žฌ์ • ์ž๋ฌธ ์„œ๋น„์Šค์˜ ์ฆ๊ฐ€ ์ถ”์„ธ์— ๋ถ€์‘.
    ๊ถ๊ทน์ ์œผ๋กœ FinGPT์˜ ๋น„์šฉ ํšจ์œจ์ ์ด๊ณ  ์œ ์—ฐํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ๋ฏผ์ฃผํ™”ํ•˜๊ณ  ์‚ฌ์šฉ์ž ์ค‘์‹ฌ ๊ธˆ์œต ์„œ๋น„์Šค๋ฅผ ์œก์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์œ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’กFine-tuning via Low-rank Adaptation (LoRA)

FinGPT์—์„œ๋Š” ์ƒˆ๋กœ์šด ๊ธˆ์œต ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ LLM์„ fine-tuneํ•ฉ๋‹ˆ๋‹ค.

โœ”๏ธ ๊ณ ํ’ˆ์งˆ์˜ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ChatGPT๋ฅผ ํฌํ•จํ•œ ๋งŽ์€ ์„ฑ๊ณต์ ์ธ LLM์˜ ํ•ต์‹ฌ ๊ฒฐ์ • ์š”์ธ
โœ”๏ธ ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํš๋“ํ•˜๋ ค๋ฉด ์‹œ๊ฐ„๊ณผ ๋ฆฌ์†Œ์Šค ์ธก๋ฉด์—์„œ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์ผ๋ฐ˜์ ์œผ๋กœ ์žฌ๋ฌด ์ „๋ฌธ๊ฐ€์˜ ์ „๋ฌธ ์ง€์‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๊ฐ€ ๊ธˆ์œต ๊ด€๋ จ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ •๋Ÿ‰์  ๊ฑฐ๋ž˜๋ฅผ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด LLM์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋ผ๋ฉด ์‹œ์žฅ ๊ณ ์œ ์˜ ๋ผ๋ฒจ๋ง ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.
-> ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ฐ ๋‰ด์Šค ํ•ญ๋ชฉ์— ๋Œ€ํ•œ ์ƒ๋Œ€์  ์ฃผ๊ฐ€ ๋ณ€๋™๋ฅ ์„ ์ถœ๋ ฅ ๋ ˆ์ด๋ธ”๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. (relative stock price change percentage for each news item as the output labels)
-> ๋‰ด์Šค ํ•ญ๋ชฉ์˜ ์ •์„œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋Ÿฌํ•œ ๋ ˆ์ด๋ธ”์„ ๊ธ์ •์ , ๋ถ€์ •์ , ์ค‘๋ฆฝ์˜ ์„ธ ๊ฐ€์ง€ ๋ฒ”์ฃผ๋กœ ๋‚˜๋ˆ„๋Š” ์ž„๊ณ„๊ฐ’์„ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’กFine-tuning via Reinforcement Learning on Stock Prices (RLSP)

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ChatGPT์—์„œ ํ™œ์šฉํ•˜๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๋Œ€ํ•œ ๊ฐ•ํ™” ํ•™์Šต์„ ์ฃผ๊ฐ€์— ๋Œ€ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLSP)์œผ๋กœ ๋Œ€์ฒด
๐Ÿค” ์ด๋Ÿฌํ•œ ๋Œ€์ฒด์˜ ์ด์œ ๋Š”, ์ฃผ๊ฐ€๊ฐ€ ๋‰ด์Šค์™€ ์ด๋ฒคํŠธ์— ๋Œ€ํ•œ ์‹œ์žฅ ์‹ฌ๋ฆฌ๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ์ •๋Ÿ‰ํ™” ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ๊ด€์ ์ธ ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Š” "๋ชจ๋ธ ๊ต์œก์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜"์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๊ฐ•ํ™” ํ•™์Šต(RL)์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ ์ž‘์šฉ ๋ฐ ํ”ผ๋“œ๋ฐฑ ์ˆ˜์‹ ์„ ํ†ตํ•ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

RLSP์˜ ๊ฒฝ์šฐ,
โœ”๏ธ environment = ์ฃผ์‹์‹œ์žฅ
โœ”๏ธ feedback = form of stock price changes

์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด,
โ— FinGPT๋Š” ๊ธˆ์œต ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ์ดํ•ด์™€ ํ•ด์„์„ ๊ฐœ์„ ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๊ธˆ์œต ์ด๋ฒคํŠธ์— ๋Œ€ํ•œ ์‹œ์žฅ ๋ฐ˜์‘์„ ์˜ˆ์ธกํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ
โ— ๋‰ด์Šค ์ •์„œ์™€ ๊ด€๋ จ ์ฃผ์‹์˜ ํ›„์† ์‹ค์ ์„ ์—ฐ๊ฒฐํ•จ์œผ๋กœ์จ RLSP๋Š” FinGPT๋ฅผ fine-tuneํ•˜๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณต

=> ๋ณธ์งˆ์ ์œผ๋กœ RLSP๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ๋‰ด์Šค ์ด๋ฒคํŠธ์— ๋Œ€ํ•œ ์‹œ์žฅ์˜ ๋ฐ˜์‘์„ ์ถ”๋ก ํ•˜๊ณ  ์ด์— ๋”ฐ๋ผ ์ดํ•ด์™€ ์˜ˆ์ธก์„ ์กฐ์ • (์‹ค์ œ ์ฃผ๊ฐ€ ์›€์ง์ž„์„ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์šฐ๋ฆฌ๋Š” ์‹œ์žฅ์˜ ์ง€ํ˜œ๋ฅผ ์ง์ ‘ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๋”์šฑ ํšจ๊ณผ์ ์œผ๋กœ ๋งŒ๋“ฌ)

4.4. Applications

  • Robo-advisor : ๋งž์ถคํ˜• ๊ธˆ์œต ์กฐ์–ธ์„ ์ œ๊ณตํ•˜์—ฌ ์ •๊ธฐ์ ์ธ ๋Œ€๋ฉด ์ƒ๋‹ด์˜ ํ•„์š”์„ฑ์„ ์ค„์ž„
  • Quantitative trading : ์ •๋ณด์— ์ž…๊ฐํ•œ ๊ฑฐ๋ž˜ ๊ฒฐ์ •์„ ์œ„ํ•œ ๊ฑฐ๋ž˜ ์‹ ํ˜ธ ์ƒ์„ฑ
  • Portfolio optimization : ๋‹ค์–‘ํ•œ ๊ฒฝ์ œ์ง€ํ‘œ์™€ ํˆฌ์ž์ž ํ”„๋กœํŒŒ์ผ์„ ํ™œ์šฉํ•˜์—ฌ ์ตœ์ ์˜ ํˆฌ์ž ํฌํŠธํด๋ฆฌ์˜ค ๊ตฌ์ถ•
  • Financial sentiment analysis : ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ํˆฌ์ž ์ง€์นจ์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๊ธˆ์œต ํ”Œ๋žซํผ ์ „๋ฐ˜์˜ ๊ฐ์ •์„ ํ‰๊ฐ€
  • Risk management : ๋‹ค์–‘ํ•œ ์œ„ํ—˜ ์š”์ธ์„ ๋ถ„์„ํ•˜์—ฌ ํšจ๊ณผ์ ์ธ ์œ„ํ—˜ ์ „๋žต์„ ์ˆ˜๋ฆฝ
  • Financial Fraud detection : ๊ธˆ์œต ๋ณด์•ˆ ๊ฐ•ํ™”๋ฅผ ์œ„ํ•ด ์ž ์žฌ์ ์ธ ์‚ฌ๊ธฐ ๊ฑฐ๋ž˜ ํŒจํ„ด์„ ์‹๋ณ„
  • Credit scoring : ๊ธˆ์œต ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์‹ ์šฉ๋„๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ๋Œ€์ถœ ๊ฒฐ์ •์— ๋„์›€
  • Insolvency prediction : ๊ธˆ์œต ๋ฐ ์‹œ์žฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธฐ์—…์˜ ๋ถ€์‹ค ๋˜๋Š” ๋ถ€๋„ ๊ฐ€๋Šฅ์„ฑ์„ ์˜ˆ์ธก
  • Mergers and acquisitions (M&A) forecasting : ์žฌ๋ฌด ๋ฐ์ดํ„ฐ์™€ ํšŒ์‚ฌ ํ”„๋กœํ•„์„ ๋ถ„์„ํ•˜์—ฌ ์ž ์žฌ์ ์ธ M&A ํ™œ๋™์„ ์˜ˆ์ธกํ•˜์—ฌ ํˆฌ์ž์ž๊ฐ€ ์‹œ์žฅ ๋™ํ–ฅ์„ ์˜ˆ์ธกํ•˜๋„๋ก ๋„์›€
  • ESG (Environmental, Social, Governance) scoring : ๊ณต๊ฐœ ๋ณด๊ณ ์„œ ๋ฐ ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ธฐ์—…์˜ ESG ์ ์ˆ˜๋ฅผ ํ‰๊ฐ€
  • Low-code development : ์‚ฌ์šฉ์ž ์นœํ™”์ ์ธ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์†Œํ”„ํŠธ์›จ์–ด ์ƒ์„ฑ์„ ์ด‰์ง„ํ•˜๊ณ  ๊ธฐ์กด ํ”„๋กœ๊ทธ๋ž˜๋ฐ์— ๋Œ€ํ•œ ์˜์กด๋„๋ฅผ ์ค„์ž„
  • Financial education : ๋” ๋‚˜์€ ๊ธˆ์œต ์ดํ•ด๋ ฅ์„ ์œ„ํ•ด ๋ณต์žกํ•œ ๊ธˆ์œต ๊ฐœ๋…์„ ๋‹จ์ˆœํ™”ํ•˜๋Š” AI ๊ต์‚ฌ ์—ญํ• 

5. Conclusion

โœ… ๊ฒฐ๋ก ์ ์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ธˆ์œต ๋ถ€๋ฌธ์— ํ˜์‹ ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋ฉด ๊ณ ์œ ํ•œ ๋ณต์žก์„ฑ๊ณผ ๋ง‰๋Œ€ํ•œ ๊ธฐํšŒ๊ฐ€ ๋ฐœ์ƒํ•ฉ
โœ… ๋†’์€ ์‹œ๊ฐ„์  ๋ฏผ๊ฐ๋„, ์—ญ๋™์ ์ธ ๊ธˆ์œต ํ™˜๊ฒฝ, ๊ธˆ์œต ๋ฐ์ดํ„ฐ์˜ ๋‚ฎ์€ ์‹ ํ˜ธ ๋Œ€ ์žก์Œ๋น„ ๋“ฑ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๋ฉด ํšจ์œจ์ ์ธ ์†”๋ฃจ์…˜์ด ํ•„์š”
โœ… FinGPT๋Š” ๊ธฐ์กด LLM์„ ํ™œ์šฉํ•˜๊ณ  ์ด๋ฅผ ํŠน์ • ๊ธˆ์œต ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋งž๊ฒŒ fine-tuneํ•˜์—ฌ ํ˜์‹ ์ ์œผ๋กœ ๋Œ€์‘
โœ… BloombergGPT์™€ ๊ฐ™์€ ๋ชจ๋ธ์— ๋น„ํ•ด ์ ์‘ ๋น„์šฉ๊ณผ ๊ณ„์‚ฐ ์š”๊ตฌ ์‚ฌํ•ญ์„ ํฌ๊ฒŒ ์ค„์—ฌ ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ๋ณด๋‹ค ์ ‘๊ทผํ•˜๊ธฐ ์‰ฝ๊ณ  ์œ ์—ฐํ•˜๋ฉฐ ๋น„์šฉ ํšจ์œจ์ ์ธ ์†”๋ฃจ์…˜์„ ์ œ๊ณต.
โœ… ์—ญ๋™์ ์ด๊ณ  ์‹œ๊ฐ„์— ๋ฏผ๊ฐํ•œ ๊ธˆ์œต ์„ธ๊ณ„์—์„œ ์ค‘์š”ํ•œ ์ธก๋ฉด์ธ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ๊ณผ ๊ด€๋ จ์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ์ผ๊ด€๋œ ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ฐ€๋Šฅ

6. Future Work

Individualization

: FinLLM ์ „๋žต์˜ ํ•ต์‹ฌ์€ concept of individualized fine-tuning
FinLLM์€ LoRA ๋ฐ QLoRA์™€ ๊ฐ™์€ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ํŠน์ • ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๊ฒŒ ๋ชจ๋ธ์„ ๋งž์ถคํ™”ํ•˜์—ฌ ๊ฐœ์ธ์šฉ ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ € ๋˜๋Š” ๋ณด์กฐ์ž๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋„๋ก ํ•จ. ์ด๋Š” ์†Œ๋น„์ž๊ฐ€ ์ ์  ๋” ์ž์‹ ์˜ ๊ณ ์œ ํ•œ ์œ„ํ—˜ ํ”„๋กœํ•„ ๋ฐ ์žฌ๋ฌด ๋ชฉํ‘œ์— ๋งž๋Š” ๋งž์ถคํ˜• ์กฐ์–ธ์„ ์š”๊ตฌํ•จ์— ๋”ฐ๋ผ ๊ธˆ์œต ์„œ๋น„์Šค์˜ ๋งž์ถคํ™”๋ฅผ ํ–ฅํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์ถ”์„ธ์™€ ์ผ์น˜ํ•จ

Open-source and low-cost adaptation

: FinLLM์€ ์˜คํ”ˆ ์†Œ์Šค ๊ฐ€์น˜๋ฅผ ์˜นํ˜ธํ•˜๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ $100~$300 ์‚ฌ์ด์˜ ์ €๋ ดํ•œ ๋น„์šฉ์œผ๋กœ LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์„ ์ž์‹ ์˜ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณต
์ด๋Š” ๊ณ ๊ธ‰ ๊ธˆ์œต ๋ชจ๋ธ๋ง ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ์ ‘๊ทผ์„ ๋ฏผ์ฃผํ™”ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ฐœ๋ฐœ์ž์™€ ์—ฐ๊ตฌ์›์œผ๋กœ ๊ตฌ์„ฑ๋œ ํ™œ๋ฐœํ•œ ์ปค๋ฎค๋‹ˆํ‹ฐ๋ฅผ ์กฐ์„ฑํ•˜์—ฌ ๊ธˆ์œต AI ๋ถ„์•ผ์—์„œ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์˜ ํ•œ๊ณ„๋ฅผ ๊ณต๋™์œผ๋กœ ํ™•์žฅํ•จ

Access to high-quality financial data

: FinLLM์€ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ๋ง ๊ธฐ์ˆ  ์ œ๊ณต์„ ๋„˜์–ด ๊ณ ํ’ˆ์งˆ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์•ก์„ธ์Šค๋„ ์ œ๊ณต
์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋Š” ๋ชจ๋ธ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ›ˆ๋ จํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋™์‹œ์— ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ์Œ. ๋ฐ๋ชจ๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ์•ก์„ธ์Šค๊ฐ€ ๋”์šฑ ํ–ฅ์ƒ๋˜์–ด ์‚ฌ์šฉ์ž๊ฐ€ ์žฌ๋ฌด ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ๋ ฅ์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ

profile
๋ฐฐ์šฐ๊ณ  ๊ณต๋ถ€ํ•˜๊ณ  ๊ธฐ๋กํ•˜๋Š” ๊ฒƒ์„ ๋ฉˆ์ถ”์ง€ ์•Š๋Š”๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€