"사람이 다 하던 일을 검토만 하자" 라는 패러다임의 변화
모든 직무에서 ai적인 요소를 알고 있는 것이 유리해졌다.
다양한 산업군에 들어간 AI의 예시
전범위 산업분야 무관하게 모든 직무가 밀접한 관계로 AI와 연결되어있다.
무엇인지 어떻게 작동하는지 선제적으로 학습하는 것은 취업시장에서 큰 무기로 작동한다 !
기본적으로 software
능동적으로 비선형 상황을 처리하는 똑똑한 sw
단편적으로 표현하기 어려운 문제, 어떤 상황이 발생할 지 모르는 상황

| / | 선형 상황 | 비선형 상황 |
|---|---|---|
| 예시 | 월급을 계좌이체로 받는 것 | 서빙을 할 때 일어나는 수많은 일들 |
AI를 상황에 맞게 사용하기 위해 필요한 작업
기술자의 의도대로 규칙기반으로 학습을 시킨 것
정답 데이터를 알려주며 해당 로직을 수행하도록 학습시키는방법
장점
특정 상황을 빠르고 정확하게 처리
단점
유연성이 다소 떨어짐, 미리 데이터를 준비해야함(정답 셋이 있어야함)
예시
스팸메일 분류, 질병 진단, 성별 예측
특정 군집, 패턴을 인식해서 많은 정보 속에서 특정 공통점과 차이점을 인식하는 것
장점
정답 데이터가 필요 없음
단점
명확한 정답이 없음
예시
상품 추천, 범죄 위험 지역 예측, 고객 분류
상황에 따라 다르므로 뭐가 더 낫다 나쁘다는 없지만, 최근에는 해결해야 하는 상황이 고도화됨에 따라 복합 학습 방법을 많이 사용한다.
학습 결과에 따라 결과물도 달라진다
분류 최적화 / 생성 최적화
그림, 글, 신호 등 다양한 정보 분류

직접 산출물이 발생하면 전부 생성형

large language model, 거대 언어 모델
대부분 생성형 ai
사람의 말을 듣고 산출물을 발생시키기 때문
언어를 먹고 언어를 뱉는 ai
언어를 이해하는 것이 아니라 문맥을 인식해서 다음에 올 답변을 예측하는 것
llm이 문장을 수치화하는 방식
llm이 문장을 이해하기 위한 첫번째 단계
llm은 언어를 수치화 해서 인식 후 임베딩을 완료한 정보를 바탕으로 트랜스포머 연산을 통해 이해한다.
트랜스포머 알고리즘은 실제 의미를 조합하기 위한 로직
llm 성능을 높이려면 직접 많은 문장을 떠먹여줘야함
(과정에 대한 자동화와는 별개로)
그래서 고안된 해결책이 있다.
llm의 특정 매개변수를 수정하는 작업
예시
새로운 데이터 셋을 학습시키거나 답변 자유도 값을 수정하거나 답변 최대 길이를 수정하거나 ...
장점
비교적 작업속도가 빠르다. 매개변수만 조정하면 된다. (모든 미세조정이 그런 것이 아니다)
단점
결과를 보는데 까지 시간이 오래 걸리고 결과가 마음에 들지 않으면 새로 미세 조정을 해야함
llm이 참고해서 답변을 만들 수 있는 새로운 정보의 장을 활용하는 방법
기존의 학습 내용 + 추가적 정보
예시
웹에 있는 내용을 참고하게 하거나, 서버의 문서의 내용을 참고하게 하거나, 핸드폰의 그림들을 참고하게 하거나 ...
장점
별도의 학습을 시키지 않아도 됨
단점
rag을 설계, 구축, 적용, 유지보수 작업을 하는데에 많은 비용이 듦
상황에 따라 다르지만 두 방법을 모두 사용한다.
ai는 좋은 도구일 뿐, 결국 사람 손이 필요하다.
llm한테 입력하는 모든 문장, 지시문
llm의 정체성, 주임무, 사용자를 설정하기 위해서 사용한다
1. 지시 instruction
llm이 수행해야 하는 명령
2. 입력값 inputdata
llm이 받아들일 값, 그림, 글 등
3. 문맥 context
추가적인 정보, 어조, 말투
4. 출력지시자 output indicator
출력 틀, 양식
5. 예시 example
사용자가 원하는 추가적인 예시
자유도 tempertature
llm의 답변 자유도를 설정하는 값
최대 토큰 수
llm이 소화할 수 있는 최대 토큰 수
토큰
문장을 자르는 기준 ! 용량이 클수록 토큰 수를 늘릴 수 있다.
자유도가 너무 높으면 환각이 발생하거나 너무 낮으면 추론 능력이 낮아보일 수 있다

코딩을 해야지만 프롬프트 엔지니어링을 할 수 있나?
NO. 모든 문장이 프롬프트이니 단순 문장 입력으로도 가능하다.
상황에 따라 다양하게 적용할 수 있는 기법들이 있다.
요새는 복합적으로 사용하는 추세.
zero-shot prompting
예시 없이 원하는 작업을 지시하여, 사전학습된 일반적인 지식만으로 문제를 해결하는 방법
장점
별도의 학습을 수행하지 않고 명료하게 지시문을 작성하면 되므로 직관적이고 간편하다
단점
llm의 기존 학습된 내용에 의존하기 때문에 성능에 의존하게 됨
few-shot prompting
프롬프트 내에 소수의 관련 예시를 포함시켜서 ai 모델의 성능을 향상시키는 프롬프트 엔지니어링 기법
장점
예시를 포함하여 다음 출력 결과를 예상할 수 있음
단점
예시가 명확해야하며 정확한 답변을 원할수록 더 많은 예시와 예외처리가 필요함 (쏘머치샷이냐고)
chain of thought prompting 생각의 사슬
복잡한 문제를 해결할 때 정답을 바로 제시하는 대신 사고과정을 단계별로 거쳐 추론하도록 유도하는 방식
장점
추론해나가는 과정을 볼 수 있어서 잘못 추론한 부분이 있으면 피드백 하기 쉬움
단점
필요없는 내용까지 방대해질 수 있으며 답변 후처리 가공이 필요할 수 있음
tree of thoughts 생각의 나무
복잡한 문제의 해결과정을 나무처럼 여러가지 가능성응ㄹ 탐색하고 최적의 경로를 찾는 방식
장점
여러 해결책을 구할 수 있음
단점
어느 답이 제일 적절한지, 환각은 없는지 검증을 해야하거나 검증이 어려움
답변 가짓수를 제한하는 것도 팁 !
structured prompting 구조화 지시
구조를 갖춰서 절차지향적으로 프롬프트를 작성하는 방법
JSON형식 : key, value
key는 고정, value는 바뀜
장점
절차를 수행하는 데 가장 직관적인 방법
단점
사람이 이해하는 초점을 두기 보다는 기계의 입장에서 프롬프트를 이해하도록 작성하는데 초점을 둬야 함
generated knowledge prompting 지식 생성
응답 정확도와 추론 능력을 향상시키기 위한 기법
지식을 생성 후 그것에 따른 답변 생성하도록 하는 것
퓨샷을 약간 넣어주기도 함
장점
모델이 지식을 정리하고 사고 기반을 만들기 때문에 정확도와 추론력 향상에 도움
단점
생성된 지식이 부정확할경우 잘못된 정보를 기반으로 답이 더 크게 틀릴 위험
ai 관련 윤리에서 대표적인 위험 요소가 환각, 저작권, 개인정보에서 발생한다.
정의
실제로 존재하지 않거나 잘못된 정보를 보여주는 것
보통 학습된 내용에 한계가 있기 때문에 답변을 생성하는데 있어서 의도와 벗어난 동작을 하게 됨
정확히는 오작동 또는 오류가 아니라 확률과 예측의 특성 때문에 발생하게 되는 현상
온도값(자유도)을 낮추거나 제한점 설계 ,추가학습 등의 방법
우리가 설계한대로 동작을 하는 것이지만 모든 생성형 ai는 환각에 대한 가능성을 가지고 있다.
그릇된 내용이 그대로 사용자에게 전달될 수 있기 때문에
민트초코 킹크랩이 있으면 끔찍하겠지 ...
항상 검증하고 검토하고 검수해야 한다
특정된 어떤 사람에 대한 정보를 무단으로 숭집, 사용, 유출 등 목적에서 벗어난 모든 활동
'뭔가 위험할 것 같은데?' 라는 느낌에 사용되는 보안 용어
사례
해킹 관련된 ai가 특정 인물에 대한 정보를 취득하거나 ai가 특정 인물에 대한 진실과 거짓된 정보를 합쳐 생성한 답변들
= 전부 개인정보 침해다
특히 의료 국방, 행정, 금융, 미성년 자료는 더욱 엄격하다
(데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법)
저작권법에 의해 독창성과 저작권을 인정받을 수 있도록 보호를 받는 특정 생성물
저작물로 인정받기 위해서는 생성자의 사상과 감정이 독자적으로 독창성있게 투영된 생성물이어야 한다.
독창성이 없다면 저작물로 인정받기 어렵다.
저작권자의 권리를 보장하고 무분별한 저작물의 남용을 막고 보호하기 위한 법률을 의미함
원 저작권자의 동의 없이 2차 창작물을 생성하거나, 원저작권자의 동의 없이 저작물의 정보를 변경 및 활용하는 모든 것.
로고를 아무데나 사용한다거나, 기타 등등 ....
고의가 아니더라도 저작권침해는 발생할 수 있다