논문 정리

ijnuyh·2025년 1월 20일
📌 “ 신뢰할 수 없는 정보를 생성하는 현재 생성AI 기술의 한계극복을 위해 논리적이며 일관된 논지로 진실된 정보만을 처리하기 위한 생성AI 모델링 기법 연구 “

이와 관련된 논문과 방법론에 대해 조사

Assessing the Effectiveness of GPT-3 in Detecting False Political Statements:
A Case Study on the LIAR Dataset
-Mars Gokturk Buchholz


또한 향후 연구에서는 few-shot 학습 시나리오를 탐색할 수 있습니다. 잘 선택된 예제 세트로 모델을 미세 조정하면 zero-shot 설정보다 성능이 뛰어날 수 있습니다.

GPT-3 모델은 Politifact 데이터의 la-bel을 일관되게 사용하거나 정렬하지 않는 복잡한 행동을 보였는데, 이는 Politifact 데이터를 라벨 생성에 사용하는 것은 진실-가치 평가 시 정보 검색에 능숙한 것과 달리 잠재적인 데이터 유출에 대한 의문을 불러일으킵니다

News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking

OpenAI의 GPT-3.5와 GPT-4.0, 구글의 Bard/LaMDA, 마이크로소프트의 Bing AI와 같은 대규모 언어 모델의 기만적인 뉴스 정보로부터 사실을 구별하는 성능은 100점 만점에 평균 65.25점으로 중간 정도의 성공을 거둔 것

71점으로 가장 높은 점수를 받은 모델인 GPT-4.0은 이 분야에서 발전을 보여주었지만, 독립적인 팩트체크 기관은 종종 클레임의 맥락과 뉘앙스를 더 깊이 파고들어 여러 출처의 정보를 확증한다는 점에 유의

Self-Assessment Tests are Unreliable Measures of LLM Personality

자기평가진행

정답이나 오답이 없기 때문에 이러한 자체 assess 질문에 대한 근거 자료가 없기 때문에 제시하는 한 가지 방법을 구체적으로 선택할 수 있는 방법이 없습니다

LLM의 성격 개념은 느슨하게 정의되어 있으며 행동의 다른 속성과 상관관계가 없습니다. 우리의 논문은 LLM 성격을 측정하기 위해 자가 평가 테스트를 사용하는 것의 단점을 강조하지만, 우리의 논문은 성격별 LLM을 평가하는 대안적인 방법을 제공하지 않습니다. 이것은 심리학 분야의 전문가가 필요한 미래 연구의 일부로 남겨졌습니다,

Personas as a Way to Model Truthfulness in Language Models

Burns et al. (2022)

- 감독되지 않은 일관성 기반 방법을 사용하면 LLM이 출력하는 것 이상으로 진실한 답변을 이끌어내는 데 도움이 될 수 있음을 보여줌

(using an unsupervised consistency-based method can help elicit truthful answers beyond what the LLM output)

Li et al. (2023)

- 진실성을 담당하는 특정 주의 머리에 대한 개입이 추론 중에 모델을 더 진실하게 만들 수 있음을 보여줌

(interventions on specific attention heads which are responsible for truthfulness can make the model more truthful during inference.)

Chuang et al. (2023)

DoLa: Decoding by Contrasting Layers Improves Factuality in Large...

-레이어 간을 대조하여 디코딩하면 진실성을 높일 수 있음.

(decoding by contrasting across layers can increase truthfulness.)

-조사 결과와 유사하게 내부 상태 표현(Azaria & Mitchell, 2023) 또는 답변의 언어적 특징(Lee et al., 2023)을 사용하여 LLM이 생성한 답변이 진실한지 여부를 감지할 수 있음을 보여주었습니다.

we can detect whether an answer produced by LLM is truthful either using its internal state representation (Azaria & Mitchell, 2023) or using linguistic features of the answer (Lee et al., 2023)

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

그들의 인상적인 능력에도 불구하고, 대규모 언어 모델(LLM)은 환각, 즉 사전 훈련 중에 본 사실에서 벗어나는 콘텐츠를 생성하는 경향이 있다. 우리는 검색된 외부 지식에 대한 컨디셔닝이나 추가 미세 조정이 필요하지 않은 사전 훈련된 LLM으로 환각을 줄이기 위한 간단한 디코딩 전략을 제안합니다. 우리의 접근 방식은 LLM의 사실적 지식이 일반적으로 특정 변압기 계층에 국한된 것으로 나타났다는 사실을 활용하여 나중에 레이어와 이전 레이어를 어휘 공간에 투사함으로써 얻은 로그의 차이를 대조함으로써 다음 토큰 분포를 얻습니다. 우리는 이 대조 계층(DoLa) 접근 방식이 사실적 지식을 더 잘 표면화하고 잘못된 사실의 생성을 줄일 수 있다는 것을 알게 되었다. DoLa는 다중 선택 작업과 개방형 생성 작업 전반에 걸쳐 진실성을 지속적으로 개선합니다. 예를 들어 TruthfulQA에서 LLaMA 제품군 모델의 성능을 12-17%의 절대 포인트로 개선하여 LLM이 신뢰할 수 있는 진실된 사실을 생성할 수 있는 잠재력을 보여줍니다.

embedding layer, N stacked transformer layers, an affine layer

우리의 접근 방식은 상위 계층과 하위 계층 정보를 대조하여 다음 토큰 확률을 얻습니다. 보다 구체적으로, j번째 초기 계층의 경우, 다음과 같이 φ(·)를 사용하여 다음 토큰 확률을 계산하며, 여기서 J ⊂ {0, ..., N - 1}은 후보 계층의 집합입니다.

method.png

LLM의 환각을 줄이기 위한 새로운 디코딩 전략인 대조 레이어에 의한 디코딩(DoLa).

저희의 접근 방식은 트랜스포머 LLM 내의 사실 지식의 계층적 인코딩을 활용합니다. 특히 디코딩 프로세스의 사실성을 개선하기 위해 적절한 레이어를 동적으로 선택하고 로그를 대조합니다. 실험 결과에 따르면 DoLa는 외부 정보 검색이나 모델 미세 조정 없이 여러 작업에서 진실성을 크게 향상시킵니다. 전반적으로 DoLa는 LLM을 자체적으로 더 안전하고 신뢰할 수 있도록 만드는 데 중요한 단계입니다.

한계

1) 사실성에 초점을 맞추기: 인간 피드백으로부터의 강화 학습과 같은 다른 차원에서 DoLa를 탐구하지 않았습니다(Ouyang et al., 2022). 2) 추론만: 저희는 미세 조정을 위해 인간 레이블이나 사실 지식 기반을 사용하지 않고 기존 모델과 사전 훈련된 매개 변수에 의존하여 가능한 개선 사항을 제한합니다(Li et al., 2023). 외부 지식에 기초하지 않음: 저희 방법은 외부 검색 모듈을 사용하지 않고 모델의 내부 지식에 의존합니다(Izacard et al., 2022; Borgeaud et al., 2022; Ram et al., 2023). 따라서 훈련 중에 획득한 잘못된 정보를 수정할 수 없습니다. 그러나 저희 방법은 모든 트랜스포머 기반 LLM에 잠재적으로 적용될 수 있는 기반 개선을 제공하기 때문에, 위에 나열된 한계는 해당 요소를 디코딩 전략과 결합한 향후 작업을 통해 잠재적으로 해결될 수 있습니다.

ChatGPT and large language models in academia: opportunities and challenges

chatGPT - 매일 1300만건의 query 발생, google - 매일 85억건의 검색

Large Language Models are Zero-Shot Reasoners

https://proceedings.neurips.cc/paper_files/paper/2022/hash/8bb0d291acd4acf06ef112099c16f326-Abstract-Conference.html

https://proceedings.neurips.cc/paper_files/paper/2022/file/8bb0d291acd4acf06ef112099c16f326-Paper-Conference.pdf

few-shot , few-shot CoT, zero-shot, zero-shot CoT의 비교
CoT는 단계별 논리적 추론 작업을 진행함. zero shor CoT가 광범위한 인지를 이끌어내는 유사 다중 작업 프롬프트를 더 보여줌. 확장성이 높음.

AnomalyGPT: Detecting Industrial Anomalies Using
Large Vision-Language Models

https://arxiv.org/abs/2308.15366

Large Vision-Language Model 을 이용하여 산업 이상 감지
one class one model 패러다임을 따름.

query image는 동결된 image encoder로 전달되고 중간 레이어에서 추출된 패치 레벨 기능은 image decoder에 공급되어 정상 및 비정상적인 텍스트와의 유사성을 계산하여 결과를 얻습니다.
image encoder에 의해 추출된 최종 결과는 linear레이어에 공급된 다음 결과와 함께 prompt learner에게 전달.
prompt learner → 사용자 텍스트 입력과 함께 LLM에 입력하기에 적합한 프롬프트 임베딩으로 변환.
few shot 설정에서 일반 샘플의 패치 레벨 기능은 메모리 뱅크에 저장되며 쿼리 패치와 메모리 뱅크에서 가장 유사한 패치 사이의 거리를 계산하여 Localization Result .

a few normal sample로 noticeable performance decline의 결과를 내고자함

AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

Language Models are Few-Shot Learners

https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

대체로 gpt-3 : f1 score zero-shot or one-shot < few-shot learning

profile
ad astra per aspera

0개의 댓글