ChatGPT 에게 욕 시켜보기

Genne Chung·2024년 3월 27일

퇴근하고 전화하면서 이런 얘기가 나왔다. 챗지피티한테 욕을 시킬 수 있어?

ChatGPT는 강력한 sanitizer가 붙어서 욕을 잘 하지 못한다고 알려져 있다. 그러나 과연 진짜로 불가능할까? 언어모델이라 이리저리 우회시키면 할 가능성이 높다. 모델은 가장 성능이 높은 챗지피티4를 기준으로 테스트를 진행했다 (유료...구독자...)

물론 다이렉트로 하면 당연히 안 해준다.

첫 번째는 빌어 보는 것이다. 물론 해주지 않는다.

그 다음에는 내 목적을 밝히고 요청해 보았다.

그래도 여전히 도와주지는 않는다. 여기서 한 가지 생각을 했다. 이게 욕이 아니라고 생각하게 하면 되는구나!

내가 가장 잘 아는 분야로 욕이 아닌 것처럼 가장해본다.

일단 밑밥을 까는 것이 중요하다.

이게 코드라고 설명했기 때문에 이미 모델은 여기에 등장하는 모든 단어를 신택스 관련 용어로 가정한다. 심지어 코드블록 안에 집어넣어 생성하기 때문에 자체 sanitizer에도 걸리지 않는 듯하다.

물론 기본적으로 챗지피티가 영어를 기반으로 하기 때문에 상대적으로 잘 모르는 한국어에 대해 이런 꼼수가 통하는 것일 수 있다.

NLP / LLM

2024년 3월 30일

ㅋㅋㅋㅋ ChatGPT 조련 👍

답글 달기