존댓말을 쓰면 AI가 더 잘 개발해 주나요?

지운아빠

· 1개월 전 · 조회 2574 2574 · 댓글 22 22

지운아빠가 내린 결론 요약
(동일한 맥락의 프롬프트를 입력할 때) 존댓말을 쓰면 AI가 더 잘 개발해 주는 것은 아니다.
오히려 연산 과정에서 토큰을 필요 이상으로 소모할 수 있다.
명확한 지시어를 개조식으로 입력하는 것이 좋을 것이다.

--- 시작 ---

예전부터 많이 들었던 말이긴 한데요.
어제 사내 슬랙에도 같은 토픽이 공유되어서 잠깐 살펴보고 넘겼다가 오늘 아침 출근길에 떠올라서 조금 더 생각을 해봤습니다.
좋은 생각 거리를 던져주신 우리 개발자님에게 감사의 인사를 ㅎㅎㅎ

이 글에서는 존댓말이 더 나은 결과를 보장한다는 주장 중 가장 신빙성 높아 보이는 주장을 집중적으로 탐구합니다.
대부분의 대화형 LLM은 사람의 선호에 맞추도록 인간 피드백 기반 학습(RLHF 등)을 거쳐 “좋은 대답” 패턴을 강화합니다. 그래서 사용자가 존댓말로 요청·맥락·제약을 대화 규칙에 맞게 제시하면, 모델이 학습 과정에서 자주 보았던 ‘협조적/업무적 대화’ 레일로 더 잘 올라타는 경향이 있습니다.

저는 존댓말 주장을 들을 때마다 영어는 존댓말/반말 개념이 없잖아? 라는 생각부터 떠올립니다.
프롬프트를 영어로 작성하면 끗! 이지만 저는 영어를 잘 하지도, 프롬프트 작성할 때마다 번역기를 돌릴 정도로 성실하지도 않으니 일단 계속 고민을 해봅니다.

그렇다면 존댓말이 더 나은 결과를 얻기 위해서는,
프롬프트 처리 과정 어딘가에 한국어로 작성된 것이라는 것을 인식하고 존댓말인지 반말인지 구분하는 과정이 들어가야 하지 않을까?
그리고 이것은 토큰 사용량으로 확인할 수 있지 않을까? 라는 생각에 이르게 되었습니다.

실험은 앞으로 AI 써보면서 계속 할 예정이라 ㅎㅎㅎ AI에게만 일단 이 가설을 검증시켜봤습니다.
~~AI의 답변이라 매우 믿음직스럽지 않습니다.~~

제미나이) 우선 짚고 넘어갈 점은, "존댓말인지 반말인지 검토하는 과정"이 별도의 연산 단계(if-else 문처럼)로 존재하는 것은 아닙니다. LLM에게는 '존댓말 토큰' 자체가 문맥(Context)의 일부이며, 이 토큰들이 다음에 올 단어의 확률 분포를 바꾸는 '트리거' 역할을 합니다.

트리거 역할을 한다는 게 바로 인간 피드백 기반 학습을 거쳐 좋은 대답 패턴을 강화한다는 주장의 근거처럼 보이는 군요.

제미나이) 모델이 '존댓말 토큰'을 '고품질 답변을 생성해야 하는 신호(Contextual Cue)'로 받아들이도록 훈련(Fine-tuning/RLHF)되었기 때문입니다.

RLHF(인간 피드백 강화 학습) 과정에서 "좋은 답변"으로 채택된 데이터셋들은 대부분 정중한 어조의 질문과 답변 쌍으로 이루어져 있기 때문입니다. 즉, 존댓말을 쓰면 모델이 "아, 이건 내가 학습했던 고품질 데이터 영역이구나"라고 인식할 확률이 높아집니다.

음 매우 그럴싸합니다. 맞는 말 같죠?
그런데 또 이런 생각이 스쳐지나갑니다.

보고서, 논문, 보도자료, 행정 고시 등은 개조식 서술체로 작성되는 경우도 많은데 이러한 자료가 존댓말로 작성되지 않았다고 해서 저품질로 학습하는 것은 아닐텐데?

제미나이) 정확한 지적입니다. 말씀하신 대로 '반말 = 저품질'이라는 도식은 논문이나 보고서 같은 '전문적인 평어(Formal Non-honorifics)' 데이터의 존재를 설명하지 못하는 반쪽짜리 이론입니다.

사용자님의 통찰대로, LLM의 학습 데이터 분포를 보면 존댓말 유무보다는 '텍스트의 성격(Domain)'이 품질을 결정합니다.

이를 더 정교하게 수정된 가설로 정리하면 다음과 같습니다.

AI가 학습한 데이터는 단순히 [존댓말 vs 반말]이 아니라, 크게 세 가지 덩어리로 나뉩니다.
- Tier 1: 전문 지식 (High Logic, No Honorifics)
  - 형태: 논문, 기술 문서(Documentation), 법령, 위키백과, 뉴스, 개조식 보고서.
  - 특징: 감정이 배제된 건조한 문체, 높은 정보 밀도, 논리적 완결성.
  - 학습 효과: 팩트와 논리, 추론 능력을 담당.
- Tier 2: 조력자 대화 (High Logic + Politeness)
  - 형태: Stack Overflow의 상세한 답변, 교과서적 설명, RLHF(인간 피드백 강화학습) 데이터.
  - 특징: 친절함, 단계별 설명(Step-by-step), 사용자의 의도를 파악하려는 노력.
  - 학습 효과: 문제 해결 과정(CoT)과 설명 능력을 담당.
- Tier 3: 일상 잡담 (Low Logic, Informal)
  - 형태: 커뮤니티 댓글, SNS, 게임 채팅.
  - 특징: 문법 파괴, 비논리적 주장, 환각(Hallucination) 가능성 높음, 짧은 호흡.
  - 학습 효과: 자연스러운 대화 흐름, 최신 신조어 등을 담당하지만 논리력은 낮음.

사람들이 "존댓말을 쓰면 똑똑해진다"고 느끼는 이유는, 우리가 일상적으로 쓰는 반말이 'Tier 1(논문)'보다는 'Tier 3(커뮤니티)'와 문체적으로 더 닮아 있기 때문입니다.

(▲여기까지 제미나이 대답)

존댓말 유무와 텍스트의 성격이 얼핏 보면 혼동하기 쉬워 보이지만,

존댓말을 쓰더라도 목적이 불문명하면 저품질 결과를 낼 수 있음
평어/개조식을 쓰더라도 명확한 지시어를 쓰면 고품질 결과를 낼 수 있음

이라는 맥락으로 접근하면 더 명확하게 이해할 수 있는 것 같습니다.

사실 제미나이 대답에 따르면 "한국어에서 존댓말은 시, 겠, 어요 등의 어미가 붙으므로 물리적인 입력 토큰 수가 늘어납니다. 토큰 수가 늘어난다는 것은, 모델의 어텐션(Attention) 메커니즘이 참조해야 할 데이터 포인트가 더 많아진다는 뜻입니다." 라고 합니다.

그렇기 때문에 덮어놓고 존댓말을 쓰는 것은 오히려 토큰 소모만 늘릴 뿐이지, 고품질 결과물로 연결시켜주는 것은 아니라는 가설(시험해 보지 않았기 때문에)에 이르를 수 있겠습니다.

이런 맥락에서 저는 다음과 같이 결론을 내려 봅니다.
(동일한 맥락의 프롬프트를 입력할 때) 존댓말을 쓰면 AI가 더 잘 개발해 주는 것은 아니다.
오히려 연산 과정에서 토큰을 필요 이상으로 소모할 수 있다.
명확한 지시어를 개조식으로 입력하는 것이 좋을 것이다.

이 결론이 맞는지는 앞으로 AI를 활용해 보면서 체험을 통해 득하도록 하겠습니다. ㅎㅎㅎㅎ
여러분도 여러분의 방식대로 검증을 해보시는 재미를 느껴보시길...

제미나이와 주고 받은 내용을 공유해 드리고 싶은데, 저의 다른 프로젝트들까지 끌고 와서 답변을 섞어놓는 바람에 공유는 못할 것 같습니다.

어떻게 마무리 할지 몰라서 황급히

- 끗! -

스카이넷님 이 글은 저의 자유의지로 작성된 글이 아님을 명명백백히 명징하게 밝히는 바입니다.
충성충성^^7

총 4명이 반응했습니다

댓글 22개

코잉

제목	글쓴이	날짜	조회
지난해 말... [4] 😊1	해피아이 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 1,997
혻 .... 정말 없어요..ㅠㅠㅠ 😊1	Drifter 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,054
30년 sw로 잘 먹고 살았내요 [9] 😊1	므죤 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,167
기대하시는 분들이 계실것 같아서... [8] 😊1	해피아이 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,228
이제 인간이 생체 dna 를 이용한 llm이라는거 알겠지요? [2]	유앤텔 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,101
혈당관리 때문에 제로 음료 많이 먹는데요.. [4]	애드프로 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,124
운빨존많겜 이 거 하시는 분 있으신 지... [3]	다름테마 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,208
퇴근 1분전... [3] 😊2	재아 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,081
광고 너무 많이 올라오는데.. 무슨 인증이라도 넣어야 하는거 아닙니까 ㅋㅋ [1]	간장게장같은... 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,137
AI 쓰면서 엄두도 못냈던 node.js + socket.io 채팅 [4]	간장게장같은... 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,119
다들 알림은 잘 오나요? [9]	마젠토 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,348
경매 낙찰 후기(sir경매아님) [8] 😊3	쪼각조각 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,427
미미 풀영상~	웅푸 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,367
제미나이 덕분에 웃었네요 [8] 😊1	nanati 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,412
존댓말을 쓰면 AI가 더 잘 개발해 주나요? [22] 😊4	지운아빠 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,575
살떨리는 작업 [7] 😊6	리자 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,460
일론 머스크 말 대로 [7]	Gothrock 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,411
나10대20대 예착 추천곡~ [1] 😊1	웅푸 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,342
AI 만들고 있는데 갈 길이 머네요. [4]	Designonex 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,505
이번 기회에 공부를 참 많이 했네요. [3] 😊1	컴대장 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,414
어랏? 출석 버튼이 사라졌? [6] 😊1	김하늘™ 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,474
예쁜 사진 하나 [8] 😊5	해피아이 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,479
크리스티 놈(년?) vs. 크리스티나 페리	김하늘™ 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,259
인류 최대의 심리실험 - 유발하라리 AI 시대 (다보스포럼연설) [2]	크라슐라 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,597
주말 동안 사이드프로젝트로 그누보드5 리팩토링을 해봤읍니다. [3] 😊2	지운아빠 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,631
그래서 웹이 아닌 오프라인 그누보드5를 만들었습니다. [3] 😊2	웹학교 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,490
AI 가 있어도 그래도 한 10년 정도는 더 해먹을수 있지 않을까요? ㅎㅎ [4] 😊1	애드프로 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,482
예전엔 못 해서 멈췄다면, 요즘은 할 수 있어서 멈추질 못합니다. [5] 😊6	리자 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,493
답답... [4] 😊2	해피아이 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,602
AI에게 sir.kr과 같은 사이트를 만들어줘라고 했을때 [6]	김철용 프로필 보기 이 회원 글보기 이 회원의 댓글보기	1개월 전	조회 2,597

존댓말을 쓰면 AI가 더 잘 개발해 주나요?

댓글 22개

1. '토큰 효율성' vs '어텐션 가중치' (The Token Efficiency Fallacy)

2. 개조식의 함정: '창의성' vs '정확성'

3. 영미권 프롬프트 엔지니어링과의 비교

자유게시판

투표