로컬 AI 모델을 설치하고 컨텍스트 설정까지 마쳤다면, 이제는 AI와 대화하는 '기술'이 필요했다. 똑같은 지능을 가진 모델이라도 어떻게 명령하느냐에 따라 답변의 질이 완전히 달라지기 때문이다.
오늘은 질문의 한계를 넘어서는 프롬프트 엔지니어링과, AI의 성향을 결정짓는 시스템 설정 및 파라미터 미세 조정에 대해 상세히 기록해 보려 한다.
1. 프롬프트 엔지니어링: 질문에도 '기술'이 있다
흔히 AI에게 질문을 던졌을 때 원하는 답이 나오지 않으면 모델의 성능 탓을 하게 되지만, 사실은 질문 방식의 차이인 경우가 많았었다. 8GB VRAM 환경의 모델로도 고성능 모델 못지않은 결과를 끌어내는 3가지 핵심 기법을 정리했다.
① 페르소나(Persona): AI에게 '역할'을 입히기
AI에게 가장 먼저 해야 할 일은 "너는 누구야"라고 정의해 주는 것이었다.
-
방법: 질문 앞에 "너는 베테랑 프로그래머야" 혹은 "너는 전문 카피라이터야"라고 역할을 부여한다.
-
효과: 단순히 지식을 묻는 것보다 특정 분야의 전문가처럼 말투와 관점을 고정하여 답변의 전문성이 비약적으로 상승하는 인상을 받았다.
아래 내용은 역할을 부여했을때와 역할을 부여하지 않았을때의 차이점이다.
테스트 모델은 qwen3-vl-4b을 사용하였다.
- 역할을 부여하지 않았을 때
질문 : 나는 개인 웹 블로그 사이트를 만들고 싶어, 구조나 설계 방식에 대해서 알려줄 수 있어?
답변은 아래 이미지 내용을 참고하길 바란다.





- 역할을 부여 했을 때
질문 : 너는 베테랑 프로그래머이고, 이 직종으로 30년을 근무했어, 나는 개인 웹 블로그 사이트를 만들고 싶어, 구조나 설계 방식에 대해서 알려줄 수 있어?









역할을 부여했을때와 부여하지 않았을때의 차이점이 눈에 확 보인다.
내가 좀더 명확하게 정보를 얻고자할때는 AI에게 역할을 꼭 부여해주는 것이 좋다.
② 퓨샷 프롬프팅(Few-shot Prompting): 예시로 학습시키기
설명보다 강력한 것은 '예시'였다. AI에게 내가 원하는 답변 형식을 1~2개 먼저 보여주는 방식이다.
-
방법: "입력: 사과 -> 출력: 과일" 같은 예시를 준 뒤 질문을 던지면, 별다른 부연 설명 없이도 AI가 그 형식을 완벽히 복제하여 답해준다.
예시를 들면 아래와 같이 할 수 있다.
원하는 것 : (사과 -> ?) 괄호 안에 ? 물음표에 해당 하는 값을 원할 때
- 퓨샷 프롬프팅 없이 그냥 사과만 입력했을 경우
예시가 존재하지 않아 사과라는 정보 전부를 제공
- 퓨샷 프롬프팅(예시)를 주고 사과를 입력했을 경우

이와 같이 내가 원하는 답변만 얻고 싶을때 예시를 넣게 되면 의도를 파악하고 답변해준다.
③ 생각의 사슬(Chain of Thought): 단계별 추론 유도
복잡한 논리 문제에서 AI가 실수를 한다면, "단계별로 차근차근 생각해서 답변해줘"라는 문장을 추가해 보았다.
-
효과: 곧바로 정답을 내뱉게 하면 확률적인 오류가 생기기 쉽지만, 풀이 과정을 먼저 쓰게 유도하면 AI 스스로 논리적 오류를 점검하며 정확도가 높아지는 것을 확인할 수 있었다.
2. 시스템 프롬프트(System Prompt): AI의 근본 성격 설정
LM Studio 우측 패널의 [System Prompt] 칸은 대화할 때마다 역할을 지정해 줄 필요 없이, AI의 근본적인 정체성을 박아두는 곳이었다.
-
실전 활용: 여기에 "답변은 항상 마크다운 형식으로 해줘", "불필요한 서론은 생략하고 핵심만 말해줘" 같은 지침을 미리 적어두면, 대화의 일관성이 유지되어 실무 효율이 훨씬 좋아졌다.
-
8GB VRAM 모델처럼 체급이 작은 모델일수록, 시스템 프롬프트를 통해 가이드라인을 명확히 잡아주는 것이 '답변 이탈'을 막는 핵심이었다.
시스템 프롬프트 예시
프롬프트 : 답변은 항상 영어로 해줘, 항상 나한테 HTML 형식으로 대답해줘
결과 :

3. 파라미터 미세 조정: AI의 집중도와 창의성 조절
설정창의 [Parameters] 섹션에는 AI의 답변 성향을 수치로 조절하는 다이얼들이 있었다. 입문자가 꼭 알아야 할 두 가지만 꼽아보았다.
① 온도 (Temperature)
AI의 '창의성'을 결정하는 수치다. (0.0 ~ 1.0 사이)
-
0.1 ~ 0.3 (낮음): 매우 논리적이고 일관된 답변을 한다. 코딩이나 팩트 체크가 필요할 때 유용했다.
-
0.7 ~ 0.9 (높음): 답변이 매번 달라지며 창의적인 아이디어를 낸다. 소설 쓰기나 브레인스토밍에 적합하다는 인상을 받았다.

② 반복 페널티 (Repeat Penalty)
AI가 똑같은 말을 도돌이표처럼 반복할 때 이 수치를 살짝 높여주면(예: 1.1~1.2) 해결되는 경우가 많았다. 이미 한 말을 다시 하지 않도록 제약을 거는 원리였다.
4. 💡 8GB VRAM 환경을 위한 최종 가이드
하드웨어 자원이 한정된 환경일수록 이러한 '조련 기술'은 빛을 발한다.
-
모델이 작을수록 친절하게: 7B~8B급 모델을 쓸 때는 프롬프트에 예시(Few-shot)를 더 구체적으로 적어주는 것이 지능의 한계를 극복하는 방법이었다.
-
용도별 파라미터 프리셋: 코딩용으로는 온도를 낮추고, 일반 대화용으로는 온도를 적당히 높여 나만의 최적값을 찾아가는 과정이 로컬 AI 운용의 묘미였다.
맺으며
결국 로컬 AI는 '어떤 도구를 가졌느냐'만큼이나 '그 도구를 어떻게 다루느냐'가 중요하다는 것을 배울 수 있었다. 넉넉하지 않은 사양이라도 명확한 페르소나와 정교한 파라미터 설정만 있다면, 내 PC 안의 AI는 언제든 훌륭한 전문가 파트너가 되어 주었다.
다음 포스팅에서는 이렇게 똑똑하게 길들인 로컬 AI를 실제 업무 환경인 커서(Cursor) IDE, Visual Studio Code(vscode)IDE에 연동하여 '무료 코딩 어시스턴트'를 구축하는 과정을 공유해 보려 한다.
댓글 0개