[로컬 AI 가이드] AI의 기억력을 결정하는 두 열쇠: 토큰(Token)과 컨텍스트(Context) 이해하기

지난 포스팅에서는 모델의 체급(B)과 양자화 기술을 통해 내 PC 사양에 맞는 모델을 고르는 법을 알아보았었다. 하지만 모델을 제대로 세팅했음에도 대화를 나누다 보면 또 다른 의문이 생기기 마련이었다. "왜 AI는 대답하다가 중간에 말을 멈출까?" 혹은 "대화가 길어지면 왜 방금 한 말도 기억하지 못할까?" 하는 점이다.

오늘은 가장 많이 쓰이는 8GB VRAM(RTX 4060 등) 사양을 기준으로, AI의 지능만큼이나 중요한 언어의 단위(Token)와 기억의 범위(Context Length)에 대해 상세히 기록해 보려 한다.

1. 토큰(Token): AI가 사용하는 '언어의 화폐'

AI는 우리가 입력한 문장을 그대로 인식하지 않는다. 내부적으로 문장을 아주 작은 조각으로 쪼개어 인식하는데, 이를 토큰이라 부른다.

비유 - 유료 주차권: 토큰은 AI 월드에서 통용되는 유료 주차권과 같았다. 질문을 던질 때와 AI가 답변을 생성할 때 모두 이 주차권을 소모한다. 만약 설정된 출력 제한보다 답변이 길어지면 주차권이 다 떨어져 문장 중간에 답변이 뚝 끊기게 된다.
한글의 특수성: 영어는 보통 단어 하나가 토큰 하나인 경우가 많지만, 한글은 형태소가 복잡해 단어 하나가 2~3개의 토큰으로 쪼개지는 경우가 흔했다. 똑같은 질문을 해도 한글로 물으면 주차권을 더 빨리 쓰는 셈이라, 로컬 모델에서 한글 효율이 중요한 이유를 여기서 찾을 수 있었다.

2. 컨텍스트 길이(Context Length): AI의 '작업대 넓이'

LM Studio 설정창에서 볼 수 있는 컨텍스트 길이는 AI가 한 번에 머릿속에 담아둘 수 있는 정보의 총량을 의미한다.

비유 - 작업대의 넓이: 이를 작업대의 넓이로 생각하니 이해가 빨랐다.
- 작은 작업대(2048): 짧은 문답은 문제없지만, 대화가 조금만 길어져도 앞부분 내용은 작업대 밖으로 밀려나 잊어버리게 된다.
- 넓은 작업대(32768 이상): 긴 소스 코드나 방대한 문서를 한꺼번에 펼쳐놓고 맥락을 짚어가며 분석할 수 있었다.
하드웨어 자원과의 관계: 작업대가 넓어질수록 이를 유지하기 위해 차지하는 VRAM 공간도 가파르게 상승한다. 8GB VRAM 환경에서는 무작정 넓게 설정하기보다 모델이 로드될 공간과 균형을 맞추는 것이 핵심이었다.

3. LM Studio 0.4.6 실전 설정 파헤치기

① 컨텍스트 길이 (Context Length)

이미지 상단 슬라이더에서 조절할 수 있다. 보통 4096 정도가 기본이며, 모델이 최대 262,144 토큰을 지원하더라도 8GB VRAM 사양에서는 이를 끝까지 올리기보다 필요한 만큼만(예: 8192) 확보하는 것이 속도 면에서 유리했다.

② 평가 배치 크기 (Evaluation Batch Size)

Advanced 항목에 있는 이 설정은 AI가 입력받은 프롬프트를 얼마나 큰 덩어리로 나누어 처리할지 결정한다. 보통 512가 기본이며, 그래픽카드 성능에 맞춰 초기 분석 속도를 좌우하는 지표가 된다.

③ Unified KV Cache & Offload KV Cache

이 옵션들은 대화 맥락을 저장하는 '기억 캐시' 관리와 관련이 있었다.

Offload KV Cache to GPU Memory: 이 버튼이 활성화되어 있어야만 AI의 기억 데이터가 VRAM에 저장되어 빠른 속도를 유지할 수 있었다. 8GB 환경에서도 이 옵션을 켜두는 것이 대화 흐름을 유지하는 데 필수적이었다.

④ 플래시 어텐션 (Flash Attention)

가장 하단에 위치한 기능으로, 최신 그래픽카드를 사용한다면 반드시 켜두어야 할 필수 옵션이었다. 연산 효율을 극대화하여 컨텍스트가 길어져도 메모리 사용량을 획기적으로 줄여주기 때문에 VRAM이 한정적인 사양일수록 더욱 유용했다.

4. 💡 8GB VRAM 환경을 위한 최적의 세팅 가이드

내 PC 자원을 효율적으로 분배하여 최적의 지점을 찾는 것이 중요했다.

일반적인 채팅 및 비서용: 컨텍스트 길이를 4096~8192 사이로 설정하는 것이 가장 안정적이었다. 8GB 메모리에서 운영체제가 점유하는 공간을 제외하면 가장 쾌적하게 동작하는 구간이기 때문이다.
문서 분석 및 긴 대화: 긴 맥락을 유지해야 할 때는 컨텍스트를 늘리는 대신 모델의 체급(B)을 조금 낮추는 타협이 필요했다. 예를 들어 14B 모델보다는 7B~8B 체급의 모델을 쓰면서 컨텍스트 공간을 더 확보하는 것이 분석 성능 면에서 나은 선택이 될 수 있었다.
한글 사용 시 주의점: 한글은 토큰 소모가 빠르기 때문에, 설정된 컨텍스트 길이보다 체감 기억력이 짧을 수 있었다. 이를 고려해 평소보다 조금 더 넉넉하게 길이를 잡아주는 것이 맥락 유지에 도움이 된다는 인상을 받았다.

맺으며

결국 로컬 AI를 잘 다루는 것은 "어떤 지능을 가진 모델을, 얼마나 넓은 작업대(Context) 위에서 돌릴 것인가"의 균형을 맞추는 일이었다. 8GB VRAM이라는 한정된 자원을 사용하더라도, 내 메모리에 쏙 들어오는 모델과 컨텍스트 범위를 적절히 설정한다면 충분히 만족스러운 AI 환경을 구축할 수 있었다.

똑똑한 두뇌만큼이나 중요한 것은 그 지능이 발휘될 수 있는 '기억의 넓이'라는 점을 다시 한번 배울 수 있었다.

[로컬 AI 가이드] AI의 기억력을 결정하는 두 열쇠: 토큰(Token)과 컨텍스트(Context) 이해하기

1. 토큰(Token): AI가 사용하는 '언어의 화폐'

2. 컨텍스트 길이(Context Length): AI의 '작업대 넓이'

3. LM Studio 0.4.6 실전 설정 파헤치기

① 컨텍스트 길이 (Context Length)

② 평가 배치 크기 (Evaluation Batch Size)

③ Unified KV Cache & Offload KV Cache

④ 플래시 어텐션 (Flash Attention)

4. 💡 8GB VRAM 환경을 위한 최적의 세팅 가이드

맺으며

관련 게시글

[로컬 AI 실전] 코드가 밖으로 새지 않는 100% 무료 코딩 어시스턴트 구축하기 (VS Code + Continue)

[로컬 AI 가이드] 내 AI를 200% 똑똑하게 만드는 법: 프롬프트와 파라미터 최적화

[로컬 AI 가이드] 내 PC의 한계를 끌어올리는 법: GPU 가속과 양자화(GGUF) 이해하기

댓글 0개

1. 토큰(Token): AI가 사용하는 '언어의 화폐'

2. 컨텍스트 길이(Context Length): AI의 '작업대 넓이'

3. LM Studio 0.4.6 실전 설정 파헤치기

① 컨텍스트 길이 (Context Length)

② 평가 배치 크기 (Evaluation Batch Size)

③ Unified KV Cache & Offload KV Cache

④ 플래시 어텐션 (Flash Attention)

4. 💡 8GB VRAM 환경을 위한 최적의 세팅 가이드

맺으며

관련 게시글

[로컬 AI 실전] 코드가 밖으로 새지 않는 100% 무료 코딩 어시스턴트 구축하기 (VS Code + Continue)

[로컬 AI 가이드] 내 AI를 200% 똑똑하게 만드는 법: 프롬프트와 파라미터 최적화

[로컬 AI 가이드] 내 PC의 한계를 끌어올리는 법: GPU 가속과 양자화(GGUF) 이해하기

댓글 0개

비밀번호 확인