지난 시간에는 로컬 AI를 내 PC에 설치하고 간단한 채팅까지 시도해 보며 과정을 마무리했었다.
당시 사용했던 모델은 Gemma-3 1B였다. 모델 이름인 'Gemma'까지는 직관적으로 이해가 갔지만, 그 옆에 붙은 '1B' 라는 표기가 무엇을 의미하는지 궁금해졌다. 오늘은 이 숫자에 담긴 의미와 모델 선택의 기준에 대해 기록해 보려 한다.
1. 모델 이름 옆에 붙은 'B'의 정체

LM Studio의 모델 검색창을 살펴보면 이름 옆에 xxB와 같은 숫자들이 기재되어 있는 것을 볼 수 있었다.
-
예) Qwen2.5 35B, Llama-3 8B
여기서 B는 Billion(10억) 의 약자였다. 그리고 그 앞의 숫자는 인공지능의 핵심 구성 요소인 매개변수(Parameters)의 개수를 의미했다.
-
Gemma-3 1B: 매개변수가 약 10억 개로 이루어진 모델
-
Qwen2.5 35B: 매개변수가 약 350억 개로 이루어진 모델
개발자라면 매개변수라는 용어가 익숙하겠지만, 개념이 생소하다면 이를 '레고 블록'에 비유하여 생각하는 것이 가장 이해하기 수월했던 것 같다.
2. 레고 블록으로 이해하는 모델 크기
모델의 크기를 레고 세트의 규모로 대입해 보니 다음과 같은 차이가 존재했다.
-
1B (소형 레고 세트): 블록이 10억 개 정도 있는 수준이다. 성의 전체적인 형태나 문, 창문 같은 기본적인 구조는 충분히 만들 수 있었다. 하지만 세밀한 색상이나 벽지 무늬까지 표현하기에는 블록 수가 다소 부족한 느낌이었다. 대신 조립 속도(추론 속도)는 매우 빨랐다.

-
7B (중형 레고 세트): 블록이 70억 개로 늘어난다. 성벽에 깃발을 달거나 내부 인테리어를 꾸미는 등 디테일한 표현이 가능해지며 꽤 그럴싸한 성이 완성되었다. 만드는 속도와 품질 사이에서 가장 적절한 타협점을 찾은 모델이라는 인상을 받았다.

-
70B (대형 레고 세트): 블록이 무려 700억 개에 달한다. 성 안의 모든 디테일을 정교하게 구현하고도 남을 만큼 자원이 풍부했다. 하지만 너무 정교한 나머지 조립 시간이 오래 걸리고, 모든 블록을 펼쳐놓을 수 있는 넓은 공간(고사양 하드웨어)이 필수적이었다.

이러한 특성 때문에 숫자가 클수록 지능의 정교함은 높아지지만, 그만큼 더 넓은 저장 공간과 물리적인 시간이 소요된다는 결론을 얻을 수 있었다.
3. 성능과 하드웨어 사양의 상관관계
여기서 "속도가 중요하니 무조건 낮은 숫자의 모델만 써야 하는가?" 라는 의문이 생길 수 있지만, 답은 "아니요" 였다.
결국 모델을 구동하는 주체는 내 PC였기 때문이다. PC의 역할은 레고를 조립하는 사람과 같았다.
7B 모델까지는 수월하게 처리하던 PC라도, 10배나 큰 70B 모델을 다루기에는 역부족일 수 있었다.
하지만 반대로 70B 모델을 충분히 감당할 사양의 PC를 갖추고 있다면 굳이 낮은 사양의 모델을 고집할 이유가 없었다.
고사양 PC에서는 70B 모델도 7B처럼 쾌적하게 동작하기 때문이었다.
4. 💡 지능과 속도 사이의 선택 포인트

무조건 큰 모델만이 정답이 아닌 이유에 대해서는 몇 가지 핵심적인 인사이트를 얻을 수 있었다.
-
용도에 따른 가성비: 단순한 오타 교정이나 일기 요약 같은 업무에 굳이 '천재적인 기술자(70B)'를 투입할 필요는 없었다. '요약 도우미(1B)'가 시간과 자원 측면에서 훨씬 효율적이었기 때문이다.
-
하드웨어 자원의 한계: 그래픽카드 메모리(VRAM) 용량이 모델 요구 사양에 못 미칠 경우, 시스템이 멈추거나 대답 한 글자를 출력하는 데 상당한 시간이 소요되는 문제가 발생했었다.
[요약 테이블] 모델 규모별 권장 용도
| 모델 숫자 | 지능 수준 (비유) | 주요 활용 사례 |
| 1B ~ 3B | 똑똑한 비서 (초등학생) | 스마트폰 앱, 간단한 문장 교정, 실시간 챗봇 |
| 7B ~ 14B | 든든한 조력자 (대학생) | 개인 코딩 보조, 블로그 초안 작성, 일반 대화 |
| 30B ~ 70B | 전문 상담가 (박사님) | 복잡한 데이터 분석, 전문적인 논리 추론 |
| 400B 이상 | 천재 집단 (교수님들) | 과학 연구, 기업용 복잡한 시스템 설계 |
그렇다면 현재 내가 보유한 PC 사양으로는 구체적으로 어떤 모델까지 활용이 가능할까?
이에 대한 구체적인 기준과 성능 측정 방법은 다음 포스팅에서 이어서 작성해 보려 한다.
댓글 0개