로컬 AI 입문: 모델 이름 뒤에 붙은 'B'는 도대체 무엇일까? ( With : LM Studio )

지난 시간에는 로컬 AI를 내 PC에 설치하고 간단한 채팅까지 시도해 보며 과정을 마무리했었다.

당시 사용했던 모델은 Gemma-3 1B였다. 모델 이름인 'Gemma'까지는 직관적으로 이해가 갔지만, 그 옆에 붙은 '1B' 라는 표기가 무엇을 의미하는지 궁금해졌다. 오늘은 이 숫자에 담긴 의미와 모델 선택의 기준에 대해 기록해 보려 한다.

LM Studio의 모델 검색창을 살펴보면 이름 옆에 xxB와 같은 숫자들이 기재되어 있는 것을 볼 수 있었다.

여기서 B는 Billion(10억) 의 약자였다. 그리고 그 앞의 숫자는 인공지능의 핵심 구성 요소인 매개변수(Parameters)의 개수를 의미했다.

개발자라면 매개변수라는 용어가 익숙하겠지만, 개념이 생소하다면 이를 '레고 블록'에 비유하여 생각하는 것이 가장 이해하기 수월했던 것 같다.

모델의 크기를 레고 세트의 규모로 대입해 보니 다음과 같은 차이가 존재했다.

1B (소형 레고 세트): 블록이 10억 개 정도 있는 수준이다. 성의 전체적인 형태나 문, 창문 같은 기본적인 구조는 충분히 만들 수 있었다. 하지만 세밀한 색상이나 벽지 무늬까지 표현하기에는 블록 수가 다소 부족한 느낌이었다. 대신 조립 속도(추론 속도)는 매우 빨랐다.
7B (중형 레고 세트): 블록이 70억 개로 늘어난다. 성벽에 깃발을 달거나 내부 인테리어를 꾸미는 등 디테일한 표현이 가능해지며 꽤 그럴싸한 성이 완성되었다. 만드는 속도와 품질 사이에서 가장 적절한 타협점을 찾은 모델이라는 인상을 받았다.
70B (대형 레고 세트): 블록이 무려 700억 개에 달한다. 성 안의 모든 디테일을 정교하게 구현하고도 남을 만큼 자원이 풍부했다. 하지만 너무 정교한 나머지 조립 시간이 오래 걸리고, 모든 블록을 펼쳐놓을 수 있는 넓은 공간(고사양 하드웨어)이 필수적이었다.

이러한 특성 때문에 숫자가 클수록 지능의 정교함은 높아지지만, 그만큼 더 넓은 저장 공간과 물리적인 시간이 소요된다는 결론을 얻을 수 있었다.

여기서 "속도가 중요하니 무조건 낮은 숫자의 모델만 써야 하는가?" 라는 의문이 생길 수 있지만, 답은 "아니요" 였다.

결국 모델을 구동하는 주체는 내 PC였기 때문이다. PC의 역할은 레고를 조립하는 사람과 같았다.

7B 모델까지는 수월하게 처리하던 PC라도, 10배나 큰 70B 모델을 다루기에는 역부족일 수 있었다.

하지만 반대로 70B 모델을 충분히 감당할 사양의 PC를 갖추고 있다면 굳이 낮은 사양의 모델을 고집할 이유가 없었다.

고사양 PC에서는 70B 모델도 7B처럼 쾌적하게 동작하기 때문이었다.

무조건 큰 모델만이 정답이 아닌 이유에 대해서는 몇 가지 핵심적인 인사이트를 얻을 수 있었다.

용도에 따른 가성비: 단순한 오타 교정이나 일기 요약 같은 업무에 굳이 '천재적인 기술자(70B)'를 투입할 필요는 없었다. '요약 도우미(1B)'가 시간과 자원 측면에서 훨씬 효율적이었기 때문이다.
하드웨어 자원의 한계: 그래픽카드 메모리(VRAM) 용량이 모델 요구 사양에 못 미칠 경우, 시스템이 멈추거나 대답 한 글자를 출력하는 데 상당한 시간이 소요되는 문제가 발생했었다.

그렇다면 현재 내가 보유한 PC 사양으로는 구체적으로 어떤 모델까지 활용이 가능할까?

이에 대한 구체적인 기준과 성능 측정 방법은 다음 포스팅에서 이어서 작성해 보려 한다.

관련 게시글