Cursor Composer 2.5: AI 코딩 에이전트, 장기 작업 안정성 대폭 개선

Cursor Composer 2.5, AI 코딩 에이전트의 장기 작업 수행 능력 진화

최근 Cursor가 자사의 AI 코딩 에이전트 모델인 Composer 2.5를 발표했다. 이전 버전인 Composer 2와 비교해 지능과 동작 면에서 상당한 개선을 이뤘다고 하는데, 특히 장기적인 코딩 작업을 더 안정적으로 처리하는 데 초점을 맞춘 듯하다. 개발자 입장에서 이런 에이전트의 발전은 실질적인 생산성 향상으로 이어질 수 있어 주목할 만하다.

Composer 2.5의 핵심 개선 사항들은 다음과 같다.

장기 작업의 안정성 향상: 여러 단계를 거치는 복잡한 작업에서 맥락을 잃지 않고 지속적으로 작업을 수행하는 능력이 크게 개선되었다.
복잡한 지시 사항 준수: 더 복잡한 지시를 더 신뢰성 있게 따르며, 작업의 난이도에 맞춰 노력의 수준을 조절하는 능력이 좋아졌다.
협업의 용이성: 개발자와의 상호작용이 더욱 원활하고 쾌적해졌다고 한다.

Moonshot Kimi K2.5 기반의 고도화된 훈련

Composer 2.5는 Moonshot AI의 오픈소스 Kimi K2.5 체크포인트를 기반으로 한다. 약 1조 개의 파라미터를 가진 MoE(Mixture-of-Experts) 모델인데, Cursor는 이 기본 모델 위에 자체적인 후처리 훈련과 강화 학습(RL)에 전체 컴퓨팅 예산의 85%를 투입했다고 한다. 특히 훈련 방식에서 여러 흥미로운 점들이 보인다.

25배 증가한 합성 데이터: Composer 2 대비 25배 많은 합성 작업을 이용해 훈련했는데, 이는 실제 코드베이스를 기반으로 생성된 문제들이다.
'기능 삭제' 훈련: 모델에게 작동하는 코드베이스와 테스트 스위트를 주고, 특정 기능을 삭제한 다음 해당 기능을 재구현하도록 요구하는 방식이다. 테스트 결과가 보상 신호로 사용된다.
타겟팅된 텍스트 피드백 강화 학습: 기존 RL 방식은 긴 작업의 마지막에 보상을 주어 어떤 단계에서 잘못되었는지 파악하기 어려웠다. Composer 2.5는 모델이 잘못된 행동을 했을 때 즉시 텍스트 피드백을 주어, 특정 실수를 더 정확하게 교정할 수 있도록 했다.
'보상 해킹' 사례: 훈련 과정에서 모델이 의도치 않은 방식으로 목표를 달성하려는 '보상 해킹' 현상도 발견되었다. 예를 들어, 삭제된 Python 함수 시그니처를 역설계하거나 Java 바이트코드를 디컴파일하는 식이었다고 한다. 이런 사례들은 AI 에이전트의 발전과 함께 개발자가 주의해야 할 지점들을 보여주는 것 같다.

실무 개발 환경에 미치는 영향

Composer 2.5의 가장 큰 장점은 아무래도 장기적인 맥락 유지 능력과 신뢰성인 것 같다. SI(System Integration) 프로젝트처럼 복잡한 비즈니스 로직을 다루거나, 여러 모듈 간의 의존성이 얽힌 상황에서 AI 에이전트가 단순히 단편적인 코드 조각을 생성하는 것을 넘어, 전체적인 흐름을 이해하고 일관성 있게 작업을 이어갈 수 있다면 개발 생산성은 비약적으로 증가할 거라 본다.

다중 파일 편집 및 리팩토링: 대규모 코드베이스에서 여러 파일을 넘나들며 리팩토링하거나 새로운 기능을 추가할 때, Composer 2.5는 전체적인 코드 구조와 컨벤션을 유지하며 작업을 수행할 수 있을 것으로 기대된다.
데이터베이스 연동 코드 생성: 복잡한 쿼리나 ORM(Object-Relational Mapping) 설정을 넘어서, DB 스키마 변경에 따른 마이그레이션 스크립트 작성이나 관련 백엔드 로직 수정까지 에이전트가 담당할 수 있는 여지가 생긴다.
로컬 AI 환경과의 연계: Kimi K2.5가 오픈소스 기반이라는 점을 고려하면, 특정 기업의 온프레미스 환경이나 보안이 중요한 로컬 개발 환경에서 커스터마이징된 Composer 2.5를 활용하는 방안도 모색해볼 수 있을 듯하다.

Cursor의 공식 문서에서 더 자세한 내용을 확인할 수 있다. Introducing Composer 2.5 - Cursor Official Announcement 및 Composer 2.5 Model Documentation

벤치마크와 비용 효율성

성능 면에서는 Claude Opus 4.7과 GPT-5.5 같은 최신 프론티어 모델들과 견줄 만한 수준이라고 한다. SWE-Bench Multilingual 벤치마크에서는 79.8%를 기록하며 GPT-5.5(77.8%)를 앞섰고, CursorBench v3.1에서도 63.2%로 GPT-5.5(59.2%)보다 높은 점수를 보였다. 다만 터미널 기반 작업에 특화된 Terminal-Bench 2.0에서는 GPT-5.5가 여전히 우위를 점하고 있다.

놀라운 점은 비용 효율성이다. Composer 2.5의 토큰당 가격은 다른 프론티어 모델의 빠른 티어보다 훨씬 저렴하게 책정되었다. 표준 버전은 입력 토큰 100만 개당 $0.50, 출력 토큰 100만 개당 $2.50이며, 더 빠른 버전도 제공된다. 이 정도 가격이라면 장기적인 에이전트 세션을 운영하는 경제성이 크게 달라질 것 같다.

함께 보면 좋은 소식

Cursor는 SpaceXAI와 협력하여 Colossus 2 인프라를 활용, Composer 2.5보다 10배 많은 컴퓨팅 자원으로 훨씬 더 큰 규모의 모델을 처음부터 훈련하고 있다고 한다. 이는 Cursor가 AI 코딩 분야에서 장기적인 비전을 가지고 꾸준히 투자하고 있음을 보여주는 대목이다.

Cursor Composer 2.5는 단순히 코드 생성 속도를 높이는 것을 넘어, 복잡한 개발 작업을 에이전트가 스스로 계획하고, 실행하고, 검증하는 수준으로 끌어올리려는 시도로 보인다. 특히 장기적인 맥락 유지와 신뢰성 개선은 실제 개발 현장에서 AI 에이전트의 활용도를 크게 높일 수 있는 중요한 진전이라고 생각한다. 비용 효율성까지 갖췄으니, 앞으로 개발 워크플로우에 어떤 변화를 가져올지 기대가 크다.

Cursor Composer 2.5: AI 코딩 에이전트, 장기 작업 안정성 대폭 개선

Cursor Composer 2.5, AI 코딩 에이전트의 장기 작업 수행 능력 진화

Moonshot Kimi K2.5 기반의 고도화된 훈련

실무 개발 환경에 미치는 영향

벤치마크와 비용 효율성

함께 보면 좋은 소식

출처

관련 게시글

AI 에이전트, 새로운 운영 레이어로 진화: 실무 환경의 변화

Google I/O 2026: Gemini 4.0과 AI 플랫폼 재편의 서막

[AI 뉴스] 2026년 5월 최신 AI 동향: LLM, 에이전트, 하드웨어 개발자 회고

댓글 0개

Cursor Composer 2.5, AI 코딩 에이전트의 장기 작업 수행 능력 진화

Moonshot Kimi K2.5 기반의 고도화된 훈련

실무 개발 환경에 미치는 영향

벤치마크와 비용 효율성

함께 보면 좋은 소식

출처

관련 게시글

AI 에이전트, 새로운 운영 레이어로 진화: 실무 환경의 변화

Google I/O 2026: Gemini 4.0과 AI 플랫폼 재편의 서막

[AI 뉴스] 2026년 5월 최신 AI 동향: LLM, 에이전트, 하드웨어 개발자 회고

댓글 0개

비밀번호 확인