SWE-1: 윈드서프의 첫 번째 프론티어 모델 정보
SWE-1: 윈드서프의 첫 번째 프론티어 모델
본문
윈드서프에서 SWE-1 이라는 AI 모델을 내놓았는데 프로모션 기간에는 무료랍니다.
비용 부담 있으신 분들이 사용하면 되겠습니다.
오늘 저희는 SWE-1이라는 이름의 첫 번째 모델 제품군을 출시합니다. 이 모델은 코딩 작업뿐만 아니라 소프트웨어 엔지니어링 프로세스 전체에 최적화되어 있습니다.
이 제품군은 현재 세 가지 고유한 모델로 구성되어 있습니다.
-
SWE-1: 클로드 소네트 수준의 도구 호출 추론을 약 3.5단계까지 수행하면서도 서비스 비용이 저렴합니다. 모든 유료 사용자에게 프로모션 기간 동안 사용자 프롬프트당 0 크레딧으로 제공됩니다.
-
SWE-1-lite: Cascade Base를 더 나은 품질로 대체하는 소형 모델입니다. 모든 사용자는 무료 또는 유료로 무제한 사용할 수 있습니다.
-
SWE-1-mini: 모든 유료 또는 무료 사용자를 대상으로 Windsurf Tab 수동 경험을 제공하는 작고 매우 빠른 모델입니다.
SWE-1을 구축하는 이유는 무엇일까요? 간단히 말해서, 저희의 목표는 소프트웨어 개발 속도를 99%까지 높이는 것입니다. 코드 작성은 여러분이 하는 일의 일부에 불과합니다. "코딩 가능한" 모델만으로는 충분하지 않습니다.
간략한 배경 정보
코딩이 가능한 모델은 지난 몇 년 동안 훨씬 더 발전했습니다. 이러한 모델에 대한 우리의 기대는 단순한 자동 완성 제안에서 한 번에 간단한 애플리케이션을 안정적으로 구축하는 수준으로 높아졌습니다.
하지만 이 모델이 정점에 도달하는 곳이 몇 군데 있습니다.
첫째, 모든 소프트웨어 개발자는 모든 시간이 코드 작성에만 쓰이는 것은 아니라고 말할 것입니다. 우리는 더 많은 종류의 작업을 하고 더 많은 표면에서 작업하기 때문에 모델에 더 많은 것을 기대해야 합니다. 단순히 코드를 읽고 쓰는 것뿐만 아니라 터미널에서 작업하고, 다른 지식과 인터넷에 접근하고, 제품을 테스트하고 사용하며, 사용자 피드백을 이해하는 모델이 필요합니다. 소프트웨어 개발자가 하는 모든 일은 단순히 코드를 작성하는 것이 아닙니다.
둘째, 모든 소프트웨어 개발자는 작업이 이러한 모든 표면에서 장기적인 관점에서 진행되며 일련의 불완전한 상태를 따라 진행된다고 말할 것입니다. 오늘날 코딩에 가장 적합한 기반 모델은 여전히 주로 전술적인 작업, 즉 최종 코드가 컴파일되고 단위 테스트를 통과하는지 여부에 대한 학습을 기반으로 합니다. 하지만 여러분에게 단위 테스트는 훨씬 더 큰 엔지니어링 문제의 일부일 뿐입니다. 기능을 구현하여 현재 작동하도록 하는 방법은 여러 가지가 있지만, 수년간 기반으로 구축할 수 있는 기능을 구현하는 좋은 방법은 훨씬 적습니다. 그렇기 때문에 Cascade에서 모델이 사용자 가이드를 적극적으로 적용하면 훌륭하게 작동하지만, 독립적으로 작동하는 시간이 길어질수록 성능이 크게 떨어지는 것을 볼 수 있습니다. 워크플로를 더 많이 자동화하려면 이러한 제한을 제거해야 합니다. 엔지니어링 프로세스의 전체 복잡성, 즉 불완전한 상태에 대한 추론을 모델링해야 하며, 이는 모호한 결과를 초래할 수 있습니다.
어느 시점에는 단순히 코딩 실력이 향상되는 것만으로는 당신이나 모델의 소프트웨어 엔지니어링 실력이 향상되지 않습니다. 궁극적으로 우리는 소프트웨어 엔지니어가 할 수 있는 모든 것을 가속화하는 데 기여하고 싶습니다. 따라서 "소프트웨어 엔지니어링" 모델, 줄여서 SWE 모델이 필요하다는 것을 오래전부터 알고 있었습니다.
SWE-1
자주 사용하는 Windsurf Editor에서 얻은 통찰력을 바탕으로 완전히 새로운 데이터 모델(공유 타임라인)과 완료되지 않은 상태, 장기 실행 작업, 여러 표면을 캡슐화하는 교육 레시피를 구축하기 시작했습니다.
저희는 이 접근 방식을 통해 연구실보다 적은 규모의 엔지니어 팀과 적은 컴퓨팅 자원으로도 프론티어 수준의 성능에 도달할 수 있음을 증명하는 것을 초기 목표로 삼았습니다. SWE-1은 초기 개념 증명입니다.
전반적으로 SWE-1은 모든 프런티어 기반 모델과 유사합니다. 중요한 점은 모든 비프런티어 모델과 개방형 가중치 대안보다 우수한 성능을 보인다는 것입니다. 벤치마킹 목적으로 오프라인 평가 실험과 블라인드 생산 실험을 모두 수행했습니다.
오프라인 평가
우리는 SWE-1의 성능을 Cascade에서 가장 많이 사용되는 모델 중 하나인 Anthropic 계열 모델과 비교했으며, Deepseek과 Qwen의 주요 코딩 개방형 가중치 모델과도 비교했습니다.
대화형 SWE 작업 벤치마크 : 기존 Cascade 세션 중간에 작업이 반쯤 완료된 상태에서 Cascade가 다음 사용자 질의를 얼마나 잘 처리하는가? 0~10점 점수는 도움성, 효율성, 정확성에 대한 심사위원 점수와 대상 파일 편집에 대한 정확도 지표를 합산한 평균 점수입니다.
이는 Cascade를 통해 개척한 인간 참여형(Human-in-the-Loop) 에이전트 코딩의 고유한 특성을 잘 포착했다고 생각하는 벤치마크입니다. 모델이 완벽하지 않은 한, 부분적으로 완료된 작업에 대한 사용자 입력을 원활하게 인터리빙할 수 있는 능력은 모델 유용성을 측정하는 매우 중요한 척도라고 생각합니다.
0
댓글 0개