Qwen3 라인업 한눈에 정리 2026년 5월 최신 가이드

Qwen3는 알리바바 클라우드가 개발하는 오픈소스 LLM 시리즈로, 2026년 4월 공개된 Qwen3.6 27B Dense 모델이 397B MoE를 코딩 벤치마크에서 앞서며 화제의 중심에 올랐어요. 본가 Qwen3부터 Qwen3.5, Qwen3.6, Qwen3.6 Plus까지 라인업이 한꺼번에 늘어나 어디서부터 봐야 할지 헷갈리실 텐데요. 2026년 5월 기준 큐원3 최신 라인업을 모델별로 정리해 드릴게요.

Qwen3가 글로벌 오픈소스 LLM 시장에서 주목받는 이유

큐원3는 알리바바 클라우드가 2023년부터 공개해 온 오픈소스 LLM 시리즈입니다. 알리바바 LLM 계열은 누적 100개 이상의 오픈웨이트 모델이 풀렸고, 글로벌 다운로드 4,000만 건을 넘긴 상태예요.

핵심 차별점은 라이선스 정책에 있어요. Qwen3 주요 모델은 Apache 2.0으로 풀려 있어 상용 서비스에 그대로 가져다 쓸 수 있습니다. 라마나 잼마처럼 사용 조건을 따로 검토해야 하는 모델과는 도입 부담이 완전히 다르죠.

2026년 4월 22일 공개된 Qwen3.6 27B Dense는 SWE-bench Pro 벤치마크에서 53.5점을 기록하며 397B MoE 모델(50.9점)을 앞섰습니다. 파라미터 수가 약 1/15 수준인데 에이전틱 코딩 성능에서 더 높은 점수가 나왔다는 의미예요.

Qwen3 본가 라인업과 Qwen3.5 업그레이드

본가 큐원3 라인업은 Dense와 MoE로 나뉩니다. Dense 계열은 0.6B, 1.7B, 4B, 8B, 14B, 32B 여섯 단계로 구성돼 있고요. MoE 계열에는 Qwen3-30B-A3B(활성 3B)와 Qwen3-235B-A22B(활성 22B), 그리고 API 전용 Qwen3-Max(1T+)가 자리 잡고 있어요.

Qwen3-30B-A3B는 사실상 보급형 포지션입니다. 메모리는 30B만큼 쓰지만 한 번에 활성되는 연산은 3B 수준이라 RTX 4090 24GB에서 양자화 없이 굴릴 수 있어요. 오픈소스 LLM 진영에서 가장 합리적인 선택지 중 하나로 꼽힙니다.

Qwen3.5와 Qwen3.5-Plus는 2026년 2월 16일 공개됐어요. 이 시점부터 에이전트 워크플로우를 의식한 아키텍처 변화가 본격적으로 들어가기 시작했습니다. Qwen3.5-27B는 SWE-bench Pro에서 51.2점, QwenWebBench 1068점으로 본가 32B Dense 대비 코딩 성능이 한 단계 올라갔어요.

Qwen3.6 27B와 Qwen3.6-Plus 핵심 스펙 비교

Qwen3.6 27B Dense는 64개 레이어, 5120 히든 차원, 네이티브 262,144 토큰 컨텍스트 윈도우를 제공합니다. YaRN 확장 시 약 1,010,000 토큰까지 늘어나요. 라이선스는 Apache 2.0이고 BF16과 FP8 양자화 버전이 함께 풀렸습니다.

벤치마크 성적이 눈에 띕니다. SWE-bench Verified 77.2점, NL2Repo 36.2점, Terminal-Bench 2.0 59.3점, QwenWebBench 1487점이 나왔어요. 큐원3.5-27B의 1068점에서 약 40% 점프한 수치입니다.

아키텍처는 Gated DeltaNet과 Gated Attention을 섞은 하이브리드 구조를 채택했어요. 4개 서브레이어 중 3개가 선형 어텐션을 사용해 메모리 효율이 일반 풀 어텐션 트랜스포머 대비 크게 좋아졌습니다. 100만 토큰급 컨텍스트를 단일 GPU에서 굴릴 수 있는 비결이 여기 있어요.

Qwen3.6-Plus는 2026년 4월 2일 별도로 공개된 API 전용 모델입니다. 기본 컨텍스트 윈도우가 1M(100만 토큰)으로 잡혀 있고, preserve_thinking 파라미터로 추론 컨텍스트를 유지할 수 있어요. 알리바바 클라우드 Model Studio가 OpenAI 호환과 Anthropic 호환 프로토콜을 모두 지원해 기존 SDK를 그대로 쓸 수 있다는 점도 실무에 편리합니다.

VRAM별 Qwen3 모델 추천 가이드

VRAM	추천 모델	비고
8GB 이하	Qwen3-4B 또는 8B	모바일과 노트북 내장 GPU
12~16GB	Qwen3-14B 또는 Qwen3-VL-8B	일반 사용자 스위트 스팟
24GB	Qwen3-32B 또는 Qwen3.6-35B-A3B	RTX 4090 라인
80GB+	Qwen3.6-27B Dense (BF16)	A100 또는 H100 단일
멀티 GPU	Qwen3-235B 또는 Qwen3-Coder 480B	서버급
API 전용	Qwen3.6-Plus 또는 Qwen3-Max	1M 컨텍스트 또는 1T 파라미터

일반 코딩 작업에서 가장 균형이 잡힌 선택은 Qwen3-Coder 30B 계열입니다. 메모리, 속도, 정확도 어느 한쪽도 크게 무너지지 않아 메인 워크호스로 쓰기 좋아요. 한 번에 100만 토큰 단위로 코드베이스 전체를 다뤄야 한다면 Qwen3.6-Plus API가 유력한 후보입니다.

자주 묻는 질문

Q: Qwen3와 큐원3는 같은 모델인가요?
A: 네, 같은 모델입니다. Qwen은 한국어로 “큐원”으로 표기되며, 둘 다 알리바바 클라우드가 개발한 오픈소스 LLM 시리즈를 가리킵니다.

Q: Qwen3.6 27B를 개인 PC에서 돌릴 수 있나요?
A: BF16 풀 정밀도로는 80GB급 GPU가 필요하지만, FP8 양자화 버전을 쓰면 A100 40GB 또는 RTX 6000 Ada 48GB 환경에서 구동할 수 있어요. 일반 컨슈머 GPU에서는 Qwen3.6-35B-A3B MoE 변형이나 본가 Qwen3-32B를 권장합니다.

Q: 알리바바 LLM은 상업적으로 사용해도 되나요?
A: Qwen3와 Qwen3.6 주요 모델은 Apache 2.0 라이선스로 공개돼 있어 상업적 사용에 제한이 없어요. 다만 Qwen3-Max처럼 일부 프로프라이어터리 모델은 알리바바 클라우드 API를 통해서만 이용 가능하니 모델별 라이선스를 한 번 더 확인해 보세요.

마무리

지금까지 2026년 5월 기준 Qwen3 라인업을 모델별로 살펴봤습니다. 일반 사용자는 본가 14B 또는 30B-A3B, 코딩 전용은 Qwen3-Coder 30B, 24GB 이상 환경이면 Qwen3.6-35B-A3B, 서버급 환경이면 Qwen3.6-27B Dense, API 전용 환경이면 Qwen3.6-Plus를 고려해 보시면 됩니다. 본인 작업 무게와 보유 GPU만 정해진다면 선택이 비교적 명확해질 거예요. 오픈소스 LLM 도입을 검토 중이신 분이라면 큐원3 라인업을 최우선 후보에 올려두셔도 좋습니다.