Qwen 오픈소스 완전 가이드 2026: 파인튜닝부터 파생모델 113000개까지

Qwen 오픈소스는 2026년 현재 허깅페이스에서 가장 많이 활용되는 베이스 모델 가족입니다. 알리바바가 공개한 이 모델 시리즈를 기반으로 만들어진 파생모델만 113,000개를 넘었고, Qwen 태그가 붙은 리포지토리까지 합치면 200,000개를 돌파했습니다. 메타의 Llama가 27,000개, DeepSeek이 6,000개라는 수치와 비교하면 격차가 명확합니다 (Hugging Face Blog, 2026).

이 글에서는 Qwen 오픈소스 생태계가 어떻게 이런 규모로 커졌는지, 파인튜닝은 어떻게 시작하면 되는지, ModelScope와 HuggingFace 중 어디를 써야 하는지 정리해 드립니다.

Qwen 오픈소스가 만든 새로운 풍경

Qwen 오픈소스는 단일 플래그십이 아니라 사이즈별 가족 단위로 설계된 모델 시리즈입니다. 2026년 봄에 공개된 Qwen 3.6 라인업만 봐도 27B, 35B-A3B(MoE), 72B, Flash, Plus, 235B(MoE)까지 여섯 단계로 나뉘어 있고, 비전·코드·추론 특화 변형이 별도로 갈라져 나옵니다.

허깅페이스 2026년 봄 보고서에 따르면 Qwen 오픈소스 패밀리의 누적 다운로드는 7억 회를 넘었습니다. 단일 모델 가족 기준으로는 압도적인 1위입니다. 가장 많이 좋아요를 받은 모델은 DeepSeek-R1이지만 실제 손에 잡고 쓰는 횟수는 Qwen이 앞섭니다.

같은 시기 통계에서 한 가지 더 인상적인 흐름이 보입니다. 2025년 중국에서 만들어진 모델의 다운로드 비중이 41%를 기록하며 처음으로 미국을 넘었습니다. 그 흐름의 중심에 Qwen이 있습니다.

Qwen 파생모델 113000개를 만든 세 가지 동력

Apache 2.0 라이선스의 자유도

Qwen 3 시리즈는 Apache 2.0 라이선스로 공개됐습니다. 상업적 사용에 제약이 없고, 파생 모델을 만들어 재배포해도 됩니다. 메타의 Llama 3 라이선스는 월간 활성 사용자 7억 명 이상 기업에 별도 라이선스를 요구하는 조항이 있는데, Qwen 오픈소스에는 이런 단서가 없습니다.

스타트업이나 개인 개발자에게는 이 차이가 큽니다. LoRA 어댑터를 자기 사이트에서 판매하거나 양자화한 GGUF 모델을 제품에 끼워 파는 것도 가능합니다. 이 자유도가 113,000개라는 파생모델 숫자를 만들어낸 가장 큰 동력으로 보입니다.

빠른 업데이트 주기

Qwen 2 → 2.5 → 3 → 3.6으로 1년 반 사이에 메이저 버전이 네 번 갱신됐습니다. 신규 버전마다 컨텍스트 길이가 늘어나거나(128K 토큰), 추론 속도가 빨라지거나(AITemplate 커널 퓨전으로 약 2배), 멀티모달 지원이 추가됐습니다.

허깅페이스 보고서가 짚은 흥미로운 통계가 있습니다. 오픈소스 모델의 평균 관심 지속 기간은 약 6주입니다. 이 안에 후속 업데이트가 없으면 관심도가 빠르게 식습니다. Qwen은 이 6주 안에 항상 무언가를 던져왔습니다.

사이즈별 정교한 라인업

7B 사이즈는 노트북에서 돌리는 개인용, 72B는 워크스테이션용, 235B는 서버 클러스터용으로 깔끔하게 나뉩니다. 한 모델로 모두를 만족시키는 대신 사이즈별로 잘게 나눠서 누구도 빈손으로 돌려보내지 않는 구조입니다. 이 전략 덕분에 Qwen 오픈소스는 개인 개발자부터 대기업까지 같은 기술 스택을 공유할 수 있게 됐습니다.

Qwen 파인튜닝 표준 워크플로

Qwen 파인튜닝을 처음 시작한다면 다음 다섯 단계를 따라가시면 됩니다.

1단계: 베이스 모델 선택
16GB GPU(RTX 4080, 4090 등)에서는 Qwen 2.5-7B 또는 3.6-Flash를 4비트 양자화 상태로 LoRA 학습할 수 있습니다. 24GB(RTX 3090, 4090) 이상이면 14B까지, A100 80GB면 72B를 QLoRA로 다룰 수 있습니다.

2단계: 데이터 준비
파인튜닝에서 가장 영향이 큰 변수는 데이터 품질입니다. 하이퍼파라미터 튜닝보다 훨씬 중요합니다. GPT-4 터보 같은 고성능 모델로 문서 기반 QA 페어를 생성하는 것이 일반적이며, JSONL 포맷에 instruction, input, output 세 키로 구성합니다. 최소 200~500개 정도가 의미 있는 결과의 출발점입니다.

3단계: LoRA 학습
요즘은 unsloth 라이브러리를 가장 많이 씁니다. 메모리 효율이 좋고 사용법이 단순합니다. LoRA 또는 QLoRA로 전체 파라미터의 1% 미만만 학습합니다. 기본 하이퍼파라미터는 Rank 32, Alpha 64(Rank의 2~4배), Learning Rate 2e-4, 에포크 3~5 정도입니다.

4단계: 비전 모델 파인튜닝(Qwen-VL)
허깅페이스 쿡북에 Qwen2-VL-7B를 ChartQA 데이터셋으로 파인튜닝하는 표준 레시피가 정리돼 있습니다. TRL 라이브러리의 SFTTrainer와 PEFT/LoRA를 결합해 베이스 모델은 동결한 채 저순위 어댑터만 학습합니다. A100급 GPU가 필요한 작업입니다.

5단계: 추론 엔진 선택
학습이 끝난 LoRA 어댑터는 베이스 모델과 병합해 하나의 가중치로 만든 뒤 GGUF로 변환합니다. 단일 요청 응답에는 Ollama가 편하지만, 다수 요청을 동시에 처리해야 한다면 vLLM이 압도적입니다. 레드햇 보고서 기준으로 vLLM이 Ollama 대비 초당 트랜잭션 처리량(TPS)이 9배 높습니다. UC 버클리 스카이 컴퓨팅 랩이 만든 프로젝트이며 깃허브 스타 7만 개를 넘었습니다.

HuggingFace LLM 허브와 ModelScope 비교

Qwen 오픈소스를 다루다 보면 ModelScope라는 이름을 자주 보게 됩니다. 알리바바가 자체적으로 운영하는 모델 공유 플랫폼입니다.

항목	Hugging Face	ModelScope
운영 주체	Hugging Face Inc. (미국)	알리바바 (중국)
주력 사용자	전 세계	중국 본토 + 동아시아
중국 본토 접속	제한 (2022년부터)	자유
Qwen 신규 공개	동시 공개	동시 공개

핵심은 2022년부터 중국 본토에서 허깅페이스 접속이 막혔다는 점입니다. 알리바바가 자국 개발자들을 위해 만든 자체 플랫폼이 ModelScope의 배경입니다.

한국 개발자 입장에서는 허깅페이스만 써도 큰 문제는 없습니다. 알리바바 공식 신규 모델은 두 곳에 동시 공개되고 가중치도 동일합니다. 다만 중국 커뮤니티가 만든 파생 모델 중 일부는 ModelScope에만 올라오므로, 특정 도메인 모델을 찾을 때는 양쪽 다 검색해 보시는 것이 안전합니다.

VRAM이 부족할 때의 선택지

72B나 235B 같은 대형 모델을 만져보고 싶지만 GPU가 못 따라가는 상황이 자주 있습니다.

AirLLM은 알리바바 출신 AI 시니어가 만든 프로젝트입니다. 4GB VRAM에서도 Llama-3 70B를 추론할 수 있습니다. 신경망 블록을 한 번에 하나씩만 VRAM에 올리고 계산 완료 후 다음 블록으로 교체하는 순차 로딩 방식입니다. 속도는 매우 느려 실시간 서비스에는 부적합하지만 검증·학습 용도로는 충분히 유용합니다.

Ktransformer는 중국 칭화대 메드시스 연구실에서 만든 프로젝트로 깃허브 스타 1.6만 개 수준입니다. 24GB VRAM 단일 GPU로 671B 초대형 모델을 실사용 가능한 속도로 돌리는 게 강점입니다. 다만 AVX-512를 지원하는 고사양 CPU가 권장 사양이라 일반 가정용 PC에서는 효과를 다 누리기 어렵습니다.

클라우드 GPU 임대도 좋은 옵션입니다. RunPod, Vast.ai, Lambda Labs 같은 서비스에서 A100 80GB 한 장을 시간당 1~2달러 선에 빌릴 수 있습니다.

Qwen 오픈소스 베이스 vs Llama 베이스

한국어 파인튜닝을 한다고 가정할 때 Qwen 2.5-7B와 Llama 3.1-8B 중 어느 쪽을 골라야 할까요.

한국어 기본기는 Qwen이 앞섭니다. Qwen은 다국어 100개 이상을 커버하고 특히 동아시아 언어 처리가 안정적입니다. 별도 한국어 추가 학습 없이 베이스 그대로 써도 즉시 쓸 만한 수준입니다.

영어 추론은 두 모델이 비슷합니다. MMLU, HellaSwag, GSM8K 같은 영어 벤치마크에서 7B 사이즈 기준으로 큰 차이가 없습니다.

라이선스 자유도는 Qwen이 한 발 앞섭니다. Llama 3는 사용자 7억 명 이상 기업 단서가 있고, Qwen은 Apache 2.0으로 단서가 없습니다.

커뮤니티 어댑터는 1년 전만 해도 Llama가 압도적이었지만 지금은 역전됐습니다. 한국어 7B로 검색하면 상위 결과 대부분이 Qwen 파생입니다.

자주 묻는 질문

Q: Qwen 3.6과 Qwen 3 중 어느 것을 베이스로 선택해야 하나요?
A: Qwen 3.6은 추론 속도가 약 2배 빠르고 컨텍스트가 128K로 확장된 최신 버전입니다. 새 프로젝트에는 3.6을 권장합니다. 다만 커뮤니티 파인튜닝 자료(데이터셋, 어댑터)는 아직 Qwen 2.5와 3에 더 많이 축적돼 있습니다. 기존 자료를 재활용해야 한다면 2.5나 3을 먼저 검토해 보세요.

Q: Qwen 파인튜닝 1회 비용은 어느 정도인가요?
A: 7B 모델을 LoRA로 1만 샘플 학습한다면 A100 1장을 3~5시간 빌려서 약 5~8달러 정도면 가능합니다. 시간당 1.5달러 기준입니다. 데이터 생성에 쓰는 GPT-4 API 비용이 추가로 들 수 있으며 이쪽이 더 비싼 경우가 많습니다.

Q: 파인튜닝한 Qwen 모델을 상업적으로 사용해도 되나요?
A: Qwen 3 시리즈는 Apache 2.0 라이선스라 상업적 사용에 제한이 없습니다. 다만 학습에 사용한 데이터셋의 라이선스는 별도로 확인하셔야 합니다. 데이터셋이 비상업 라이선스라면 파생 모델도 비상업으로 묶입니다.

마무리

Qwen 오픈소스는 단일 모델이 아니라 잘 설계된 가족 시리즈로 오픈소스 LLM 생태계의 중심에 자리 잡았습니다. 113,000개 파생모델과 7억 회 다운로드라는 숫자가 그 결과입니다. Apache 2.0 라이선스, 빠른 업데이트 주기, 사이즈별 세분화라는 세 축이 이 격차를 만들어냈습니다.

직접 파인튜닝을 시작하신다면 7B 모델과 LoRA, unsloth 조합으로 출발하시는 것이 가장 안전합니다. 데이터 품질을 먼저 챙기고 하이퍼파라미터는 기본값에서 천천히 조정해 나가시면 됩니다. 학습된 모델은 GGUF로 변환해 Ollama 또는 vLLM으로 서빙하면 됩니다. 한국어 LLM 도입을 고려하는 개발자, 도메인 특화 모델을 직접 만들고 싶은 팀이라면 Qwen 오픈소스가 현재 가장 합리적인 출발점입니다.