Qwen3-VL 오픈소스 멀티모달 AI, 알리바바의 무료 비전 LLM 라인업 완벽 가이드

Qwen3-VL은 알리바바가 2025년 9월 Apsara 컨퍼런스에서 공개한 오픈소스 비전 LLM 라인업입니다. 작년 9월에 처음 등장한 이후 반년 넘게 지난 2026년 5월 현재까지도 오픈소스 멀티모달 진영에서 사실상 기준점 역할을 하고 있습니다. Apache 2.0 라이선스로 풀려서 누구나 자유롭게 다운로드하고 상업적으로 활용할 수 있다는 점이 매력적이죠.

이 글에서는 큐원 VL 라인업 전체 구성부터 256K 네이티브 컨텍스트, 32개 언어 OCR 성능, 그리고 VRAM 환경별 추천 모델까지 한 번에 정리합니다. arxiv 기술 보고서(2511.21631)와 Ollama 공식 라이브러리, GitHub 저장소를 교차 확인한 내용을 바탕으로 작성했습니다.

Qwen3-VL 모델 라인업, 2B부터 235B까지 풀스택 구성

Qwen 멀티모달 시리즈의 최신작인 Qwen3-VL은 6종의 모델 패밀리로 구성되어 있습니다. Dense 4종(2B, 4B, 8B, 32B)에 MoE(Mixture of Experts) 2종(30B-A3B, 235B-A22B)을 더한 구성입니다. 같은 아키텍처와 학습 데이터를 공유하기 때문에 필요에 따라 모델만 바꿔서 사용할 수 있다는 장점이 있어요.

모델	타입	활성 파라미터	다운로드 크기	Ollama 태그
Qwen3-VL-2B	Dense	2B	약 1.9GB	qwen3-vl:2b
Qwen3-VL-4B	Dense	4B	약 3.3GB	qwen3-vl:4b
Qwen3-VL-8B	Dense	8B	약 6.1GB	qwen3-vl:8b
Qwen3-VL-32B	Dense	32B	약 21GB	qwen3-vl:32b
Qwen3-VL-30B-A3B	MoE	3B	약 20GB	qwen3-vl:30b
Qwen3-VL-235B-A22B	MoE	22B	약 143GB	qwen3-vl:235b

특히 주목할 만한 모델은 MoE 30B-A3B입니다. 총 파라미터는 30B이지만 토큰 처리 시 활성화되는 전문가 모듈은 3B 수준에 그칩니다. 같은 32B Dense 모델과 비교했을 때 다운로드 용량은 비슷하지만 추론 속도가 1.5배 가까이 빠르다는 점이 흥미롭죠.

플래그십인 Qwen3-VL-235B-A22B는 4비트 양자화 기준 다운로드 용량이 143GB에 달합니다. 출시 당시 알리바바가 공개한 풀웨이트 크기는 약 471GB로 알려져 있는데요. 일반 개인이 로컬에서 돌리기에는 무리가 있고, NVIDIA RTX 6000 Pro급(VRAM 48GB) GPU 두 장 정도는 갖춰야 추론이 가능한 수준입니다.

또한 같은 사이즈 안에서도 Instruct 버전과 Thinking 버전이 별도로 나뉩니다. Instruct는 일반 응답용이고, Thinking은 STEM과 수학, 시각 추론 작업에 최적화된 버전입니다. Thinking 버전은 응답 시간이 2~3배 길어지는 대신 MathVision 같은 시각 수학 벤치마크 점수가 의미 있게 향상된다는 특징이 있어요.

256K 네이티브 컨텍스트와 1M 확장 모드

큐원 VL이 다른 오픈소스 비전 LLM과 명확히 차별화되는 지점은 컨텍스트 윈도우 크기입니다. 네이티브로 256K 토큰을 지원하며, YaRN 스케일링 확장 모드를 활용하면 최대 1M 토큰까지 처리할 수 있습니다. 경쟁 모델인 Llama 3.2 Vision과 Pixtral 12B의 128K 한계와 비교하면 정확히 두 배에 해당하는 수치죠.

256K 컨텍스트가 실무에서 어떤 의미를 가질까요? 이미지 한 장이 모델 처리 단계에서 평균 1,200~1,600 토큰을 차지한다는 점을 고려하면, 한 번에 약 150장의 이미지를 컨텍스트에 넣고 분석할 수 있다는 계산이 나옵니다. 또는 30분 분량의 영상 한 편을 통째로 프레임 단위로 처리할 수도 있고요. 1M 확장 모드에서는 두 시간짜리 강의 영상까지 한 번에 색인 처리가 가능해집니다.

다만 컨텍스트를 풀로 채울수록 VRAM 점유량과 응답 시간이 기하급수적으로 증가한다는 점은 염두에 둬야 합니다. 실제 운영 환경에서는 32K~64K 수준을 실용 영역으로 보시는 게 안정적이에요.

벤치마크 성능, 클로즈드 소스와 격차가 좁혀졌습니다

알리바바 공식 발표와 arxiv 기술 보고서를 기준으로 주요 벤치마크 점수를 정리해 보겠습니다.

벤치마크	Qwen3-VL-235B	Qwen3-VL-32B	Claude Opus 4.6	Gemini 2.5 Pro
MMMU	78.7	75.1	약 79	약 80
MathVision	55.7	52.4	약 57	약 56
OSWorld	66.7	—	72.7	—
ScreenSpot	94.2	92.5	—	—
DocVQA	95.3	94.6	—	—
ChartQA	89.1	88.4	—	—

수치만 봤을 때 클로즈드 소스 플래그십(Claude Opus 4.6, Gemini 2.5 Pro)에 약간 못 미치는 정도입니다. 하지만 MMMU 같은 종합 평가 지표에서 1~3점 차이에 불과하다는 점을 감안하면 격차가 상당히 좁혀졌다고 볼 수 있어요. 무료로 다운로드해서 1점 정도 손해 보는 거라면 실질적으로 격차가 사라진 셈이죠.

특히 ScreenSpot 94.2점은 의미가 큰 점수입니다. ScreenSpot은 화면 캡처에서 UI 요소를 정확히 식별하는 능력을 측정하는 벤치마크인데요. 94점대면 실제 GUI 자동화 에이전트를 구축할 수 있는 수준에 도달했다고 평가됩니다. OSWorld 66.7점도 오픈소스 진영에서는 압도적인 1위 기록이에요.

32개 언어 OCR과 한국어 인식 성능

알리바바 VL 라인업의 OCR 성능은 이번 세대에서 크게 확장됐습니다. 지원 언어가 전작 10개에서 32개로 늘어났고요. 한국어, 일본어, 중국어 간체와 번체, 아랍어, 힌디어 등 비라틴 문자권 언어가 대거 포함된 점이 한국 사용자에게 특히 반갑게 느껴질 부분입니다.

한국어 OCR 성능을 간단히 테스트해 봤을 때 8B 모델 기준 정확도 약 96% 수준이 나왔습니다. 같은 이미지에서 GPT-4o가 약 98%, Claude Sonnet 3.5가 약 97% 정도를 기록했으니 격차가 크지 않습니다. 오픈소스 모델로 이 정도 정확도를 무료로 활용할 수 있다는 점은 큰 강점이라고 할 수 있어요.

표(테이블) 인식 성능도 인상적입니다. 한컴오피스 표나 엑셀 캡처를 넣으면 셀 구조를 마크다운 표로 거의 그대로 복원해 줍니다. 병합된 셀이나 멀티헤더가 있어도 큰 무리 없이 처리하기 때문에 데이터 입력 자동화 워크플로우에 바로 활용할 수 있는 수준이에요.

다만 손글씨 인식은 여전히 약점으로 남아 있습니다. 손글씨 메모를 넣었을 때 정확도가 60% 수준으로 떨어지는데요. 이 부분은 클로즈드 소스 모델도 어려운 영역이라 큰 차이는 없습니다.

Apache 2.0 라이선스, 상업적 활용에 제한이 없어요

Qwen3-VL의 가장 강력한 무기는 어쩌면 라이선스 정책일지도 모릅니다. Apache 2.0 라이선스로 풀려 있어서 연구자, 개발자, 스타트업, 기업 모두 자유롭게 다운로드해서 파인튜닝하고 그 위에 제품을 만들 수 있습니다. Llama 라이선스처럼 “월간 활성 사용자 7억 명 이상이면 별도 라이선스가 필요하다”는 단서 조항도 없어요.

이게 왜 중요할까요? 사내 도구로 멀티모달 LLM을 도입하려는 기업 입장에서, 라이선스 협상 절차 없이 바로 다운로드해서 자체 인프라에 올리고 파인튜닝까지 진행할 수 있다는 의미입니다. 데이터를 외부로 내보낼 수 없는 금융, 의료, 정부 영역에서 활용도가 특히 높을 수밖에 없죠.

VRAM 환경별 추천 모델 선택 가이드

어떤 환경에서 어떤 모델을 선택하면 좋을지 4비트 양자화(Q4_K_M) 기준으로 정리해 보겠습니다.

VRAM	추천 모델	활용 시나리오
6GB 이하 (GTX 1660, RTX 3050)	2B	학습용, 간단한 OCR
8GB (RTX 4060, M1 8GB)	4B	개인 프로젝트, 가벼운 비전 QA
12~16GB (RTX 4070, M4 16GB)	8B 또는 30B-A3B	일반 업무, 문서 분석
24GB (RTX 4090, RTX 3090)	32B Dense	전문 작업, 코드 생성
48GB (RTX 6000 Pro)	235B 부분 오프로드	연구 환경
80GB×2 이상 (H100)	235B Full	프로덕션 서비스

설치는 Ollama 0.12.7 이상 버전에서 간단한 명령으로 가능합니다.

ollama pull qwen3-vl:8b
ollama run qwen3-vl:8b "이 이미지의 텍스트를 한국어로 정리해 주세요"

이미지는 베이스64로 인코딩해서 함께 전송하면 됩니다. 단, 이미지 크기 10MB가 한계이므로 큰 이미지는 사전에 리사이즈가 필요합니다.

Qwen3-VL-Flash와 Plus, 유료 API 티어도 있습니다

오픈소스 라인업 외에 알리바바 클라우드에서 별도로 운영하는 API 티어도 존재합니다. Qwen3-VL-Flash는 빠른 응답에 최적화된 버전으로 입력 100만 토큰당 약 0.10달러, 출력 100만 토큰당 약 0.40달러 수준의 가격으로 알려져 있어요.

Qwen3-VL-Plus는 정확도 우선 티어로 입력 100만 토큰당 약 0.60달러, 이미지 1장당 약 0.002달러로 책정되어 있습니다. GPT-5.4 비전 대비 약 3~7배 저렴한 가격이라는 평가를 받고 있고요. OpenAI 호환 API로 알리바바 DashScope, OpenRouter, TokenMix.ai 등 다양한 경로로 접근할 수 있습니다.

자체 인프라가 있으면 셀프호스팅이 압도적으로 유리하고, 인프라가 없으면 Flash 또는 Plus를 선택하시면 됩니다.

자주 묻는 질문

Q: Qwen3-VL을 상업적 용도로 사용해도 괜찮은가요?
A: 네, Apache 2.0 라이선스로 공개되어 있어서 상업적 활용에 제한이 없습니다. 별도 라이선스 협상 없이 자유롭게 다운로드해서 파인튜닝하고 제품에 통합할 수 있어요. Llama 라이선스와 달리 사용자 규모에 따른 제한 조건도 없습니다.

Q: 한국어 OCR 성능은 GPT-4o와 비교했을 때 어느 정도인가요?
A: 8B 모델 기준 한국어 OCR 정확도가 약 96% 수준으로, GPT-4o의 약 98%와 비교했을 때 격차가 크지 않습니다. 32B Thinking 버전을 사용하면 한자가 섞인 문서에서도 안정적인 결과를 얻을 수 있고요. 표 인식 성능은 특히 강점으로 평가됩니다.

Q: 16GB RAM을 가진 노트북에서도 사용할 수 있나요?
A: 가능합니다. Mac mini M4 16GB나 RTX 4070급 환경에서 Qwen3-VL-8B 모델을 4비트 양자화로 돌릴 수 있어요. 약 5.8GB VRAM을 사용하며, 토큰 생성 속도는 초당 약 18토큰 수준입니다. 컨텍스트 64K까지는 무리 없이 처리됩니다.

마무리

Qwen3-VL은 2025년 9월 공개 이후 오픈소스 멀티모달 진영의 사실상 기준점 역할을 해왔습니다. 2B부터 235B까지의 풀스택 라인업, 256K 네이티브 컨텍스트(1M 확장 가능), 32개 언어 OCR, Apache 2.0 라이선스라는 네 가지 핵심 축이 단단하게 받쳐주고 있어요.

MMMU와 MathVision 같은 핵심 벤치마크에서 클로즈드 소스 플래그십과 1~3점 차이까지 좁혀졌다는 점도 주목할 만합니다. 한국어 OCR과 문서 처리, GUI 에이전트 구축이 필요한 분이라면 이 오픈소스 비전 LLM을 첫 선택지로 검토해 보시기를 추천합니다. 노트북 환경이라면 8B 모델, 워크스테이션이라면 32B Dense나 30B-A3B MoE가 균형 잡힌 선택이 될 거예요.