인공지능 · 오픈 모델 생태계

다운로드받는 인공지능: 오픈 가중치 LLM 생태계 읽기

2026년 4월 2일, 구글이 새 인공지능 모델을 공개했다. 정작 업계가 주목한 것은 성능 점수가 아니라 그 모델에 붙은 라이선스였다. "누구나 내려받아 마음껏 써도 된다"는 한 줄. 왜 모델을 공짜로 풀어주는 일이 사건이 되는지, 그 배경에 깔린 오픈 모델 생태계의 구조와 짧은 역사를 정리한다.

01공짜로 푼 모델이 왜 뉴스가 되는가

2026년 4월 2일, 구글은 LLM(Large Language Model, 대규모 언어모델) 계열인 젬마(Gemma)의 네 번째 버전을 공개했다. 모델은 네 가지 크기로 동시에 나왔다. 작은 쪽은 휴대폰이나 노트북에서 돌릴 수 있는 온디바이스(on-device, 기기 자체 구동) 모델이고, 큰 쪽은 31B(31 billion, 310억 개) 규모의 본격 모델이다.

화제가 된 지점은 따로 있었다. 이 모델이 아파치 2.0(Apache License 2.0)이라는 라이선스로 풀렸다는 사실이다. 직전까지 같은 계열 모델은 구글이 자체적으로 만든 약관을 달고 나왔다. 이번에는 표준 오픈 라이선스로 바꾸면서, 감추는 것 없이 모델 파일을 공개하고 상업적 사용까지 조건 없이 허용했다. 만든 회사에 한 푼도 내지 않고, 내려받아 제품에 넣고, 고쳐서 팔아도 된다는 뜻이다.

모델을 공짜로 내놓는 회사가 무엇을 얻는지부터 짚어야 이 사건이 이해된다. 직접적인 수익은 없다. 대신 다운로드 횟수와 그것이 만들어내는 평판, 그리고 그 평판을 따라 모여드는 개발자와 인재를 얻는다. 폐쇄형 유료 서비스 경쟁에서 압도적 1위를 잡지 못한 회사일수록, 오픈 진영에서의 존재감으로 판도를 흔들려는 동기가 크다. 이번 공개도 그런 전략적 포석으로 읽힌다.

02"오픈"이라는 말이 가리키는 세 가지

오픈이라는 단어는 자주 뒤섞여 쓰인다. 정리하면 모델을 쓰는 방식은 크게 세 갈래다.

첫째는 폐쇄형(closed)이다. 회사가 모델 자체는 내주지 않고, 대화창이나 API(Application Programming Interface, 프로그램 간 연결 통로)를 통해 "질문을 보내면 답을 돌려주는" 형태로만 제공한다. 유료 서비스의 대부분이 여기에 속한다. API로 돈을 내고 쓰더라도 모델은 회사 서버 안에 있고, 사용자는 그 속을 들여다보거나 바꿀 수 없다. 유료라는 것과 오픈이라는 것은 별개다.

둘째는 오픈 가중치(open weight)다. 모델의 본체에 해당하는 가중치 파일을 통째로 내려받아 내 컴퓨터나 서버에서 직접 돌릴 수 있다. 코드 단을 건드릴 수 있고, 내 데이터로 미세조정(fine-tuning, 모델을 특정 용도에 맞게 추가 학습)까지 할 수 있다. 다만 학습에 쓰인 데이터나 전체 학습 코드까지 다 공개되지는 않는 경우가 많다.

셋째는 그보다 더 나아간 완전한 오픈소스(open source)로, 가중치뿐 아니라 학습 코드와 데이터까지 함께 공개하는 경우다. 흔히 "오픈 모델"이라 불리는 것들의 상당수는 정확히는 두 번째, 즉 오픈 가중치에 해당한다.

비유로 보면

식당에 빗대면 차이가 분명해진다. 폐쇄형은 완성된 요리를 배달받는 것과 같다. 맛있게 먹을 수는 있어도 레시피는 알 수 없고, 간을 바꿀 수도 없다.

오픈 가중치는 반조리 상태의 재료와 레시피를 함께 받아 내 주방에서 변형하는 것에 가깝다. 양념을 더하거나 조리법을 바꿔 내 입맛에 맞출 수 있다.

완전한 오픈소스는 재료가 자란 농장과 종자까지 전부 공개된 상태다. 처음부터 끝까지 모든 단계를 들여다보고 손볼 수 있다.

03라이선스가 본문보다 중요할 때

모델의 성능 수치만큼이나 라이선스가 중요한 이유가 있다. 아파치 2.0은 수정과 재배포, 상업적 사용을 폭넓게 허용하는 표준 라이선스다. 기업 법무팀이 이미 익숙하게 다뤄온 약관이라는 점이 핵심이다. 어떤 회사의 자체 라이선스는 겉으로 상업 사용을 허용하면서도 "나중에 약관을 바꿀 수 있다"는 여지를 남기거나, 특정 조건이 붙는다. 표준 라이선스는 구조 자체가 그런 불확실성을 없앤다.

대조 사례가 메타(Meta)의 라마(Llama)다. 라마도 상업 사용을 허용했지만, 월간 활성 사용자(MAU, Monthly Active Users)가 7억 명을 넘는 사업자는 별도 허가를 받아야 한다는 조항을 달았다. 사실상 거대 경쟁사를 겨냥한 제한이다. 또한 라마를 토대로 만든 파생 모델에는 이름에 "Llama"를 표기해야 하고, 라마의 결과물로 다른 모델을 개선하는 행위도 금지했다. 이런 조건들 때문에 라마 라이선스는 오픈소스 표준을 관리하는 기구의 공식 승인을 받지 못했고, "이것이 진짜 오픈소스인가"라는 논쟁이 이어졌다. 라이선스 한 줄이 모델의 쓸모를 가르는 셈이다.

04오픈 가중치 모델의 짧은 역사

이 생태계가 본격적으로 열린 것은 불과 3년 남짓이다. 시작점은 메타가 2023년 2월 공개한 첫 라마였다. 원래는 연구용으로만 쓰라며 비상업 조건으로 풀었는데, 일주일 만에 모델 파일이 외부로 유출됐다. 메타는 얼마 지나지 않아 라마 2를 내놓으며 상업적 사용을 허용했다. 시장을 연 공로는 분명히 메타에 있다.

이후 각 회사의 전략에 따라 판이 빠르게 바뀌었다. 프랑스의 미스트랄(Mistral)은 소형 모델을 표준 오픈 라이선스로 내놓아 주목받았고, 중국 알리바바의 큐원(Qwen)은 한동안 폭넓게 오픈해 한국을 포함한 여러 나라 서비스의 뒷단으로 자리 잡았다. 2025년 초에는 중국 딥시크(DeepSeek)가 천문학적 비용을 들이지 않고도 강력한 추론 성능을 낸 모델을 공개해 충격을 줬다. 같은 해 여름에는 오픈에이아이(OpenAI)마저 2019년 이후 처음으로 오픈 가중치 모델을 아파치 2.0으로 내놓았다. 폐쇄형 유료 서비스로 성공한 회사가 별도로 오픈 모델을 푼 것이다.

오픈 가중치 LLM의 주요 분기점. 라이선스 정책은 각 회사의 시장 전략에 따라 계속 출렁였다.

주의할 점은 흐름이 한 방향이 아니라는 것이다. 한동안 활짝 열어 인지도를 쌓은 회사가 어느 순간 최신 버전을 폐쇄형으로 돌리기도 한다. 미리보기 기간에는 무료로 풀어 사용자 데이터와 반응을 살핀 뒤, 본 출시에서는 호출할 때마다 돈을 받는 식이다. 공개 여부는 기술적 결정이 아니라 그때그때의 사업적 계산에 가깝다.

05작은 모델의 반란

이 생태계에서 가장 흥미로운 변화는 모델이 작아지면서 더 똑똑해진다는 점이다. 파라미터(parameter, 모델의 크기를 가늠하는 단위로 흔히 10억 개를 B로 표기) 수가 적은 모델이 한두 해 전의 훨씬 큰 모델을 따라잡거나 능가하는 일이 반복되고 있다. 7B에서 9B 규모 모델이 과거 27B에서 32B급 모델을 이기는 식이다.

이번 젬마 4가 단적인 사례다. 31B 모델은 자기보다 최대 20배 큰 모델들을 제치고, 오픈 모델끼리 겨루는 공개 평가에서 전 세계 3위에 올랐다. 같은 계열의 26B 모델도 6위를 차지했다. 적은 하드웨어로 최신 수준의 능력을 낸다는 의미다. 앞서 딥시크가 보여준 것도 같은 맥락이다. 모델을 만드는 데 천문학적 비용을 쏟지 않아도 성능이 충분히 나왔다. 반도체 칩에서도 혁신이 이어지고 있지만, 소프트웨어 쪽 설계만으로도 성능을 끌어올릴 수 있다는 사실이 드러난 것이다.

같은 성능을 내는 데 필요한 모델 크기가 해마다 줄어든다. 점선 화살표는 동일한 성능 수준을 점점 작은 모델로 달성하게 된 흐름을 나타낸다. (위치는 추세를 보이기 위한 개념적 표현이다.)

비유로 보면 · 파라미터당 지능

자동차 연비를 떠올리면 된다. 예전에는 큰 출력을 내려면 배기량 큰 엔진이 필요했다. 그러나 설계가 정교해지면서, 더 작은 엔진으로도 같은 출력을 내고 연료까지 덜 먹는 차가 나온다.

모델도 마찬가지다. 같은 일을 해내는 데 필요한 크기가 줄어드는 것을 두고 "파라미터당 지능"이 높아진다고 말한다. 작아진 만큼 돌리는 데 드는 컴퓨터 자원도 줄어든다.

젬마 4의 큰 모델은 MoE(Mixture of Experts, 전문가 혼합)라는 방식을 쓴다. 전체 파라미터를 매 순간 전부 동원하는 대신, 들어온 질문에 필요한 일부 전문가만 골라 깨워 답하는 구조다. 모델은 크게 유지하면서도 실제 계산량은 줄여 효율을 높인다.

비유로 보면 · 전문가 혼합

의사 100명이 상주하는 큰 병원이라도, 환자 한 명을 볼 때 모든 의사를 부르지는 않는다. 그 증상에 맞는 전문의 두세 명만 호출한다. 병원의 규모는 그대로지만, 한 환자에게 드는 인력은 일부에 그친다. 전문가 혼합 방식이 모델 안에서 하는 일이 이와 같다.

06그래서 사용자에게 무엇이 달라지나

오픈 가중치 모델이 아무리 좋아졌다 해도, 일상에서 챗봇을 쓰는 사용자가 가장 먼저 느끼는 차이는 따로 있다. 폐쇄형 유료 서비스는 회사가 계속 업데이트하기 때문에, 사용자의 의도를 알아서 헤아려 처리하는 능력이 시간이 지날수록 좋아진다. 어제 안 되던 일이 오늘 되는, 모델이 스스로 진화하는 듯한 경험이다. 반면 오픈 가중치 모델로 직접 시스템을 꾸리면, 내가 손대 갱신하지 않는 한 그 모델은 처음 그 자리에 머문다. 돈이 들더라도 그저 최고의 모델을 원한다면 아직은 폐쇄형 유료 서비스를 쓸 수밖에 없다.

그럼에도 오픈 가중치가 의미를 갖는 지점은 비용 구조에 있다. 둘은 돈이 나가는 방식이 근본적으로 다르다.

오픈 가중치 모델

내 서버와 GPU(Graphics Processing Unit, 그래픽 처리장치)를 직접 갖춰 돌린다. 자원을 한 번 마련하면 그 한도 안에서 쓴다. 통제권과 데이터를 내가 쥔다.

폐쇄형 유료 API

회사 서버에 질문을 보낼 때마다 비용을 낸다. 갖출 장비는 없지만, 사용자가 늘어 호출이 폭증하면 부담도 함께 불어난다.

여기에 규모의 경제 딜레마가 생긴다. 유료 API로 만든 서비스는 이용자가 많아지고 질문을 많이 던질수록 내가 부담하는 비용이 늘어난다. 그 비용을 감당하며 돈을 벌려면 이용자가 폭발적으로 많아져야 하는데, 서비스를 막 시작한 단계에서 그러기는 쉽지 않다. 이때 모델을 잘 골라 넣을 여지가 생긴다. 최고의 답이 필요한 길목에는 큰 모델을 쓰되, 나머지는 작은 모델로 처리하는 식이다.

작은 모델이 쓸 만해졌다는 것은 진입 장벽이 낮아졌다는 뜻이기도 하다. 큰 모델을 돌리려면 그만큼 GPU가 많이 필요하고, 자원을 갖추는 일 자체가 곧 돈이다. GPU를 직접 사들이려면 적어도 수천만 원이 든다. 작은 모델로도 원하는 서비스를 만들 수 있게 되면서, 영세한 팀이나 혼자 일하는 개인도 자기만의 서비스를 구축할 길이 열렸다. 도입한 다음 무엇을 어떻게 해야 하는지 약간의 공부는 필요하지만, 그 공부조차 이제 모델에게 물어가며 할 수 있다.

07정리

오픈 가중치와 폐쇄형은 한쪽이 다른 쪽을 밀어내는 관계가 아니라, 섞인 채로 함께 출시되며 굴러간다. 명확하게 우열을 못 박기는 어렵다. 다만 분명한 흐름은 있다. 막대한 돈을 들이지 않고도, 또 모델 크기를 키우지 않고도, 소프트웨어 설계만으로 성능을 끌어올릴 수 있다는 것이 거듭 증명되고 있다. 한두 해 전이라면 큰 모델만 하던 일을 이제 그 몇 분의 일 크기의 모델이 해낸다.

그래서 선택의 문제는 성능 점수 하나로 끝나지 않는다. 무조건 가장 똑똑한 답을 원하는지, 아니면 비용과 통제권, 데이터가 내 손 안에 머무는 쪽을 우선하는지에 따라 답이 갈린다. 표준 라이선스로 풀린 고성능 모델이 늘어날수록, 그 선택지는 더 많은 사람에게 현실적인 것이 되어 간다. 누구나 인공지능 서비스를 만들 수 있는 시대가, 모델을 내려받는다는 평범한 행위에서 시작되고 있다.