양자 머신러닝의 기회와 과제

양자 정보 과학이라는 큰 그림

양자 컴퓨팅(Quantum Computing)이라는 단어는 단독으로 잘 쓰이지만, 사실 그 위에는 양자 정보 과학(Quantum Information Science, QIS)이라는 더 큰 분야가 있다. QIS는 양자 역학의 원리를 사용해 데이터를 어떻게 다룰 것인가를 다루는 학문이고, 그 안에 적어도 세 갈래의 응용이 있다.

첫째는 양자 센싱(Quantum Sensing)으로, 양자 역학적 시스템을 이용해 더 정밀한 데이터를 얻어내는 기술이다. 둘째는 양자 통신(Quantum Communication)으로, 양자 역학적 성질을 활용해 더 보안성 있고 효율적인 정보 전달을 다룬다. 셋째가 양자 컴퓨팅이며, 데이터를 얼마나 더 빠르게 처리할 수 있는가의 문제이다.

양자 머신러닝(QML)은 이 양자 컴퓨팅의 응용 가운데 하나이다. 즉, "양자 역학을 활용해 데이터를 빠르게 처리한다"라는 양자 컴퓨팅의 일반 목표를, "그 처리 대상이 머신러닝 문제일 때"로 좁힌 것이 QML이다. 큰 그림에서 위치를 잡고 시작하는 것이 좋겠다.

왜 지금 양자 컴퓨팅인가

양자 컴퓨팅이 부상한 데에는 추상적이지만 분명한 두 가지 이유가 있다.

첫 번째는 무어의 법칙(Moore's Law)과 관련이 있다. 무어의 법칙은 물리적 법칙이 아니라 경험칙이지만, 반도체 산업이 지난 수십 년 동안 이 예측을 대체로 맞춰왔다. 디지털 컴퓨터의 성능을 높이려면 한정된 면적 안에 트랜지스터를 더 촘촘히 쌓아야 한다. 이 말은 트랜지스터의 크기를 계속 줄여야 한다는 뜻이고, 이미 산업은 3나노미터, 2나노미터 공정을 다루고 있다. 여기서 한 자릿수 더 작아지면 거의 원자 수준에 이른다.

문제는 원자 수준에서는 양자 역학적 효과가 강하게 발현된다는 점이다. 트랜지스터는 본래 켜짐/꺼짐이라는 고전적 스위치 역할을 해야 하는데, 양자 효과가 끼어들면 우리가 원하지 않는 방식으로 신호가 새고 흔들린다. 그래서 떠오른 발상이 이것이다. 양자 역학적 성질을 피해야 할 골칫거리로 볼 것이 아니라, 거꾸로 활용해보자.

두 번째 이유는 더 흥미로운 역발상이다. 만약 양자 역학적으로 작동하는 컴퓨터가 있다면, 그것이 하는 일을 기존 디지털 컴퓨터로 그대로 흉내내는 것은 매우 어렵다. 이 말은 양자 컴퓨터가 디지털 컴퓨터로는 도달하기 어려운 어떤 영역의 계산을 — 적어도 원리적으로는 — 해낼 수 있다는 뜻이다. "흉내내기 어렵다"는 사실이 곧장 "더 유용하다"를 보장하지는 않지만, 그 가능성을 처음으로 진지하게 시사한다.

디지털 컴퓨터를 다시 본다

양자 컴퓨터를 이해하는 가장 빠른 길은, 우리가 매일 쓰는 디지털 컴퓨터를 한 번 더 낯설게 보는 것이다.

디지털 컴퓨터는 결국 비트 스트링(bit string)을 받아 비트 스트링을 출력하는 기계이다. 입출력 사이에서 일어나는 일은 모두 불 논리(Boolean logic)의 계산이다. 표면에서 디지털 컴퓨터가 처리하는 일들은 매우 다양해 보이지만, 가장 아래층에서는 이진수를 이진수로 매핑하는 불 함수의 반복일 뿐이다.

여기서 중요한 통찰은 "보편성(universality)"이다. 모든 가능한 불 함수의 개수는 무한히 많지만, 우리는 그것들을 각각 다른 물리 장치로 만들지 않는다. NAND(Not-AND, 부정 논리곱) 게이트라는 단 하나의 보편 게이트만으로 모든 불 함수를 근사할 수 있다. 그래서 반도체 산업은 이 NAND 게이트 하나를 효율적으로 그리고 대량으로 만들 수 있게 하는 일에 집중했다. 컴퓨터를 만든다는 일은 결국 이렇게 정리된다.

수학(불 함수) → 물리(NAND 게이트의 반도체 구현) → 소프트웨어(알고리즘을 NAND 게이트의 연쇄로 컴파일)

양자 컴퓨터는 바로 이 사다리를 완전히 다른 모양으로 다시 만든다.

양자 컴퓨터의 작동 방식

양자 컴퓨터는 수학적으로 보면 "복소수 벡터로부터 확률 분포로 가는 사상(mapping)"이다. 디지털 컴퓨터가 비트 스트링에서 비트 스트링으로 가는 사상이었던 것과 대조된다. 입력은 복소 벡터 공간의 한 점이고, 출력은 어떤 이산적 결과들에 대한 확률 분포이다.

이 사상의 기본 단위가 큐비트(qubit)이다. 디지털 비트가 0 또는 1 두 값만 가질 수 있다면, 큐비트는 두 베이시스 상태(|0⟩과 |1⟩) 위에 놓인 2차원 복소 벡터이다. 두 베이시스 상태의 선형 조합 α|0⟩ + β|1⟩ 으로 표현되며, 여기서 계수 α, β는 복소수이다. 한 큐비트의 상태 공간은 본질적으로 연속적이다. α와 β가 연속적인 복소수 값을 자유롭게 가질 수 있기 때문이다.

비유 — 비트와 큐비트

디지털 비트가 "스위치"라면, 큐비트는 "회전 화살표"이다. 스위치는 위/아래 두 자세만 가질 수 있지만, 화살표는 위와 아래 사이의 모든 각도, 그리고 그 각도들에 대한 위상(phase)까지 동시에 표현할 수 있다. 다만 우리가 화살표의 끝을 보려고 손전등을 비추면(즉, 측정하면), 화살표는 위 또는 아래 둘 중 하나로 무작위로 떨어진다.

큐비트의 개수를 n개로 늘리면 상태 공간의 크기는 2의 n승으로 폭발적으로 커진다. 10개 큐비트의 상태를 표현하려면 1024개의 복소수가 필요하고, 20개면 약 100만 개, 70개면 10의 21승 개 정도의 복소수가 필요하다. 그래서 70개 큐비트 정도가 되면, 이 상태를 단순히 메모리에 담는 일조차 기존 컴퓨터로는 불가능해진다.

계산의 진행은 이 거대한 복소 벡터에 또 다른 거대한 행렬을 곱하는 것으로 표현된다. 큐비트가 10개라면 1024 × 1024 행렬, 20개라면 100만 × 100만 행렬, 70개라면 10의 21승 × 10의 21승 행렬이다. 사람이 종이 위에 이걸 적어두려면 끔찍해 보이지만, 자연계는 이 일을 그저 양자 역학적 시스템 자신의 시간 진화로서 자연스럽게 수행하고 있을 뿐이다. 우리가 그것을 선형 대수의 언어로 옮길 때 표현이 비효율적으로 보이는 것이다.

그리고 마지막 단계인 측정에서, 이 거대한 양자 상태로부터 우리가 실제로 얻어내는 정보는 어떤 확률 분포에서 무작위로 뽑힌 하나의 결과뿐이다. 이 측정의 확률적 성격이 양자 컴퓨팅의 가장 중요하면서도 가장 자주 오해되는 부분이다.

양자 병렬성이라는 흔한 오해

대중 매체에서 양자 컴퓨터를 소개할 때 가장 흔히 들리는 말은 "엄청난 병렬 처리"이다. 2의 n승 차원의 상태를 한꺼번에 다루니, 그만큼 많은 계산을 동시에 수행한다는 식이다. 듣기에는 그럴듯하지만, 엄밀히 말하면 사실이 아니다.

비유 — 만 권의 책

양자 컴퓨터의 중첩은 마치 도서관에 있는 만 권의 책을 동시에 펼쳐놓은 상태와 같다. 모든 책의 모든 페이지가 어떤 의미에서는 "동시에" 존재한다. 그러나 측정이라는 순간이 오면, 우리는 무작위로 한 권의 책에서 한 페이지만 뽑아 들 수 있다. 만 권을 동시에 펼쳐놓았다는 사실은, 그 한 페이지를 뽑는 결과에는 직접적으로 도움이 되지 않는다.

그렇다면 양자 컴퓨터의 진짜 힘은 어디에서 오는가. 답은 양자 간섭(quantum interference)이다. 펼쳐놓은 책들이 그저 따로 놓여 있는 것이 아니라, 서로 파동처럼 간섭할 수 있다. 잘 설계된 간섭은 책들 사이의 "공통된 패턴"을 두드러지게 만들고, 무관한 변동들은 서로 상쇄시켜 지운다. 그래서 우리가 마지막에 책 한 권을 뽑을 때, 그 책에 적힌 페이지가 무작위 한 권이 아니라, 우리가 찾던 글로벌한 패턴을 담고 있을 확률이 높아진다.

이런 식으로 보면, 양자 컴퓨터는 "모든 문제를 동시에 푸는 기계"가 아니다. 양자 컴퓨터가 잘하는 일은, 수많은 경우의 수들이 공통으로 가지고 있는 어떤 글로벌한 성질 — 예컨대 주기성, 대칭성, 어떤 그룹 구조 — 을 효율적으로 끌어내는 것이다.

가장 유명한 사례인 쇼어 알고리즘(Shor's algorithm)이 바로 여기에 해당한다. 큰 정수의 소인수분해 문제는 사실 "어떤 수열의 주기를 찾는 문제"로 다시 쓸 수 있고, 양자 간섭이 바로 이 주기 발견에 잘 맞아떨어진다. 그래서 쇼어 알고리즘은 양자 컴퓨터의 본질적 강점이 우연히 잘 활용된 운 좋은 사례라고 볼 수 있다.

"몇 배 빠르다"가 아닌, 문제 크기에 따른 비용

양자 컴퓨터가 "고전 컴퓨터보다 백 배 빠르다", "천 배 빠르다"라는 식의 표현은 사실 별 의미가 없거나, 많은 정보를 빼고 단순화한 말이다. 컴퓨터 과학에서 알고리즘의 속도를 이야기할 때는 문제 크기가 커짐에 따라 계산 비용이 어떻게 늘어나는지를 본다.

비용이 문제 크기에 대해 지수적으로(exponentially) 증가하면, 우리는 보통 그 알고리즘을 "비효율적"이라거나 "사실상 풀 수 없는 문제"라고 부른다. 비용이 다항적으로(polynomially) 증가하면, 차수가 높더라도 이론적으로는 "효율적"이라고 한다. 양자 컴퓨터의 가치는, 어떤 특정한 문제들에서 고전 알고리즘이 지수적으로 비싸지는 동안 양자 알고리즘은 다항적으로만 비싸지도록 만든다는 데에 있다.

가장 익숙한 사례인 소인수분해를 따라가보자. 현재 상용 암호 체계의 핵심에 자리 잡고 있는 RSA(Rivest–Shamir–Adleman) 알고리즘은 큰 정수의 소인수분해가 어렵다는 사실에 기반한다. 비트 수에 따라 두 컴퓨터가 어떤 비용을 들이는지를 비교하면 다음과 같다.

비트 수	고전 컴퓨터 (대략적인 연산량)	양자 컴퓨터 (대략적인 게이트 연산량)	결론
64	~10⁸	~10¹⁵	고전이 압도적으로 빠름
128–256	두 컴퓨터의 비용이 비교 가능한 수준에 머무름		차이 미미
512	곡선이 교차하기 시작함		교차점
2048 (현재 RSA)	사실상 우주의 나이 수준 시간	수 시간 안에 완료 가능	양자가 결정적

표의 핵심은 양자 컴퓨터가 어떤 고정된 배수로 빠르다는 것이 아니라, 문제 크기가 커질수록 두 컴퓨터의 곡선이 점점 더 벌어진다는 점이다. 64비트짜리 비밀번호 같은 작은 문제에서는 양자 컴퓨터가 게이트 시간 자체가 느리기 때문에 오히려 고전 컴퓨터가 빠르다. 그러나 2048비트짜리 RSA 키처럼 큰 문제에 도달하면, 고전 컴퓨터의 비용은 천문학적으로 폭발하고 양자 컴퓨터의 비용은 다항적으로만 늘어나므로 격차가 의미를 갖는다.

비유 — 지수와 다항의 차이

회의실에 사람을 모은다고 하자. 한쪽 회의실은 들어오는 사람마다 인원이 두 배씩 늘어나고(지수), 다른 쪽은 한 줄씩 늘어난다(다항). 다섯 명 단계에서는 별 차이가 없지만, 서른 번째 들어오는 사람을 비교하면 한쪽은 약 10억 명, 다른 쪽은 30명이다. 양자 알고리즘이 의미를 갖는 영역은 바로 이 곡선이 갈라진 다음의 풍경이다.

양자 머신러닝은 어떻게 시작되었나

양자 머신러닝이라는 분야가 본격적으로 형태를 갖춘 시점은 2009년이다. 그해에 발표된 HHL 알고리즘 — 세 저자 Aram Harrow, Avinatan Hassidim, Seth Lloyd의 머리글자를 딴 — 이 그 출발점이다. 이 알고리즘은 어떤 행렬 A와 어떤 벡터 b가 주어졌을 때 선형 방정식 Ax = b를 만족하는 해 x를 찾는 문제를 다룬다.

선형 방정식이 그 자체로 머신러닝의 전부는 아니다. 그러나 머신러닝의 많은 알고리즘 — 선형 회귀, 일부 분류기, 추천 시스템 — 이 내부적으로 선형 시스템 풀이를 호출한다. 또한 비선형 문제도 보통 선형 근사(linear approximation)를 거쳐 풀린다. 그래서 선형 시스템을 빠르게 푸는 도구가 생기면, 머신러닝뿐 아니라 계산 과학 전반 — 편미분 방정식(Partial Differential Equation, PDE) 수치 해석 같은 분야 — 의 가속이 동시에 가능해진다.

HHL 알고리즘의 핵심은 비용 곡선이다. 행렬 A가 n × n 크기일 때, 고전 알고리즘은 가장 일반적인 경우 n의 3승에 비례하는 시간이 든다. HHL은 (조건을 만족하면) log n에 비례하는 시간으로 동일한 작업을 한다. 즉, 다항에서 로그로 — 지수적 가속(exponential speedup)이 가능하다는 이야기이다.

이 모든 양자 알고리즘의 공통 엔진

HHL 알고리즘도, 쇼어 알고리즘도, 그리고 양자 시스템 시뮬레이션도 거의 같은 한두 개의 서브루틴(subroutine)에 의존한다. 그것이 양자 위상 추정(Quantum Phase Estimation, QPE)과 양자 푸리에 변환(Quantum Fourier Transform, QFT)이다. QFT는 양자 컴퓨터 위에서 푸리에 변환을 효율적으로 수행하며, QPE는 QFT를 활용해 어떤 행렬의 고윳값(eigenvalue)과 고유 벡터를 빠르게 찾는다. 행렬의 고윳값 분해를 빠르게 한다는 말은, 곧 선형 시스템 풀이와 인수분해와 시뮬레이션 모두를 빠르게 한다는 뜻과 같다. 양자 이득(quantum advantage)이 이론적으로 증명되었다는 알고리즘들은 거의 예외 없이 이 두 서브루틴에 뿌리를 두고 있다.

QFT 자체의 비용은 n개 큐비트에 대해 약 n의 2승의 게이트 연산이다. 다항이니 이론적으로는 "효율적"이지만, 실제 구현은 완전히 다른 이야기이다. 100큐비트짜리 QFT 한 번을 돌리려면 약 1만 번의 게이트 연산이 필요하고, 1000큐비트라면 약 100만 번이다. 뒤에서 보겠지만, 이 정도의 깊은 회로를 현재의 양자 하드웨어가 안정적으로 돌릴 수 있느냐가 곧 양자 컴퓨팅의 가장 큰 병목이다.

비유 — 푸리에 변환의 직관

푸리에 변환은 "데이터 안에 어떤 주기적인 리듬이 숨어 있는지" 찾아내는 도구이다. 양자 푸리에 변환은 이 일을 양자 중첩 위에서 한다. 잘 모은 수많은 데이터를 동시에 펼쳐놓고, 양자 간섭으로 그들 사이의 공통 리듬을 두드러지게 만든다. 소인수분해도, 행렬 대각화도, 결국 데이터 속의 어떤 숨은 리듬을 찾는 문제라는 점에서 같은 도구를 공유한다.

양자 하드웨어의 현주소

이론은 충분히 매력적이지만, 양자 컴퓨팅의 가장 정직한 출발점은 하드웨어이다. 현재 가장 널리 공개되어 있는 양자 컴퓨팅 플랫폼 중 하나가 IBM의 초전도 큐비트(superconducting qubit) 기반 시스템이고, 그 대표적 칩이 2021년 발표된 127큐비트 Eagle 프로세서이다.

Eagle 칩의 큐비트들은 어떤 격자 모양으로 배치되어 있다. 모든 큐비트가 다른 모든 큐비트와 직접 연결되어 있는 것이 아니라, 인접한 큐비트들끼리만 2-큐비트 게이트를 수행할 수 있다. 즉, 0번 큐비트와 126번 큐비트 사이에 어떤 양자 연산을 하려면, 둘 사이의 큐비트들을 차례로 거쳐가는 SWAP 연산의 연쇄가 필요하다.

초전도 큐비트의 제한된 연결성: 양 끝 사이 한 번의 2-큐비트 게이트조차 긴 우회 경로를 거친다

이 우회 경로의 각 단계마다 오류가 누적된다. 이 시스템은 ECR(Echoed Cross-Resonance, 에코된 교차 공명) 게이트라는 방식으로 두 큐비트 사이의 얽힘(entanglement)을 만들고, 이 게이트의 오류율은 중간값으로 대략 1% 수준이다. 즉, 100번 연산하면 한 번 정도 오류가 난다는 뜻이다.

0번 큐비트에서 126번 큐비트까지 정보를 전달하려면 최소 50번 정도의 간접 2-큐비트 연산이 필요하다. 한 번당 1%의 오류율이라면, 50번을 거치는 사이 사실상 매번 오류가 발생한다고 봐야 한다. 결과적으로 100큐비트 규모의 QFT 같은 깊은 회로는 현존하는 어떤 물리적 플랫폼에서도 제대로 돌릴 수 없다. 초전도 큐비트뿐 아니라 이온 트랩(ion trap), 중성 원자(neutral atom), 광자 기반 등 다른 모든 양자 컴퓨팅 플랫폼이 — 세부 사항은 달라도 — 비슷한 한계에 부딪혀 있다.

그래서 현재 양자 컴퓨팅 산업이 단기적으로 잡고 있는 목표는 비교적 소박하다. 약 100큐비트 시스템에서 100번 정도의 연산을 깨끗하게 돌리는 것. 전 세계 어느 곳도 100큐비트에 1만 번 게이트는 아직 안정적으로 돌리지 못한다.

언제쯤 "쓸 만한" 양자 컴퓨터가 올까

그러면 우리가 흔히 듣는 "양자 컴퓨터가 RSA를 깬다"같은 시나리오는 어느 정도 멀리 있는 이야기일까. 큐비트 수와 오류율을 두 축으로 놓고 정리하면 대략 다음과 같다.

목표	필요한 큐비트 수	필요한 오류율	증명 상태
2048비트 RSA 깨기 (쇼어 알고리즘)	수백만 개	10⁻⁴ 이하	이론적으로 양자 이득 증명됨
물리·화학·생물 자연계 시뮬레이션	약 1만 개	10⁻⁴ 수준	이론적으로 양자 이득 증명됨
양자 데이터에 대한 머신러닝	약 100개	1% 수준	제한적이지만 시연 가능
현재 일반 공개된 시스템	수십~127개	약 1%	휴리스틱 실험만 가능

표의 첫 줄, 수백만 큐비트에 1만 분의 1 이하 오류율이라는 조건은 RSA 같은 현대 암호 체계를 위협할 수 있는 수준이다. 이것이 언제 도달될지에 대해서는 의견이 갈린다.

2025년 1월 CES(Consumer Electronics Show, 소비자 가전 전시회)에서 엔비디아의 젠슨 황(Jensen Huang) 최고경영자(CEO)는 월스트리트 분석가들과의 질의응답에서 "정말 쓸모 있는(very useful) 양자 컴퓨터"가 등장하기까지 "15년은 너무 짧고, 30년은 너무 길고, 20년 정도라면 많은 사람들이 동의할 것"이라고 발언했다. 이 발언은 양자 컴퓨팅 관련 주식들의 급락을 불러왔고, 두 달 뒤 황 자신이 GTC 2025에서 일부 발언을 수정하기도 했다. 그러나 그가 말한 20년이라는 숫자가 어떤 단계를 가리키는지에 대한 정밀한 정의는 없었고, 추측하건대 위 표의 첫 줄과 둘째 줄 사이쯤을 의미했을 가능성이 크다.

한 가지 흥미로운 함의가 있다. 위 표의 첫 줄 수준에 도달하면, 그 시점부터는 양자 컴퓨팅 관련 기술이 빠르게 국가 기밀의 영역으로 넘어갈 가능성이 크다. 현재 진행되는 국제 협력과 학술 교류는 한 만 큐비트 1만 분의 1 오류율 수준에 도달하기 전까지의 일이고, 그 너머는 보안 체계 자체를 흔드는 영역이기 때문이다.

가까운 미래 — 휴리스틱 양자 머신러닝

그러면 위 표의 둘째, 셋째 줄에 해당하는 영역에서 — 즉, 우리가 향후 5~10년 안에 실제로 손에 잡을 수 있는 하드웨어에서 — 양자 머신러닝은 무엇을 시도하고 있는가. 여기서는 양자 이득이 이론적으로 증명되지는 않지만, 실험적으로 의미 있는 결과를 얻을 수 있는 영역을 다룬다. 이런 접근을 "휴리스틱(heuristic)"이라고 부른다.

휴리스틱 양자 머신러닝을 이해하려면, 양자 컴퓨터를 다시 한 번 다른 각도에서 봐야 한다. n개 큐비트의 양자 시스템은 슈뢰딩거 방정식(Schrödinger equation)이라는 편미분 방정식을 따라 시간 진화한다. 이 방정식 자체는 선형이고, 형태도 단순하다. 다만 차원이 2의 n승으로 폭발할 뿐이다.

이 편미분 방정식의 시간 진화는 해밀토니안(Hamiltonian)이라고 부르는 어떤 행렬에 의해 결정된다. 그리고 양자 컴퓨터는 본질적으로 "이 해밀토니안을 우리가 원하는 모양으로 조절할 수 있는 장치"이다. 초기 상태를 우리가 원하는 상태로 준비하고, 해밀토니안을 어떤 시간 동안 적절히 조절한 다음, 측정해서 확률 분포를 읽는다.

비유 — 양자 컴퓨터는 일종의 신디사이저

양자 컴퓨터를 음악 신디사이저(synthesizer)에 비유해볼 수 있다. 신디사이저에는 여러 개의 손잡이(파라미터)가 있고, 우리는 그것을 조절해 원하는 소리(출력 확률 분포)를 만든다. 휴리스틱 양자 머신러닝은 손잡이를 무작위로 돌려보고, "원하는 음에 얼마나 가까운가"를 측정하고, 더 가까워지는 방향으로 손잡이를 다시 돌리는 일을 반복한다. 손잡이 자체가 깊은 이론적 보장을 주지는 않지만, 손잡이를 잘 돌리면 의외로 풍부한 출력을 만들어낼 수 있다.

이 관점에서 보면, 양자 컴퓨터는 두 종류의 최적화를 동시에 지원한다. 측정해서 얻은 비트 스트링은 이산적(discrete)이므로 이산 최적화에 자연스럽고, 해밀토니안 안의 실수 파라미터는 연속적(continuous)이므로 연속 최적화에도 쓸 수 있다.

이산 최적화 쪽으로 보면, 가장 유명한 형태가 큐버(Quadratic Unconstrained Binary Optimization, QUBO)이다. 제약 조건이 없는 이차식의 이진 변수 최적화 문제이다. 제약 조건이 있더라도 페널티 항(penalty term)을 도입하면 큐버 형태로 바꿀 수 있다. 그리고 이 큐버 문제는 통계물리학에서 잘 알려져 있는 이징 모형(Ising model)의 바닥 상태(ground state)를 찾는 문제와 정확히 일치한다. 즉, 어떤 이산 최적화 문제도 이론상 양자 시스템의 에너지 최소화 문제로 다시 쓸 수 있다.

데이터 형식이라는 골치 아픈 문제

양자 머신러닝을 실제로 응용하려고 할 때 가장 자주 부딪히는 벽은 알고리즘이 아니라 데이터 자체이다.

일반적으로 우리가 다루는 데이터 — 이미지, 음성, 텍스트, 센서 측정값 — 는 모두 디지털 컴퓨터가 다루기 좋게 이미 디지털화되어 있다. 이것을 양자 컴퓨터로 다루려면, 디지털화에 더해 또 다른 변환 — 양자화(quantization), 더 정확히는 양자 상태로의 인코딩 — 이 필요하다. 그리고 이 인코딩 비용이 매우 비싸다. 어떤 경우에는 알고리즘 자체에서 얻는 이득을 인코딩 비용이 모두 잠식해버릴 수도 있다.

비유 — 양자화 비용

고해상도 영상을 분석하는 특수 기계가 있다고 하자. 그런데 우리 자료는 종이에 그려진 그림뿐이고, 종이를 영상으로 바꾸는 과정 자체가 매우 비싸다고 가정하자. 기계가 영상을 처리하는 속도가 백 배 빠르더라도, 종이를 영상으로 바꾸는 비용이 그보다 더 들어버리면 우리는 차라리 종이 그대로 손으로 처리하는 편이 낫다. 고전 데이터를 양자 상태로 인코딩하는 과정이 바로 이런 함정이다.

반대로 데이터 자체가 처음부터 양자 역학적 상태로 주어진다면, 이야기는 완전히 달라진다. 예컨대 물리 실험실에서 어떤 분자나 물질의 양자 상태를 직접 측정·다루는 경우가 그렇다. 이때는 그 양자 데이터를 다시 디지털로 바꾸는 일이 오히려 비싸다. 자연계의 양자 정보를 그대로 양자 컴퓨터에 넘겨 처리하는 편이 훨씬 자연스럽고 효율적이다.

문제는 산업적으로 정말 가치 있는 데이터의 대부분은 고전 데이터라는 점이다. 그래서 양자 머신러닝이 단기적으로 가장 그럴듯한 시장은 — 적어도 양자 이득의 측면에서 — 물리·화학·생물 같은 자연 과학의 시뮬레이션이거나, 양자 센서의 데이터를 다루는 분야이다.

세 갈래 접근과 실제 적용 사례

오늘날 가까운 미래의 양자 컴퓨터에서 머신러닝을 시도하는 방법은 크게 세 갈래로 나뉜다.

1. 양자 커널 메소드

고전 머신러닝의 서포트 벡터 머신(Support Vector Machine, SVM)에 대응한다. 핵심 아이디어는 데이터를 매우 고차원의 공간으로 끌어올린 다음, 그 고차원 공간에서 선형 모델로 분류하는 것이다. 양자 컴퓨터는 본질적으로 데이터를 2의 n승 차원의 복소 벡터 공간으로 자연스럽게 임베딩하므로, 양자 회로(quantum circuit)는 그 자체로 "고차원 특징 추출기" 역할을 할 수 있다. 이 고차원에서의 내적이 곧 양자 커널(quantum kernel)이며, 이를 사용해 SVM과 동일한 방식의 분류기를 만들 수 있다.

이 접근으로 단백질-리간드(ligand) 결합 분류 문제를 다뤘던 한 연구가 흥미로운 사례를 보여준다. 단백질 표면에 어떤 작은 분자(리간드)가 얼마나 잘, 얼마나 오래 붙어 있는지를 분류하는 문제이다. 8큐비트 정도의 시뮬레이션 환경에서 양자 커널을 사용한 분류기가 고전 SVM에 견줄 만한 — 어떤 데이터셋에서는 더 나은 — 성능을 보였다. 신약 후보 물질 탐색에서 잠재력이 있는 영역으로 평가된다.

2. 변분 양자 알고리즘

변분 양자 알고리즘(Variational Quantum Algorithm, VQA)은 고전 딥러닝에 가장 가까운 양자 머신러닝 접근이다. 양자 회로 자체를 파라미터화된 모델 — 일종의 양자 신경망(Quantum Neural Network) — 로 보고, 회로 안의 파라미터를 데이터에 맞춰 학습한다.

핵심은 양자 회로 안의 파라미터에 대한 기울기(gradient)를 양자 컴퓨터 자체로 직접 계산할 수 있다는 점이다. 그래서 고전 딥러닝의 역전파(backpropagation)와 같은 기울기 기반 최적화를 양자-고전 하이브리드 형태로 그대로 가져올 수 있다. 또한 적절히 반복된 양자 회로는 푸리에 급수(Fourier series)와 비슷한 함수 표현을 만들어내며, 따라서 고전 신경망에 있는 보편 근사 정리(universal approximation theorem)와 유사한 성질을 가진다.

응용의 한 예가 이상 탐지(anomaly detection)이다. 양자판 Deep SVDD(Support Vector Data Description)에 해당하는 모델을 8큐비트 수준에서 시뮬레이션해 본 결과, 고전 Deep SVDD나 다른 양자 기법(QA)에 비해 일부 평가 지표에서 더 나은 성능을 보였다는 보고가 있다. 모델 파라미터의 개수 자체는 양자 쪽이 더 적었다는 점도 흥미롭다.

3. 이산 최적화

큐버 형태로 정리된 이산 최적화 문제를 양자 어닐러(quantum annealer)나 QAOA(Quantum Approximate Optimization Algorithm, 양자 근사 최적화 알고리즘)로 푸는 갈래이다. 이 접근으로 데이터 클러스터링(clustering) 문제를 다뤄본 사례가 있다. 클러스터링은 데이터 포인트들을 그룹으로 묶는 문제인데, 그룹 할당을 이진 변수로 인코딩하면 큐버 형태가 된다. 양자 어닐러를 사용해 약 175개 데이터 포인트의 클러스터링까지 다뤄본 결과가 보고되어 있다. K-평균(K-means) 같은 고전 알고리즘과 성능이 대체로 비슷하고, 일부 문제에서는 더 나은 결과를 보였다.

현 시점의 정직한 평가

175개 데이터 포인트의 클러스터링이 인상적인 숫자는 아니다. 어려운 문제도 아니다. 그러나 의미가 있는 이유는 이것이 "0이 아닌 값"이기 때문이다. 가시적으로 어떤 머신러닝 과제를 양자 하드웨어에서 풀어볼 수 있는 환경이 이제 막 마련되기 시작했다는 신호이다.

QAOA와 양자 어닐링, 무엇이 다른가

이산 최적화를 다루는 두 갈래 — QAOA와 양자 어닐링 — 은 자주 혼동되는데, 개념적으로는 사실상 같은 것이다.

양자 어닐링은 어떤 단순한 해밀토니안에서 시작해, 그 해밀토니안을 우리가 풀고자 하는 문제에 해당하는 해밀토니안으로 천천히 변화시키는 방법이다. 충분히 천천히 변화시키면 — 이른바 단열 조건(adiabatic condition) — 시스템은 처음의 바닥 상태를 따라가 최종 문제의 바닥 상태에 도달한다. QAOA는 같은 아이디어를 게이트 기반 양자 컴퓨터에서 흉내내기 위해, 그 연속적 시간 진화를 이산화한 근사이다.

두 방식의 차이는 미묘하지만 실질적이다.

	양자 어닐링	QAOA (게이트 기반)
오류 보정	알려진 방법 없음	가능 (게이트 기반의 장점)
현재 다룰 수 있는 큐비트 수	수천 개 (D-Wave 등)	수십~약 백 개 수준
풀 수 있는 문제 범위	큐버 중심으로 제한적	더 일반적인 문제 가능
장기적 전망	오류 보정 한계가 병목이 될 가능성	하드웨어 발전에 비례해 성장

역설적인 부분이 여기에 있다. 장기적으로는 게이트 기반 시스템과 QAOA 쪽이 오류 보정의 이점 덕분에 유리해질 것으로 예상되지만, 현재로서는 양자 어닐러가 다룰 수 있는 큐비트 수가 더 많다. 그래서 큐버 형태의 큰 문제를 일단 풀어보고 싶다면, 적어도 지금은 양자 어닐러가 더 실용적이다. 두 곡선이 어디에서 교차할지는 아직 분명하지 않다.

1950년대 퍼셉트론과 닮은 지금의 풍경

지금까지의 그림을 한 발 떨어져서 보면, 양자 머신러닝의 현재 상황은 1950년대 후반의 퍼셉트론(perceptron) 시기와 묘하게 닮아 있다.

퍼셉트론은 1950년대 말에 등장한 가장 초기의 신경망 모델이었다. 알파벳을 인식하는 정도의 단순한 시연이 가능했고, 학계와 대중의 관심을 받았다. 그러나 곧 비선형 문제를 풀 수 없다는 비판이 제기되었고, 큰 규모로 학습시킬 수 있는 하드웨어도, 안정적인 학습 알고리즘도 부족했다. 분야는 한동안 잠잠해졌다가, 수십 년 뒤 알고리즘(역전파)과 하드웨어(GPU)와 데이터(인터넷 규모의 데이터셋)가 동시에 갖춰지고 나서야 다시 살아났다. 우리가 지금 부르는 딥러닝이 바로 그 부활이다.

양자 머신러닝도 비슷한 단계에 있다. 어떤 선형적 머신러닝 모델을 양자 회로로 어떻게 구현할 수 있는지는 이론적으로 잘 알려져 있다. 그러나 그것을 충분히 큰 규모로 키워 학습시킬 수 있는 하드웨어가 부족하다. 비선형 문제를 어떻게 다룰 것인지, 큰 규모에서 효율적으로 학습시키는 방법은 무엇인지에 대한 이론적 질문들도 여전히 열려 있다.

머신러닝의 발전은 항상 알고리즘과 데이터와 하드웨어라는 세 다리 위에 서 있었고, 그중 어느 다리에서 돌파구가 나올 때마다 분야가 한 단계씩 도약했다. 양자 머신러닝 역시 마찬가지일 것이다. 현재로서는 알고리즘 쪽이 조금은 앞서 있고, 하드웨어와 양자 데이터 쪽이 뒤따라가는 형국이다.

인공지능의 발전사가 보여준 한 가지 교훈은, 모든 진전이 이론적 증명을 거쳐 일어난 것은 아니라는 점이다. 실험적으로 해보니 잘 되더라 — 이런 경험적 발견들이 누적되며 분야가 자라났다. 양자 머신러닝의 휴리스틱 갈래도 비슷한 방식으로 발전할 여지가 있다. 다만 그 과정에서 벤치마킹을 엄밀하게 — 어떤 고전 알고리즘과 어떤 조건에서 비교하는지를 분명히 — 해야 한다는 부담은 더 크다. 이론적 증명이 부재한 영역에서는, 실험적 정직함이 그만큼 더 중요해진다.

결국 양자 컴퓨터가 가까운 미래에 모든 계산 문제를 갑자기 풀어내지는 않을 것이다. 그러나 어떤 특정한 문제들 — 자연계의 양자 시뮬레이션, 일부 이산 최적화, 양자 데이터에 대한 머신러닝 — 에서 의미 있는 발판이 마련되어 가고 있고, 그 너머의 풍경은 하드웨어와 알고리즘이 동시에 한 걸음씩 나아가면서 천천히 드러날 것이다. 지금은 그 첫 걸음들을 정직하게 들여다볼 시기이다.