jacobhan.me

REPORT · 2026년 6월 5일

AI 브랜드 콘텐츠 제작 실전 가이드:
기획에서 이미지·영상까지

제품 사진과 상세페이지, 포스터, UGC 영상까지 — 생성형 AI로 브랜드 콘텐츠를 만드는 실전 워크플로우, 그리고 2026년부터 적용되는 표시 의무를 정리했다.

제품 사진 한 장, 상세페이지 한 벌, 광고 영상 한 편을 만드는 데 들던 시간과 비용이 생성형 인공지능(AI, Artificial Intelligence) 도구의 보급으로 빠르게 줄고 있다. 그런데 같은 도구를 쓰는데도 결과물의 격차는 오히려 벌어지는 중이다. 차이를 만드는 것은 도구의 선택이 아니라 작업의 순서다. 이 보고서는 1인 브랜드와 소상공인, 그리고 마케팅 실무자가 바로 적용할 수 있도록, 기획에서 출발해 제품 이미지·상세페이지·포스터·사용자 제작 콘텐츠(UGC, User Generated Content) 스타일 영상으로 이어지는 제작 워크플로우를 단계별로 정리하고, 2026년부터 시행된 AI 생성물 표시 의무까지 함께 다룬다.

1.기획이 절반이다: 순서가 결과를 가른다

실패하는 패턴은 대체로 같다. 도구를 열자마자 이미지부터 뽑는 것이다. 결과물은 그럴듯하지만 어디선가 본 듯하고, 무엇보다 자기 브랜드와 아무 관계가 없다. 생성 모델은 "예쁜 이미지"의 평균값을 내놓는 데 능하기 때문에, 방향을 정해 주지 않으면 누구의 것도 아닌 평균이 나온다.

실무에서 검증된 순서는 정반대다. 이미지 생성은 마지막 단계이고, 첫 단계는 정의와 조사다. 무엇을, 누구에게, 어떤 인상으로 팔 것인지를 먼저 정하고, 그다음에 브랜드와 제품을 조사하고, 참고할 결과물의 구조를 분석한 뒤에야 프롬프트(prompt, 생성 지시문)를 쓴다. 숙련자일수록 첫 하루는 이미지를 한 장도 만들지 않고 기획에만 쓰는 경우가 많다. 프롬프트는 기획의 출력물이지, 기획의 대체물이 아니다.

기획이 막막할 때 가장 실용적인 방법은 레퍼런스 조합법이다. 잘하는 브랜드 하나를 통째로 따라 하는 것이 아니라, 여러 브랜드에서 요소를 분해해 가져오는 방식이다. 카피라이팅의 어조는 A 브랜드에서, 색감은 B 브랜드에서, 사진 콘셉트는 C 브랜드에서 가져와 자기 제품에 맞게 재조합한다. 통째로 옮기면 모방이지만, 요소 단위로 분해해 다른 맥락에 재배치하면 그 조합 자체가 자기 브랜드의 정의가 된다. 그리고 이 분해와 재조합 작업이야말로 대화형 AI가 가장 잘 거드는 영역이다. "이 두 이미지의 색 운용 차이를 설명해 달라", "이 카피의 어조를 형용사 다섯 개로 정리해 달라" 같은 요청은 사람에게 시키면 민망하지만 AI에게는 몇 초짜리 일이다.

아래 그림은 이 보고서 전체를 관통하는 작업 흐름이다. 핵심은 두 가지다. 첫째, 생성은 다섯 단계 중 네 번째에 온다. 둘째, 한 번 검증된 흐름은 매번 손으로 반복하지 않고 템플릿으로 굳힌다.

① 기획·조사 무엇을·누구에게 ② 구조 정의 레퍼런스 역분석 ③ 프롬프트 작성 요소를 지시문으로 ④ 생성·선별 여러 번 뽑아 고른다 ⑤ 템플릿화 커스텀 챗봇으로 수정 지시 루프 (짧게, 여러 번)
그림 1. 제작 워크플로우 5단계. 생성(④)은 네 번째 단계이며, 검증된 흐름은 템플릿(⑤)으로 굳혀 재사용한다.

2.2026년 중반의 도구 지형

워크플로우를 다루기 전에 도구의 현재 위치를 짚어 둔다. 불과 1~2년 전까지 실무의 최대 난제였던 두 가지, 즉 컷이 바뀌어도 같은 인물을 유지하는 문제(캐릭터 일관성)와 이미지 속 한글이 깨지는 문제는 최신 세대 모델에서 대부분 해소됐다. 이미지 모델은 생성 전에 내부적으로 구도를 계획하는 추론 단계를 거치기 시작했고, 영상 모델은 화면과 음성을 한 번에 만들어 낸다.

이미지 생성 모델개발사최신 버전·시점실무 관점의 특징
GPT 이미지(gpt-image-2,
ChatGPT Images 2.0)
오픈AI2026년 4월생성 전 추론 단계를 거쳐 구도·텍스트 배치를 계획. 다국어 텍스트 렌더링과 2K 해상도 지원. 결과물에 콘텐츠 출처 표준(C2PA, Coalition for Content Provenance and Authenticity) 메타데이터 자동 삽입
나노 바나나 프로
(Gemini 3 Pro Image)
구글 딥마인드2025년 11월최대 4K 출력, 강한 캐릭터 일관성, 스튜디오급 카메라·조명 제어, 검색 연동을 통한 실시간 정보 시각화. 정밀 편집·고품질 시안에 적합
나노 바나나
(Gemini 2.5 Flash Image)
구글 딥마인드2025년 8월속도 중심의 경량 모델. 자연어로 사진 일부만 고치는 부분 편집에 강점. 대량 시안의 초벌 작업용

이 밖에 Midjourney, FLUX 등 화풍 특화 모델이 별도의 선택지로 존재한다.

영상 생성 모델개발사최신 버전·시점실무 관점의 특징
Seedance 2.0바이트댄스2026년 2월텍스트·이미지·오디오·영상을 동시에 참조(이미지 최대 9장)하는 멀티모달 구조. 4~15초, 음성·효과음 동기 생성, 물리 묘사에 강점. 일부 요금제는 초당 0.1달러 수준까지 단가가 내려와 대량 광고 소재 제작에 적합
Kling 3.0콰이쇼우2026년 2월최대 15초·4K. 참조 영상의 움직임을 추출해 새 영상에 입히는 모션 컨트롤, 한 번의 생성으로 여러 컷을 잇는 멀티샷. Omni 버전은 영상과 음성을 동시 생성하며 다국어 립싱크 지원
Sora 2오픈AI2025년 가을영상·오디오 동시 생성과 물리 일관성 개선. 소셜 앱 형태의 배포로 짧은 콘텐츠 제작·확산에 초점
Veo 3.1구글 딥마인드2025년 하반기네이티브 오디오 생성. 자체 영상 제작 도구(Flow)와의 연계로 컷 편집까지 한 흐름에서 처리

이 밖에 가상 진행자(아바타)가 대본을 읽어 주는 형태의 영상 서비스군이 별도로 존재하며, 다국어 더빙·립싱크 중심의 양산형 광고에 쓰인다.

도구 선택보다 중요한 사실이 하나 있다. 위 표의 모델들은 반년 단위로 세대가 바뀌고 있으며, 어떤 모델이 우위인지는 발표 시점마다 뒤집힌다. 따라서 특정 도구의 조작법보다는, 어떤 도구가 와도 그대로 적용되는 작업 방법론을 익히는 편이 오래간다. 이하의 내용이 그 방법론이다.

3.제품 사진: 스케치에서 화보까지

3-1. 스케치 + 원단 한 장이면 목업이 나온다

제조 기반의 작은 브랜드에서 가장 먼저 체감되는 변화는 시제품 이전 단계다. 손으로 그린 제품 스케치와 원단(소재) 사진 두 장을 입력하면, 형태를 유지한 채 소재를 입힌 제품 목업(mock-up, 실물 모형 이미지)이 나온다. 가방이라면 전면과 후면을 한 화면에 배치해 달라고 지시해 양산 전 디자인 회의 자료나 사전 수요 조사용 이미지로 바로 쓸 수 있다. 봉제 한 번 없이 "이 원단이면 어떤 느낌일까"를 눈으로 확인하는 셈이어서, 소재 선정 단계의 시행착오 비용이 크게 줄어든다.

프롬프트 골격 — 제품 목업 첨부한 스케치의 형태와 비례를 유지한 채, 두 번째 이미지의 원단을 입혀 실물 제품처럼 만들어 줘. 전면과 후면 뷰를 2×2 그리드로 배치하고, 봉제선과 입체감이 살아나도록.

3-2. 제품 중심 광고컷의 프롬프트 문법

제품 사진에서 반복적으로 검증된 지시 요소는 다섯 가지로 정리된다.

  1. 주인공을 명시한다. "제품이 주인공이고 인물은 보조"라고 적는 한 줄이 결과를 가장 크게 바꾼다. 이 지시가 없으면 모델은 습관적으로 인물 중심 구도를 잡고, 제품은 소품으로 밀려난다.
  2. 얼굴을 노출하지 않는다. 손이나 뒷모습만 등장시키면 시선이 제품에 머물고, 가상 인물의 외모에 대한 호불호와 초상 관련 쟁점도 함께 피해 간다.
  3. 조명을 언어로 지정한다. "부드럽게 확산된 자연광" 계열의 표현이 제품컷의 기본값이다. 강한 직사광은 그림자와 질감 왜곡을 만들기 쉽다.
  4. 배경은 흰색 또는 저채도 미니멀로 비운다.
  5. 구도는 그리드와 여백으로 지시한다. 상세 컷 여러 장이 필요하면 한 화면 그리드로 받아 한 번에 비교한다.

운용 원칙도 하나 있다. 같은 프롬프트로 한 번만 뽑고 평가하지 말고, 네댓 번 생성해 베스트 컷을 고른다. 생성 모델은 한 발 한 발이 승부인 사격이 아니라 연사 촬영에 가깝다. 사진가가 수백 장을 찍어 한 장을 고르듯, 생성과 선별을 한 묶음의 작업으로 봐야 한다. 간혹 제품 일부가 떠 있는 것처럼 보이는 등의 어색한 결과가 섞여 나오는데, 이는 프롬프트의 실패가 아니라 선별로 걸러 낼 표본의 일부다.

3-3. 모델컷: 포즈는 참조 사진으로, 디테일은 보존 지시로

인물이 등장하는 착용컷에서 자세를 말로 묘사하기는 의외로 어렵다. 해결책은 묘사 대신 참조다. 원하는 자세가 담긴 사진을 첨부하고 "자세와 구도는 유지하고 인물과 의상은 교체"라고 지시하면, 모델은 포즈의 골격만 가져오고 사람과 스타일링은 새로 만든다. 계절감 같은 무드를 함께 지정하면 의상까지 맥락에 맞게 알아서 바꾼다.

이때 빠뜨리기 쉬운 것이 제품 디테일 보존 지시다. 생성 모델은 대상을 '그럴듯하게' 다듬으려는 경향이 있어서, 가죽의 자연스러운 구김, 스티치, 로고 위치 같은 실물의 특징을 매끈하게 지워 버리곤 한다. "원본 제품의 구김과 질감을 그대로 반영"이라는 한 줄을 넣어야 실물과 같은 제품이 나온다. 이는 미감의 문제만이 아니다. 실물과 다른 제품 사진은 판매 단계에서 표시·광고 규제의 문제로 번질 수 있다(8장에서 다룬다).

프롬프트 골격 — 포즈 참조 모델컷 첨부한 참조 사진의 자세와 카메라 구도는 그대로 유지하고, 인물과 의상은 여름 무드에 맞게 교체해 줘. 제품(가방)은 원본 사진의 가죽 구김과 스티치, 로고 위치를 그대로 반영. 제품이 주인공이고 인물은 프레임에서 살짝 비껴난 자세.

3-4. 상세페이지를 통째로 기획시킨다

커머스 상세페이지는 컷 한 장이 아니라 이미지의 흐름이다. 후킹 컷으로 멈춰 세우고, 디테일 컷으로 납득시키고, 연출 컷으로 욕망하게 하고, 클로징 컷으로 행동을 유도하는 구성 말이다. 이 구성 자체를 AI에 맡길 수 있다. 제품명과 사진만 주고 "소셜미디어 캐러셀(carousel, 옆으로 넘기는 다중 이미지)형 상세 이미지 세트를 기획해 달라"고 하면, 각 컷의 역할과 카피("작지만 충분하다" 류의 디테일 카피, "저장해 두고 계절에 매치하세요" 류의 클로징 카피)까지 포함된 세트가 나온다. 과거 디자인 도구에서 며칠 걸리던 기획·시안 작업이 한 번의 대화로 초안 수준에 도달하는 것이다.

다만 초안을 한 번에 완성본으로 기대하면 안 된다. 실무 요령은 수정 지시를 짧게 여러 번 도는 것이다. "컷당 이미지는 한 장만", "모바일 세로 비율로", "한글 폰트 크기를 지금의 두 배로", "이 카피는 삭제" 같은 단문 지시를 반복하면 서너 바퀴 안에 게시 가능한 수준이 된다. 한 번의 긴 지시문보다 짧은 지시 여러 번이 빠르고 정확하다.

4.레퍼런스 역분석: 결과물에서 프롬프트 구조를 추출한다

좋은 프롬프트를 백지에서 쓰는 일은 숙련자에게도 어렵다. 더 빠른 길은 거꾸로 가는 것이다. 완성도 높은 레퍼런스(포스터, 화보, 광고 이미지)를 모델에 입력하고 이렇게 묻는다. "이 이미지를 재현하려면 어떤 요소를 어떤 구조로 지정해야 하는지 분석해 달라." 그러면 모델이 그 이미지를 구성 요소로 분해한 구조표를 내놓는다. 프롬프트를 사람이 발명하는 대신, 결과물에서 추출하는 접근이다.

비유 — 맛집 요리의 역추적

잘 만든 포스터를 분석시키는 일은, 맛집에서 인상 깊게 먹은 요리를 들고 셰프에게 "이 맛의 구성 요소를 분해해 달라"고 부탁하는 것과 같다. 받는 것은 완성된 요리(이미지)도, 그 요리 하나의 레시피(프롬프트)도 아니다. 단맛·산미·불향 같은 구성 요소의 목록과 비율, 즉 구조다. 구조를 손에 쥐면 재료(피사체)가 바뀌어도 같은 격의 요리를 다시 만들 수 있다.

분석을 시키면 대체로 다음과 같은 축이 나온다. 피사체의 유형·질감·온도감, 무드, 스타일, 타이포그래피, 색 팔레트, 구도와 여백. 이 가운데 처음에 가장 헷갈리는 것이 무드와 스타일의 구분인데, 무드는 보는 사람이 느끼는 분위기를 형용사로(우아한, 따뜻한, 고요한), 스타일은 표현 기법을 명사로(연필 스케치, 필름 사진, 3D 렌더) 적는다고 정리하면 쉽다. 디자인 용어가 낯설면 그것조차 물으면 된다. "네가 이미지 생성에서 인식하는 디자인 요소들을 설명해 달라"고 하면 용어 학습 자체를 분석 도구가 대신해 준다.

구조표가 만족스러우면 다음 단계는 템플릿화다. "이 구조로 어떤 피사체든 넣을 수 있는 최종 프롬프트 템플릿을 제안해 달라"고 요청한 뒤, 템플릿에 새 피사체 사진을 넣어 시안을 받는다. 이때 한 방향이 아니라 네 방향으로 받는 것이 요령이다. 미니멀, 러블리, 모던, 컬러 배경처럼 콘셉트 축을 달리한 A·B·C·D 시안을 한 번에 생성해 비교하면, 어느 방향이 제품과 맞는지 감이 아니라 눈으로 판단할 수 있다. 빵 사진 한 장을 넣어 프랑스 베이커리풍, 캐주얼풍, 저채도 디저트풍 시안을 동시에 받는 식이다. 이미지를 수십 장 넣고 빼며 구조를 다듬는 데 반나절이 들 수 있지만, 한 번 완성된 구조는 이후 모든 제품에 재사용된다.

완성도 높은 레퍼런스 포스터·화보 이미지 분석 요청 구조 스키마 · 피사체 유형 · 질감 · 온도감 · 무드 (분위기 형용사) · 스타일 (표현 기법) · 타이포그래피 · 색 팔레트 / 구도 · 여백 템플릿 제안 프롬프트 템플릿 피사체만 바꿔 재사용 새 피사체 투입 → 콘셉트 축을 달리한 시안 4종 시안 A 미니멀 시안 B 러블리 시안 C 모던 시안 D 컬러 배경
그림 2. 레퍼런스 역분석. 잘 만든 결과물에서 구조 스키마를 추출하고, 이를 템플릿으로 굳혀 시안 4종을 병렬 생성한다.

구조에도 국적이 있다: 도메인 적합성

역분석에서 주의할 점이 하나 있다. 추출된 구조는 그 레퍼런스가 속한 도메인의 문법이라는 사실이다. 저채도·미니멀·여백 중심의 구조는 서구권 카페·디저트 포스터에서 추출된 문법이다. 이 구조에 매운 한식 볶음 요리를 그대로 넣으면 어울리지 않는다. 매운 요리의 핵심은 강렬한 붉은 색, 불맛의 인상, 어두운 배경 위의 굵은 붓글씨 계열 한글 타이포그래피이기 때문이다.

흥미로운 점은 최근 모델들이 이 부조화를 스스로 감지한다는 것이다. 미니멀 구조의 템플릿에 매운 볶음 요리를 넣으면 "이 음식은 부드러운 미니멀보다 강한 매운맛과 붉은 색이 핵심이므로 어두운 배경과 굵은 한글 타이포가 적합하다"는 취지로 구조를 보정해 제안하는 경우가 실제로 관찰된다. 그래도 안전한 방법은 도메인이 바뀌면 그 도메인의 레퍼런스로 역분석을 다시 하는 것이다. 정제된 카페 포스터와 달리 로컬 식당의 포스터는 날것의 타이포그래피와 약간의 유머가 통하는 영역이라, 출발점이 되는 구조 자체가 다르다. 한식 자영업 비중이 높은 국내 시장에서는 이 '한국적 푸드 포스터 구조'를 따로 만들어 두는 것이 실용 가치가 크다.

5.브랜드 조사에서 광고 소재까지: 반자동 파이프라인

광고 소재 제작은 입력을 최소화할수록 파이프라인의 가치가 커진다. 검증된 흐름은 판매 페이지 링크 하나와 제품 실사 한 장에서 출발한다.

  1. 브랜드·제품 조사. 링크를 주고 제품의 핵심 특징과 구매 후기에서 반복되는 표현을 정리시킨다. 카피의 원료는 만드는 사람의 머릿속이 아니라 이미 구매한 사람들의 언어에 있다.
  2. 소재 유형 추천. 판매 채널과 목적에 맞는 소재 형식을 제안받는다. 오픈마켓 판매라면 구매 전환형 제품 광고, 인지도 단계라면 무드 중심 소재라는 식으로, 채널의 목적과 형식을 먼저 맞춘다.
  3. 카피 세트. 메인 카피, 서브 카피, 그리고 행동 유도 버튼(CTA, Call To Action) 문구까지 한 묶음으로 받는다. "장바구니가 아니라 손이 먼저 가게"가 목표라면, 카피·배경색·버튼 문구가 한 방향을 보고 있어야 한다.
  4. A·B·C·D 4안 생성. 같은 제품을 서로 다른 설득 축으로 변주한다. 기능 강조형, 미니멀형, 감성형, 그리고 네거티브형(제품이 없을 때의 불편을 보여 주는 방식)이 흔한 조합이다. 모델은 제품 패키지의 색과 형태를 읽어 톤을 알아서 맞추므로, 시안 단계에서 디자이너 손을 거치지 않아도 비교 가능한 수준이 나온다.

네 가지 안을 만드는 이유는 취향이 아니라 측정 때문이다. 광고에서 어떤 소재가 통할지는 만든 사람도 모른다. 그래서 두 가지 이상을 동시에 내보내 반응을 비교하는 A/B 테스트가 표준 절차다. 원칙은 단순하다. 한 번에 한 변수만 바꾸고, 동일한 예산과 기간으로 돌리고, 클릭률(CTR, Click-Through Rate)과 전환율(CVR, Conversion Rate)로 판정한다. 소액 예산이라면 4안을 동시에 짧게 돌려 2안으로 좁히고 다시 맞붙이는 토너먼트 방식이 현실적이다. AI가 바꾼 것은 테스트의 원리가 아니라 시안의 생산 단가다. 과거에는 4안을 만드는 비용 때문에 테스트 자체를 포기했다면, 이제는 4안이 기본값이 된다.

비유 — 시식 코너

A/B 테스트는 마트 시식 코너와 같다. 두 가지 양념의 같은 요리를 나란히 내놓고 어느 접시가 먼저 비는지 보는 것이다. 손님에게 "어느 쪽이 맛있을 것 같으세요?"라고 묻는 설문(감과 회의)보다, 실제로 집어 가는 손(클릭과 구매)이 정확하다. AI는 이 시식용 접시를 사실상 무한정 만들어 주는 주방이다.

검증된 흐름은 커스텀 챗봇으로 굳힌다

위 파이프라인을 매번 처음부터 대화로 지시하는 것은 낭비다. 같은 작업이 두세 번 반복되어 흐름이 검증됐다면, 역할·지침·출력 형식을 문서로 고정해 커스텀 챗봇으로 만든다. 챗GPT의 GPTs, Claude의 프로젝트와 스킬 기능처럼 주요 서비스가 모두 비슷한 기능을 제공한다. "광고 소재 디렉터"라는 챗봇에 소재 유형 10여 종의 템플릿과 작업 순서를 지침으로 박아 두면, 이후에는 링크와 사진만 던져도 조사부터 4안 생성까지 자동으로 흐른다.

지침서 작성 자체도 AI에 맡길 수 있다. 잘 나온 결과물과 그 구조 분석을 주고 "이 작업을 수행하는 역할과 지침 문서로 정리해 달라"고 하면 초안이 나온다. 지침을 다듬는 데 하루를 쓰면, 이후 건당 처리 시간은 분 단위로 떨어진다. 처음의 기획이 어렵고 지루한 만큼, 한 번 깎아 둔 지침의 복리 효과는 크다.

비유 — 매뉴얼을 외운 전담 직원

매번 대화로 지시하는 것이 그때그때 아르바이트생에게 일을 처음부터 설명하는 것이라면, 커스텀 챗봇은 업무 매뉴얼을 통째로 숙지한 전담 직원을 채용하는 것이다. 교육(지침서 작성)에는 하루가 들지만, 그날 이후로는 "이 링크 처리해 주세요" 한마디면 된다.

이 방식은 마케팅 부서 바깥에서도 통한다. 지침에 브랜드 키트, 즉 로고 파일과 메인 컬러 값, 서체 가이드를 포함해 두면, 디자이너가 아닌 인사·총무 부서도 신규 입사자 안내 배너나 사내 공지 이미지를 브랜드 가이드에 맞게 직접 산출할 수 있다. 회사의 시각 정체성이 디자이너의 손이 아니라 지침 문서에 들어 있게 되는 셈이다.

6.UGC 스타일 영상: 이미지 세 장으로 광고 만들기

UGC(User Generated Content, 사용자 제작 콘텐츠)는 원래 일반 소비자가 자발적으로 올린 후기 콘텐츠를 가리키는 말이다. 광고 시장에서 이 형식이 강세인 이유는 분명하다. 매끈하게 과잉 제작된 기업형 광고에 대한 피로가 누적되면서, 친구가 찍어 보낸 듯한 영상이 오히려 시청 지속과 전환에서 앞서는 역전이 일어났기 때문이다. 문제는 진짜 사람을 섭외해 촬영·편집하는 비용과 시간이었고, 이 병목을 생성형 AI가 치웠다. 현재 검증된 제작 흐름은 세 단계다.

① 장면 컷 생성 이미지 모델 · 동일 인물 유지 장면 1 — 걸으며 말하기 셀피 구도, 카메라에 화법 장면 2 — 사용 부위 클로즈업 제품은 프레임 밖에 장면 3 — 생활 공간 연출 제품 들고 자연스러운 미소 ② 장면별 프롬프트·대사 대화형 LLM · 장면 묘사 (카메라·동선) · 구어체 대사 작성 · 불완전성 지시 (7장) ③ 클립 생성·선별 영상 모델 (이미지 + 프롬프트) · 모델 2종 이상에 동일 입력 · 베스트 테이크 채택 · 컷 편집 · 자막 · 표시(8장)
그림 3. UGC 스타일 영상 파이프라인. 정지 이미지로 장면을 먼저 확정하고, 언어 모델로 연출을 쓰고, 영상 모델로 움직임을 입힌다.

1단계 — 장면 컷을 정지 이미지로 먼저 확정한다

영상 모델에 곧장 텍스트를 넣어 한 번에 영상을 받는 방식은 통제가 어렵다. 안정적인 방법은 이미지를 거쳐 가는 것이다. 먼저 이미지 모델의 동일 인물 유지 기능으로 가상 모델 한 명을 확정하고, 그 인물로 장면별 정지 컷을 만든다. 화장품류라면 걸으며 카메라에 말하는 셀피 구도(장면 1), 제품을 프레임 밖에 두고 피부 같은 사용 부위만 보여 주는 클로즈업(장면 2), 침실 같은 생활 공간에서 제품을 들고 웃는 컷(장면 3)이 전형적 구성이다. 장면 2에서 제품을 일부러 가리는 데는 이유가 있다. 생성 과정에서 제품 외형이 왜곡될 위험을 차단하고, 컷 사이에 시각적 리듬을 만들기 위해서다.

2단계 — 연출과 대사는 언어 모델로 쓴다

각 정지 컷을 어떻게 움직일지, 즉 장면 묘사와 대사는 대화형 대규모 언어 모델(LLM, Large Language Model)에 맡긴다. 장면 1·2·3의 연속성을 설명하고 "걸으면서 말하는 호흡으로, 친구에게 말하듯" 같은 연출 지시와 함께 구어체 대사를 받는다. "피부 컨디션이 최악일 때 이것만 바르는데, 바르자마자 속건조가 잡히는 게 느껴진다" 같은 후기형 문장이 이 형식의 표준 화법이다. 흥미롭게도 코딩용 에이전트형 도구가 장면 묘사를 구조적이고 길게 잘 써 주어, 영상 프롬프트의 초안 작성기로 쓰이는 사례도 늘고 있다.

3단계 — 같은 입력을 두 모델 이상에 넣어 비교한다

완성된 이미지와 프롬프트를 영상 모델에 넣되, 한 모델만 신뢰하지 않는 것이 요령이다. 인물의 연기 톤, 립싱크 정확도, 손 동작의 자연스러움은 모델마다 강점이 다르고 세대마다 순위가 뒤집힌다. 동일 입력을 두세 모델에 넣어 베스트 테이크를 고르는 비용은 이제 충분히 낮다.

기획의 유무가 만드는 차이: 15초 광고 실험

같은 도구로 기획만 달리한 비교는 시사적이다. 아무 설정 없이 "청춘 콘셉트의 15초 광고 영상"이라고만 지시하면, 문법적으로는 완성됐지만 어느 브랜드에 붙여도 무방한 범용 영상이 나온다. 반면 인물의 성격과 배경(예: 사연이 있어 시골로 내려온 소년과, 대가족 속에서 자란 해맑은 소녀), 둘의 관계 변화, 그리고 9컷 스토리보드를 먼저 만들어 컷 단위로 생성하면 톤이 일관되고 이야기가 생긴다. 카메라 앵글 같은 기술 요소는 "콘셉트에 맞게 알아서"라고 위임해도 모델이 무난히 처리한다. 사람이 쥐고 있어야 하는 것은 앵글이 아니라 설정과 감정선이다. 외국어 대사의 립싱크가 어색하면 대사를 빼고 음악과 자막으로 가는 것도 연출 판단에 속한다.

마지막으로, 좋은 연출 지시는 관찰에서 나온다. 실제 광고 영상 속 인물들은 카메라를 정면으로 의식하지 않는다. 제품을 바르기 전에 손등을 먼저 내려다보고, 시선이 잠깐 화면 밖으로 흘렀다 돌아온다. 이런 동작의 문법을 관찰해 언어로 옮기는 일이 프롬프트 작성의 본체다. 좋은 프롬프트는 결국 좋은 관찰의 번역이다.

7.'AI 티'를 지우는 기술: 불완전함을 지시한다

생성 모델의 기본값은 '잘 찍힌 사진의 평균'이다. 학습 데이터에서 고품질로 분류된 이미지는 정돈된 스튜디오 사진 쪽으로 쏠려 있고, 모델은 아무 지시가 없으면 그 평균을 향해 수렴한다. 그래서 그냥 뽑은 결과물에는 특유의 광택이 돈다. 피부는 지나치게 매끈하고, 조명은 빈틈없이 고르고, 구도는 교과서적이다. 역설적이게도 이제는 그 완벽함이 곧 'AI 티'다.

해법은 불완전함을 명시적으로 지시하는 것이다. "핸드헬드로 미세하게 흔들리는", "조명이 고르지 않은 실내 자연광", "말하는 도중 입 모양이 한 번 어정쩡해지는", "한쪽 팔이 살짝 어색한", "프레이밍이 약간 비뚤어진" 같은 표현이 그것이다. 요령은 한두 개가 아니라 여러 개를 겹쳐 지시하는 것이다. 불완전성 지시가 약하면 모델은 금세 평균의 매끈함으로 되돌아간다. 분포의 중심이 아니라 가장자리를 샘플링하도록, 일상 영상의 통계적 특징을 충분한 강도로 적어 줘야 한다.

프롬프트 골격 — UGC 셀피 영상의 불완전성 지시 한 손에 제품을 든 20대 후반 여성이 걸으며 카메라를 향해 말하는 셀피 영상. 핸드헬드로 미세하게 흔들리고, 말하는 도중 입 모양이 한 번 어정쩡해지며, 시선이 잠깐 카메라를 벗어났다 돌아온다. 조명은 고르지 않은 실내 자연광, 프레이밍은 약간 비뚤어지게.
비유 — 증명사진과 친구의 스냅

스튜디오 증명사진은 완벽하지만 아무도 그 사진을 보고 그 사람을 안다고 느끼지 않는다. 신뢰를 만드는 것은 친구가 대충 찍어 준, 머리가 조금 흐트러진 스냅 쪽이다. 광고에서도 같다. 시청자가 후기라고 믿는 영상의 조건은 완성도가 아니라 적당한 허술함이며, 이제는 그 허술함조차 설계의 대상이다.

품질 인식의 역사는 짧은 기간에 세 번 뒤집혔다. 초기에는 조악한 쪽이 AI였고, 그다음에는 지나치게 반들반들한 쪽이 AI였다. 그리고 거칢까지 지시할 수 있게 된 지금은, 화면만 보고 구분하는 일이 사실상 어려워졌다. 해외 광고 이미지의 모델이 실존 인물인지 생성 인물인지 업계 종사자도 가려내지 못하는 단계다. 이 변화의 실무적 함의는 두 가지다. 첫째, 형용사와 부사를 정밀하게 고르는 능력, 즉 글을 다루는 능력이 연출력의 핵심이 됐다. 거칠고 어정쩡한 것을 언어로 정확히 지시할 수 있는 사람이 유리하다. 둘째, 화면으로 구분이 안 되기 때문에 제도가 표시를 요구하기 시작했다. 다음 장의 내용이다.

8.2026년, 만들었으면 표시해야 한다

2026년 1월 22일, 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」(이른바 AI 기본법)과 시행령이 시행됐다. AI 관련 포괄 입법으로는 유럽연합(EU, European Union)에 이어 두 번째지만, 규범을 전면 적용한 시점으로는 한국이 가장 빠른 축에 속한다. 브랜드 콘텐츠 제작자에게 직접 닿는 부분은 투명성 확보 의무다. 생성형 AI를 이용한 제품·서비스를 제공할 때 그 사실을 이용자에게 사전 고지해야 하고, AI 생성물에는 이를 알 수 있는 표시를 해야 한다. 실존 인물을 합성하는 딥페이크류 결과물은 누구나 명확히 인식할 수 있는 방식으로 표시해야 하며, 그 외의 AI 결과물은 눈에 보이지 않는 디지털 워터마크 방식도 허용된다. 표시 의무를 위반하면 시정명령 대상이 되고, 불이행 시 최대 3천만 원의 과태료가 부과될 수 있다.

광고 영역에서는 공정거래위원회가 별도로 움직였다. 2026년 들어 「추천·보증 등에 관한 표시·광고 심사지침」 개정에 나서면서 추천·보증의 주체로 '가상인물'을 명문화했고, 개정안에 따르면 AI로 만든 가상인물이 등장하는 사진·영상 광고에는 인물이 등장하는 동안 인물 인근에 '가상인물' 표시를 해야 한다. 더 중요한 대목은 그다음이다. 가상인물임을 밝혔더라도, 실제 사용 경험에 기반한 추천처럼 표현했는데 그 내용이 사실과 다르면 부당광고로 판단될 수 있다. 6장에서 다룬 UGC 스타일 후기 영상이 정확히 이 지점에 걸린다. 가상 모델이 "발라 보니 속건조가 잡혔다"고 말하는 영상은, 그 효능 주장이 실제 제품 성능으로 뒷받침되지 않으면 표시 여부와 무관하게 문제가 된다.

기술적 표시도 알아 둘 필요가 있다. 주요 생성 도구는 결과물에 C2PA(Coalition for Content Provenance and Authenticity, 콘텐츠 출처·진위 표준) 메타데이터를 자동으로 심는다. 파일 어딘가에 생성 이력이 남아 있다는 뜻이고, 이를 지웠다고 해서 표시 의무가 사라지는 것도 아니다. 해외 타깃 광고라면 EU의 인공지능법(AI Act)도 변수다. 2026년 8월부터 적용되는 투명성 조항(제50조)은 AI 생성 콘텐츠의 고지를 요구하며, 예술·풍자물에 허용되는 완화된 표시의 예외가 상업 광고에는 적용되지 않는다.

실무 체크리스트로 정리하면 다음과 같다.

9.맺으며

이 보고서의 워크플로우를 한 단락으로 줄이면 이렇다. 이미지를 만들기 전에 브랜드와 제품을 조사하고, 잘 만든 레퍼런스에서 구조를 역분석해 프롬프트 템플릿을 만들고, 콘셉트 축을 달리한 시안 4종을 병렬 생성해 측정으로 고르고, 검증된 흐름은 커스텀 챗봇으로 굳혀 재사용한다. 영상은 정지 컷으로 장면을 먼저 확정한 뒤 언어 모델로 연출을 쓰고, 불완전함을 의도적으로 지시해 후기의 질감을 만들고, 집행 전에 표시 의무를 점검한다.

생성 단가가 떨어질수록 가치는 생성의 앞과 뒤로 이동한다. 앞에는 조사와 구조 정의, 동작의 관찰이 있고, 뒤에는 선별과 검증, 표시 준수가 있다. 도구는 반년마다 바뀌어도 이 양 끝의 일은 바뀌지 않는다. 그리고 그 일의 공통 재료는 결국 언어다. 무드를 형용사로 분해하고, 어색함을 부사로 지시하고, 효능 주장을 근거와 대조하는 일 모두가 그렇다. 화면을 만드는 도구가 흔해진 시대에, 화면을 정의하는 언어가 작업의 중심에 남았다.