본문 바로가기

KPMG Future Academy 6기

(삼정 KPMG future academy 6기 수업) - 16. 추천 시스템

1. 추천시스템이란?

추천시스템(Recommender System)은 사용자의 과거 행동, 선호, 특성 데이터를 기반으로 개인 맞춤형 콘텐츠나 상품을 제안하는 인공지능 시스템, 현대의 온라인 서비스는 방대한 정보 속에서 사용자가 필요한 것을 쉽게 찾을 수 있도록 돕기 위해 추천시스템을 적극적으로 도입

  • 대표적인 활용 예시
    • 넷플릭스·유튜브: 시청 기록 기반 콘텐츠 추천
    • 아마존·쿠팡: 구매 이력 기반 상품 추천
    • 멜론·스포티파이: 음악 취향 분석을 통한 개인 맞춤 플레이리스트 제공
  • 추천시스템의 궁극적인 목적 : 사용자 만족도 향상, 체류 시간 증가, 매출 증대

 

2. 추천시스템에 사용되는 데이터 유형

추천시스템이 작동하기 위해서는 다양한 형태의 데이터가 필요하다. 대표적으로 세 가지 유형으로 구분

데이터 유형 설명  예시
명시적 데이터 (Explicit Data) 사용자가 직접 표현한 선호도 평점, 좋아요, 리뷰
암묵적 데이터 (Implicit Data) 사용자의 행동으로부터 추론한 정보 클릭, 재생 시간, 조회, 구매 이력
콘텐츠 메타데이터 (Metadata) 아이템의 속성 정보 장르, 감독, 키워드, 출연자

이 데이터를 기반으로 사용자의 선호 패턴을 분석하고 예측 모델을 학습

 

  • 정확한 취향 타겟 : 유튜브, 넷플
  • 노출 중요 : 쿠팡, 요기요
  • 하나만 잘 걸려라~ : 채용, 부동산 등

* 쇼핑몰 재주문율 하락, 새로운 아이템 노출 저조 (문제 발견) -> 로그 분석 했더니 비슷한 상품만 계속 노출~, -> 어떤 추천 서비스가 적합한지, 어떤 모델이 중요한지 등 해결방안 결정 -> 추천 서비스 개발 

 

* 추천시스템 발전 단계 : 연관 분석 -> 협업 필터링  -> LLM

* 연관 규칙 분석 : 데이터분석 기반 추천 시스템의 시초

 

 

  - 신뢰도가 높으면 무조건 좋은가? 놉, B자체가 인기상품일 수도 있기 때문에 향상도랑 비교 분석해야 한다.

 

3. 추천 서비스 종류

: 데이터를 이용해서 사람들에거 무엇을 보여줄거야??

 

1) 콘텐츠 기반 필터링 (Content-based Filtering)

  • 개념: 사용자가 과거에 좋아했던 아이템의 특징을 분석하고, 유사한 속성을 가진 아이템을 추천하는 방식.
  • 대표 알고리즘: TF-IDF, 코사인 유사도(Cosine Similarity)
  • 장점: 개인화가 뛰어나고, 다른 사용자 데이터가 없어도 동작 가능
  • 단점: 아이템의 특징 정보가 부족하면 추천이 어려움 (Cold Start Problem)

 

2) 협업 필터링 (Collaborative Filtering)

  • 개념: “비슷한 사용자가 좋아한 아이템은 나도 좋아할 확률이 높다”는 가정에 기반.
  • 종류
    •  메모리 기반 협업 필터링
      • User-based: 나와 유사한 사용자들이 선호한 아이템 추천
      • Item-based: 내가 좋아한 아이템과 유사한 아이템 추천
    • 모델기반 협업 필터링
  • 유사도 계산 방법: 코사인 유사도, 피어슨 상관계수 등
  • 단점: 신규 사용자나 신규 아이템에 대한 추천이 어려움(Cold Start), 데이터 희소성 문제(Data Sparsity)
    콜드스타트 문제를 해결하기 위해서 회원가입할때 내가 좋아하는 영화 무엇인지 등 취향 데이터 수집 필요

(Item-based 예시)

(User-based 예시)

 

3) 하이브리드 필터링 (Hybrid Filtering)

  • 콘텐츠 기반과 협업 필터링을 결합한 방법.
  • 두 방식의 단점을 보완하고 추천 정확도를 높일 수 있다.
  • 예: 넷플릭스는 시청 기록(행동 데이터)과 영화 정보(메타데이터)를 함께 사용.

 

 

4. 잠재요인 기반 협업필터링 (Matrix Factorization) -> 쉽게말해 취향 맞춤 추천!

대규모 사용자–아이템 평점 행렬을 저차원 잠재공간으로 분해해 사용자와 아이템의 잠재 요인(latent factor)을 학습하는 방식.

대표 알고리즘: SVD(Singular Value Decomposition), PCA(차원 감소 기법) 등

 

5. 딥러닝 기반 추천시스템

최근에는 딥러닝 기술을 적용한 추천시스템이 활발히 연구되고 있다.
비선형 관계를 학습하고, 이미지·텍스트·음성 등 다양한 데이터를 함께 활용할 수 있다는 점이 강점이다.

 

대표 모델

  • Autoencoder 기반 모델
  • Neural Collaborative Filtering (NCF)
  • DeepFM (Deep Factorization Machine)
  • Transformer 기반 추천 모델

활용 예시

  • YouTube의 추천 시스템(2016, Google)은 DNN을 이용해 시청 패턴을 분석하고 맞춤형 동영상을 추천한다.

 

6. 추천시스템의 성능 평가 지표

추천시스템의 품질을 평가하기 위해 다음과 같은 지표를 사용한다.

평가 지표 설명
RMSE / MAE 예측된 평점과 실제 평점 간의 오차 측정
Precision / Recall / F1-score 추천의 정확도 및 재현율 평가
MAP / NDCG 추천 순서의 품질 측정 (랭킹 중심)
A/B Test 실제 사용자 반응 비교 실험

 

7. 최신 연구 및 트렌드

  1. 그래프 기반 추천 (Graph-based Recommendation)
    사용자와 아이템의 관계를 그래프로 표현하고, GCN(Graph Convolutional Network)을 통해 구조적 패턴을 학습
  2. 강화학습 기반 추천 (Reinforcement Learning)
    사용자의 장기 만족도(Lifetime Value)를 극대화하기 위해 정책(policy)을 학습하는 방식
  3. 대규모 언어모델(LLM) 기반 추천
    ChatGPT, Claude 등의 언어이해능력을 활용하여 사용자 대화 속 의도와 맥락을 파악한 추천이 가능

 

* LLM모델 사용할때 Openai > Docs > Pricing > Embeddings

LL

* openai api 보안 강화방법

api키 입력하면 노출 위험!!!

1)  로컬 환경변수로 저장

 

2) env파일 생성 후 저장

 

 

(실습_05. 추천시스템_LLM 기반 추천)

단계 이름 주요 목적 핵심 역할 기획자가 판단해야 하는 영역
1️⃣ 데이터 준비 및 전처리 추천에 사용할
데이터를 확보
영화, 사용자, 평점 등 주요 변수 정의 어떤 데이터를 추천 근거로 삼을지 결정 (예: 장르, 리뷰, 연령, 위치 등)
2️⃣ 콘텐츠 임베딩 (벡터화) 텍스트/속성을
수치로 변환
TF-IDF, BERT, OpenAI Embedding 등으로 표현 어떤 특징(feature)을 임베딩할지
(텍스트 기반인지, 행동 기반인지)
3️⃣ 유사도 계산
알고리즘
유사한 항목을 찾는
핵심 수학 엔진
Cosine Similarity, Euclidean Distance 등 추천 기준을 정립 (콘텐츠 유사도 / 협업필터링 / 하이브리드 중 선택)
4️⃣ 추천 로직 설계 사용자 입력 →
결과 출력 구조
유사도 상위 N개 반환, 필터링 조건 등 추천 결과를 어떻게 보여줄지
(Top N, 카테고리별, 시간대별 등)
5️⃣ LLM 기반
설명 생성
추천 이유를
자연어로 설명
LangChain + GPT API 어떤 톤과 문체로 설명할지,
신뢰·공감 포인트 설계
6️⃣ UX/UI 및
인터랙션 설계
결과 시각화 및
피드백 구조
사용자 맞춤형 피드백 루프 구축 “이 추천이 마음에 드시나요?” 등
피드백 기반 개선 설계
7️⃣ 비즈니스
모델 연계
추천 데이터로
수익 창출
광고, 제휴, 프리미엄 개인화 어떤 KPI로 비즈니스화할지
(전환율, 체류시간, 구매율 등)

① 데이터 준비 (Data Loading & Cleaning)

  • 무엇을 함: 영화·사용자·평점 등 데이터셋 불러오기
  • 기획 포인트:
    • 추천의 “출발점”이 되는 데이터는 무엇인가?
    • 서비스에서는 ‘어떤 맥락의 데이터’를 수집할 수 있나?
  • 기획자가 판단해야 할 것:
    • 데이터 출처의 신뢰성
    • 개인정보 이슈 및 데이터 범위
    • 사용자 입력이 필요한가, 자동 수집이 가능한가

② 임베딩 (Embedding)

  • 무엇을 함: 장르나 텍스트를 AI가 이해할 수 있는 벡터로 변환
  • 기획 포인트:
    • TF-IDF는 단어 중심(의미는 약함)
    • LLM 기반 임베딩(BERT, OpenAI Embedding)은 문맥까지 이해 가능
  • 기획자가 판단해야 할 것:
    • 어떤 수준의 개인화가 필요한가?
    • 빠른 추천이 중요한가, 정확도가 중요한가?
    • → 예: 실시간 반응형 서비스라면 TF-IDF, 깊은 맥락 기반이라면 LLM

③ 유사도 계산 (Similarity Calculation)

  • 무엇을 함: 영화 간 유사도를 수치로 계산
  • 기획 포인트:
    • 코사인 유사도 = “방향이 얼마나 비슷한가?”
    • 수치 기반 추천은 “왜 추천했는지 설명하기 어렵다”
  • 기획자가 판단해야 할 것:
    • 유사도의 기준을 “취향” 중심으로 할지 “속성” 중심으로 할지
    • 추천 다양성(Diversity)과 집중성(Precision) 사이의 밸런스

④ 추천 로직 설계 (Recommendation Logic)

  • 무엇을 함: 입력된 영화와 가장 비슷한 상위 N개 결과를 반환
  • 기획 포인트:
    • 추천 결과를 어떻게 정렬할까? (유사도순 / 트렌드순 / 신작우선 등)
    • 사용자에게 몇 개까지 보여줄까?
    • 추천 피드백을 어떻게 반영할까?
  • 기획자가 판단해야 할 것:
    • 추천 UX 플로우: “입력 → 결과 → 피드백”
    • 반복 사용을 유도할 UX 설계 (예: ‘비슷한 영화 더 보기’ 버튼)

⑤ LLM 기반 설명 생성 (Explainable AI)

  • 무엇을 함: LangChain + GPT 모델을 사용해
    “왜 추천했는가”를 자연어로 생성
  • 기획 포인트:
    • 추천 이유가 사람 언어로 제시되면 신뢰감과 몰입도 상승
    • 단순 추천이 아닌 “스토리텔링형 추천”으로 발전 가능
  • 기획자가 판단해야 할 것:
    • 설명의 스타일: 정보형 / 감성형 / 대화형 중 선택
    • 브랜드 톤과 맞는 문체 설계 (예: “당신이 좋아할 이유는요…”)

⑥ UX/UI 및 인터랙션 (User Experience)

  • 무엇을 함: 추천 결과를 화면에 시각화
  • 기획 포인트:
    • AI 결과를 단순 나열하지 말고 “맥락”을 제공해야 함
    • 예: “이 영화는 당신이 최근 본 SF 영화와 비슷합니다.”
  • 기획자가 판단해야 할 것:
    • 사용자가 결과를 어떻게 탐색할지
    • 피드백 루프(좋아요/싫어요, 저장 기능 등) 설계

⑦ 비즈니스 모델 (Business Model)

추천 시스템은 “추천 결과” 그 자체보다 “사용자 데이터 + 행동 패턴”이 비즈니스 핵심 자산

모델 유형 설명 예시
🎯 개인화 추천형 구독 서비스 사용자의 취향 기반 프리미엄 추천 제공 Spotify, Netflix
💰 광고 및 제휴형 추천 결과에 제휴 상품/콘텐츠 삽입 쿠팡, 네이버 쇼핑
🧩 AI API형 SaaS 다른 기업이 추천엔진을 사용할 수 있도록 API 제공 OpenAI Embedding, AWS Personalize
💬 설명형 컨시어지 서비스 LLM 기반 “이유 있는 추천”으로 브랜드 신뢰 강화 여행, 의료, 교육 서비스 등

 

* 기획자 의사결정 포인트 요약

단계 기획자가 개입할 핵심 포인트
데이터 설계 추천의 근거가 되는 데이터 정의 (사용자 행동? 속성? 감정?)
임베딩 전략 정확도 vs 속도 / 콘텐츠 vs 협업 기반 결정
추천 로직 유사도 기준, Top N 기준, 다양성 조절
설명 스타일 LLM 문체, 브랜드 톤, 사용자 공감 포인트
UX/UI 추천 결과의 시각적 구조, 피드백 루프 설계
수익모델 광고, 제휴, 프리미엄, API 등 연결 포인트