스트리밍 서비스 ReSys 간략한 분석 _ 유튜브 뮤직
https://www.digitaltoday.co.kr/news/articleView.html?idxno=530273
유튜브 뮤직 음악 추천 시스템, 구글 '트랜스포머'란? - 디지털투데이 (DigitalToday)
[디지털투데이 AI리포터] 2017년 구글이 발표한 머신러닝 아키텍처 \'트랜스포머\'(Transformer)에 대해 20일(현지시간) 온라인 매체 기가진이 전했다.구글은 트랜스포머를 통해 사용자 행동에 기반한
www.digitaltoday.co.kr
아주 옛날 글이긴 하지만, 기본적인 틀에 대한 설명이라 가져와 봤다.
트랜스포머로 진화하는 유튜브 뮤직의 추천 시스템
2017년 구글이 발표한 트랜스포머는 현재 유튜브 뮤직의 핵심 추천 엔진으로 자리잡았다. 구글이 최근 공개한 자료에 따르면, 트랜스포머를 기반으로 한 추천 시스템은 기존 대비 사용자 이탈률을 크게 낮추고 청취 시간을 늘리는 데 성공했다.
트랜스포머는 토큰화, 임베딩, 위치 인코딩, 트랜스포머 블록, 소프트맥스의 5단계로 구성된다. 이는 원래 자연어 처리를 위해 설계됐지만, 음악 추천에서도 뛰어난 성능을 보여준다. 특히 음악 청취도 일종의 '시퀀스'로 볼 수 있다는 점에서 트랜스포머의 장점이 잘 드러난다.
예를 들어 사용자가 아침에 주로 잔잔한 어쿠스틱 음악을 듣다가 저녁에는 댄스 음악을 즐긴다면, 트랜스포머는 이런 시간대별 패턴을 학습할 수 있다. 또한 사용자가 특정 플레이리스트에서 노래를 건너뛰는 패턴까지 분석해 더 정교한 추천이 가능하다.
구글의 오프라인 분석과 실제 서비스 적용 결과를 보면, 트랜스포머 기반 추천 시스템 도입 후 곡 건너뛰기 비율이 감소했고 평균 청취 시간도 증가했다. 이는 사용자의 상황과 취향을 더 정확하게 파악할 수 있게 됐기 때문이다.
구글은 앞으로 이 기술을 다른 추천 시스템에도 확대 적용할 계획이며, 음악 추천 시스템에도 추가적인 요소들을 접목해 성능을 더욱 향상시킬 예정이다.
현재 유튜브 뮤직은 트랜스포머를 통해 단순한 '이 노래 다음엔 저 노래' 식의 추천을 넘어, 사용자의 청취 맥락과 선호도 변화를 실시간으로 반영하는 더 자연스러운 음악 추천 경험을 제공하고 있다. 이는 음악 스트리밍 서비스에서 AI 기술이 어떻게 활용될 수 있는지를 보여주는 좋은 사례다.
August 16, 2024 리서치 파일이다...? 최근 기사였나보네 위에 기사
https://research.google/blog/transformers-in-music-recommendation/
Transformers in music recommendation
Retrieval, ranking, and filtering In existing models, it was difficult to identify which user actions were relevant to the user’s current needs. To understand such models, we need to look at typical recommendation systems. These systems are usually set u
research.google
유튜브 뮤직이 트랜스포머를 활용해 사용자 컨텍스트 기반의 음악 추천 시스템을 구축했다는 내용이다. 핵심은 사용자의 상황(예: 운동할 때)에 따라 이전 행동(예: 빠른 템포 음악 스킵)의 가중치를 다르게 해석한다는 것인데...
큰 맥락을 내가 Mermaid 형식으로 그려봤다.
1. 입력 처리 단계
- 사용자 행동 데이터 (스킵, 좋아요, 싫어요)
- 음악 메타데이터 (아티스트, 언어, 트랙 ID)
- 행동의 의도와 중요도 (재생 비율, 이전 행동과의 시간 간격)
2. 트랜스포머 처리
- 입력 데이터를 벡터로 변환
- Self-Attention으로 행동 간 관계성 파악
- 현재 컨텍스트에 따른 가중치 조정
3. 추천 단계
- 검색(Retrieval): 대규모 카탈로그에서 관련 곡 선별
- 순위화(Ranking): 관련성 점수 계산
- 필터링(Filtering): 최종 추천 목록 생성
사용자의 현재 상황에 따라 과거 행동의 중요도를 동적으로 조정한다.
예를 들어 운동 중일 때는 평소의 스킵 기록을 덜 중요하게 취급하고, 현재 상황에 맞는 곡들을 더 높이 평가한다...
...? 얘가 그럼 날 너무 잘 알게 되는 거 아니야? 난 싫어 ㅠㅠㅠㅠ 내 홍대병 고쳐주면 어쩌지?
트랜스포머(Transformer)는 2017년 구글이 "Attention is All You Need" 논문에서 처음 소개한 이후, 자연어 처리의 혁신을 가져온 아키텍처이다. 최근 유튜브 뮤직은 이 트랜스포머를 음악 추천 시스템에 적용하며 흥미로운 변형을 시도했다.
https://research.google/pubs/attention-is-all-you-need/
기본적인 트랜스포머 구조에서는 입력 시퀀스의 각 토큰을 임베딩하고, 여기에 위치 정보를 더해 모델에 입력한다. 위 그림에서 볼 수 있듯이, "I arrived at the"와 같은 문장은 각 단어가 개별 토큰으로 변환되고, 각각의 위치 정보(position_1, position_2 등)가 더해져 최종 입력이 된다. 이는 시퀀스 데이터에서 각 요소의 순서 정보를 보존하면서도, 전체 맥락을 고려할 수 있게 해주는 핵심 메커니즘이다.
유튜브 뮤직은 이 구조를 음악 추천에 맞게 창의적으로 변형했.. 기존의 토큰 대신 음악 관련 데이터를 입력으로 사용하며, 크게 세 가지 요소로 구성된다.
1. 음악 비디오 임베딩: 추천 후보곡(candidate)과 현재 컨텍스트(context), 그리고 사용자의 이전 행동들(action_1, action_2 등)을 벡터로 표현
2. 메타데이터: 각 행동과 관련된 모든 메타데이터를 합산한 정보
3. Ranking Model: 트랜스포머의 출력과 결합되어 최종 순위 점수를 계산
https://developers.google.com/machine-learning/recommendation/dnn/scoring?hl=ko (스코어)
이 구조의 가장 큰 특징은 사용자의 행동 시퀀스를 음악 추천에 맞게 재해석했다는 점이다. 예를 들어, 사용자가 평소에는 잔잔한 음악을 선호하더라도 운동할 때는 빠른 템포의 음악을 좋아한다면, 이 시스템은 현재 컨텍스트(운동 중)에 따라 과거 행동의 가중치를 적절히 조정할 수 있다.
각 행동은 다른 모든 행동과의 관계를 고려하여 가중치가 계산되며, 이는 단순한 시계열 분석이나 협업 필터링으로는 불가능한 수준의 컨텍스트 인식을 가능하게 한다.
1. 가변 길이 입력 처리: 수백 개의 사용자 행동을 효율적으로 처리
2. 동적 가중치 조정: 현재 상황에 따라 과거 행동의 중요도를 실시간으로 조정
3. 멀티모달 데이터 통합: 음악 특성, 메타데이터, 사용자 행동을 단일 모델에서 처리
이 시스템의 도입으로 유튜브 뮤직은 스킵률 감소와 청취 시간 증가라는 가시적인 성과를 얻었다. 더 중요한 것은, 이 접근방식이 음악 추천을 '정적인 선호도 기반'에서 '동적인 컨텍스트 기반'으로 전환시켰다는 점이다.
(흠... 음악을 좀 더 들었어야했나? 내 동적 데이터가 잘 안 들어갔나? 내 데이터가 부족한가봐..)
앞으로 구글은 이 기술을 검색(retrieval) 모델로 확장하고, 아티스트 인기도나 음악 트렌드 같은 비순차적 특성도 통합할 계획이라고 합니다. 이는 AI 기술이 음악 서비스의 사용자 경험을 어떻게 근본적으로 변화시킬 수 있는지를 보여주는 훌륭한 사례가 될 것이다.
아티스트 인기도나 트렌드가 더 중요하지 이자식들ㅇ.... 유튜브 프리미엄에 끼워파니까 우리로 테스팅하는 거지 ㅠㅠㅠ
Attention is All You Need
Natural Language Processing
research.google