딥러닝

Titans: Learning to Memorize at Test Time

관형이 2025. 4. 2. 23:19

이 논문은 2개월 전에 나와서 리뷰가 많이 없었습니다. 하지만, 기존 transformer을 대체할 수 있는 논문으로 소개 되고 있어서 한번쯤 확인하시면 좋을 것 같습니다. (저도 정리할 겸 올리는거여서)

유튜브로 설명 찾아봤는데, 아직 한국분이 리뷰한 영상은 없는 것 같습니다.

 

인도인 분 영상 + 세미나 발표 준비겸 직관 대로 정리한 pdf파일 참고하면 될 것 같습니다.

핵심은 Long term Memory에서 test time에서도 학습이 진행되며, 정보 검색(read, write)이 어떻게 이루어지는지 설명했습니다.

 

4학년 학부생이 만든 pdf여서 틀릴 수도 있습니다 

 

  • Introduction

transformer 구조적 한계

 

본 논문에서 기존 transformer attention 구조의 문제를 어떤 idea로 해결하는가를 다룸


  • Related Work

기존 attention 관점을 -> 메모리 관점으로 변환하기 전 관련 수식에 대해 설명 함

최종적으로 Classic attention을 기준으로 설명하면, Q: 쿼리, K: 키 값의 내적으로 유사도를 산출하는 방식 (기존 transformer)

여기서 중요한 것은 메모리 관점으로 변환 될수 있다는 것. 결론적으로 수식을 보면 알 수 있듯이 Query, Key, value 값들은 전부 입력 token에서 w matrix를 곱한 것 뿐이니 최종적으로 x와 관련된 수식으로 표현이 가능

다음과 같이 설정 됨. 즉,

1) 메모리 관련 수식으로 변화 -> 메모리 관점 

2) x와 관련된 수식 -> test 시점에 들어온 x를 기준으로 메모리가 업데이트 됨을 알 수 있다.


  • Method

1) 장기 기억 학습 메커니즘

모델에서 제안하는 3가지 핵심 아키텍처

이 슬라이드에선 기존 attention 작동과 titans에 작동 방식을 비교하며 Long term: 장기 기억에 surprise 정보를 검색하는 아키텍처를 다루고 있음

그래서 논문에서 제안하는 Surpirse란 무엇일까?

loss로 mse를 쓰는 것을 알 수 있음. 오른쪽에 수식을 잘 설명했으니 참고 부탁

즉, t - 1 에 정보를 임베딩을 통해 도출된 t시점에 Q: (쿼리문)을 통해 검색하고, 그것을 t 시점에 value 값이랑 재구성 오류를 계산하며, 기존 알고 있지 않은 정보는 더 많은 재구성 손실을 발생하며, 이를 학습. 이 메커니즘이 장기 기억에서 Surfprise를 학습하는 방식

2) 영구 메모리 알고리즘

영구 메모리는 프롬프트와 같음. 즉 모델의 임베딩 값에 해야할 task를 명확하게 지정해주는 역할을 한다.


  • How to Incorporate Memory

그렇다면 Long-term memory를 딥러닝 아키텍처에 통합하는 방법은 어떻게 할까?

3가지를 제안 함. MAC, MAG, MAL


  • Experiments

이건 내가쓴 pdf 참고하시길.. 귀찮. 결론은 다른 것과 비교했을때 좋아졌다 ~ 이거임


  • Conclusion

일단 test time에서도 학습을 하고, 그것을 활용할 수 있다는 점이 매우 크게 다가왔음.

기존 이미지에서 사용했던 TTA 방식이 떠오르기도 함

쨌든 오늘 세미나 토론만 1시간 했는데, 앞으로도 Test data를 효율적으로 이용할 수 있는 방식들을 고안해봐야겠음

Titans.pdf
1.46MB