Paper: https://dl.acm.org/doi/abs/10.5555/3524938.3525302
Summary
- 기존 quantization technique의 문제점
- 목적함수가 reconstruction error를 최소화하는 방식으로 정의되는데, 모든 데이터포인트 $x$, 쿼리 $q$ 쌍이 동일하게 중요하지 않다. 높은 inner product 값을 갖는 쌍에서의 에러가 더욱 중요하다.
- 해결책
- score-aware quantization loss 도입: 각 (x, q) 쌍의 내적에 따른 weight를 반영한 목적함수를 정의한다. 이는 datapoint $x$에 평행한 parallel residual error와 수직인 orthogonal residual error로 분해된다. 큰 inner product일수록 더 큰 weight를 부여하게 된다면 parallel error가 더 크게 weight를 갖게 된다(즉 더 큰 페널티).
- 직관적으로 이는 orthogonal error보다 parallel error가 query 시 더 큰 영향을 미치기 때문이다. 데이터포인트 $x$에 orthogonal한 벡터는 내적의 값이 작고, parallel하면 크다는 점에 주목하자.
- anisotropic vector quantization: 기존의 quantization technique에서 딕셔너리를 만들 때에는 k-means clustering과 같은 계산을 하게 되는데, anisotropic 방법에서도 유사하게 진행할 수 있다.
- score-aware quantization loss 도입: 각 (x, q) 쌍의 내적에 따른 weight를 반영한 목적함수를 정의한다. 이는 datapoint $x$에 평행한 parallel residual error와 수직인 orthogonal residual error로 분해된다. 큰 inner product일수록 더 큰 weight를 부여하게 된다면 parallel error가 더 크게 weight를 갖게 된다(즉 더 큰 페널티).
Comment
- 더 "중요한"(내적이 큰) 방향의 에러에 집중함으로써 정확도를 개선할 수 있다.
'컴퓨터 > VectorDB' 카테고리의 다른 글
VBASE: Unifying Online Vector Similarity Search and Relational Queries viaRelaxed Monotonicity (0) | 2025.01.03 |
---|
댓글