- 본 프로젝트의 목표는 Reranker Benchmark Evaluation을 최소한의 의존성으로 경량화하여, 쉽게 실행하고 즉각적인 결과를 얻을 수 있도록 설계하는 것입니다.
- 본 프로젝트에서는 BM25 기반의 1차 Retrieval을 통해 각 벤치마크 query 당 retrieval corpus를 1000개로 제한합니다.
- 이후 1000개 corpus 내에서 Reranker 모델의 성능을 평가합니다.
- 최적의 성능을 보여주는 한국어 tokenizer를 선정하기 위해 tokenizer별 평가를 진행하였습니다. 관련 코드는 이곳을 참고해 주세요.
- 평가 Tokenizer 목록: Kiwi, Kkma, Mecab, Okt
- 평가 데이터셋: AutoRAGRetrieval, BelebeleRetrieval, Ko-StrategyQA, PublicHealthQA
- 평가 결과는 아래 표와 같습니다.
Model | Average Recall | Average Precision | Average NDCG | Average F1 |
---|---|---|---|---|
Mecab | 0.8731 | 0.1000 | 0.7433 | 0.1783 |
Okt | 0.8655 | 0.1001 | 0.7474 | 0.1783 |
Kkma | 0.8504 | 0.0982 | 0.7358 | 0.1749 |
Kiwi | 0.8443 | 0.0961 | 0.7210 | 0.1715 |
Model | Average Recall | Average Precision | Average NDCG | Average F1 |
---|---|---|---|---|
Okt | 0.9534 | 0.0113 | 0.7688 | 0.0223 |
Mecab | 0.9533 | 0.0113 | 0.7634 | 0.0223 |
Kkma | 0.9528 | 0.0113 | 0.7616 | 0.0223 |
Kiwi | 0.9454 | 0.0111 | 0.7464 | 0.0220 |
Model | Average Recall | Average Precision | Average NDCG | Average F1 |
---|---|---|---|---|
Kkma | 0.9743 | 0.0012 | 0.7648 | 0.0023 |
Mecab | 0.9711 | 0.0012 | 0.7661 | 0.0023 |
Okt | 0.9688 | 0.0012 | 0.7712 | 0.0023 |
Kiwi | 0.9671 | 0.0012 | 0.7497 | 0.0023 |