Wyszukiwanie pełnotekstowe
¶
dr inż. Aleksander Smywiński-Pohl
¶
apohllo@agh.edu.pl
¶
http://apohllo.pl/dydaktyka/nlp
¶
konsultacje: czw. 16:30-17:30
¶
Wyszukiwania pełnotekstowe
¶
Miary poprawności wyszukiwania pełnotekstowego
¶
Pr@n
¶
Miara wartości predykcyjnej dodatniej liczona dla $n$-pierwszych wyników
Mean Reciprocal Rank
¶
$$ \textrm{MRR} = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}_i} $$
Mean Average Precision
¶
$$ \textrm{AveP} = \frac{\sum_{k=1}^{n}Pr@k \cdot rel(k)}{n_{\textrm{relevant}}} $$$$ \textrm{MAP} = \frac{\sum_{q=1}^{Q} \textrm{AveP}(q)}{Q} $$
Normalized Discounted Cumulative Gain
¶
$$ \textrm{CG@k} = \sum_{i=1}^{k} rel_{i} $$
$$ \mathrm{DCG@k} = \sum_{i=1}^{k} \frac{2^{rel_{i}}-1}{\log_{2}(i+1)} $$
$$ \mathrm{nDCG@k} = \frac{\textrm{DCG@k}}{\textrm{IDCG@k}} $$
$$ \mathrm{IDCG@k} = \sum_{i=1}^{|{REL}_k|} \frac{ 2^{rel_{i}} - 1 }{ \log_{2}(i+1)} $$
Odwrócony indeks
¶
Wyszukiwanie Boolowskie
¶
$A \land B \land C$
$A \lor B \lor C$
Wagowanie TF*IDF
¶
$$\textrm{TF}(w_i,D) = \frac{f(w_i,D)}{max\{f(w_i',D):w_i' \in D\}}$$
$$\textrm{IDF}(w_i,C) = \textrm{ln}\frac{|C|}{|\{D \in C: w_i \in D\}|}$$
Okapi BM25 (best matching)
¶
$$\textrm{BM25}(Q,D) = \sum_{i=1}^{n} \textrm{IDF}(w_i) \cdot \frac{f(w_i, D) \cdot (k_1 + 1)}{f(w_i, D) + k_1 \cdot \left(1 + b \cdot \left(\frac{|D|}{\text{avgdl}} - 1 \right)\right)}$$
$$\textrm{IDF}(w_i) = \ln \left(\frac{N - n(w_i) + 0.5}{n(w_i) + 0.5}+1\right)$$
$$k_1 \in [1.2, 2.0]\; b = 0.75$$
PageRank
¶
$$ \textrm{PR}^{n+1}(u) = \frac{1-d}{N} + d \sum_{v \in B_u} \frac{\textrm{PR}^n(v)}{L(v)} $$
$$ \mathbf{R}(t+1) = d \mathcal{M}\mathbf{R}(t) + \frac{1-d}{N} \mathbf{1} $$
$$ \mathcal{M}_{ij} = \begin{cases} 1 /L(p_j) , & \mbox{jeśli }j\mbox{ linkuje do }i\ \\ 0, & \mbox{w przeciwnym razie} \end{cases} $$
Literatura
¶
https://nlp.stanford.edu/IR-book/information-retrieval-book.html