Źródło: "Language Models are Unsupervised Multitask Learners" A. Radford, J. Wu, R. Child, D. Luan,D. Amodei, I. Sutskever
$Z$ - zbiór dokumentów $z$, które pomagaja odgadnąć token ($|Z|$ - miliony dokumentów)
$p(z|x)$ - określenie przydatnych dokumentów
$p(y|x,z)$ - odgadnięcie najbardziej prawdopodobnych zamaskowanych wyrazów na podstawie zdania $x$ i dokumentu $z$
$E_{P}(\cdot)$ - enokoder dla fragemtnów dokumentów
$E_{Q}(\cdot)$ - enkoder dla pytań
$sim(q,p) = E_{Q}(q)^{T}E_{P}(p)$
$E_{P}(\cdot), E_{Q}(\cdot)$ - są osobnymi sieciami opartymi o BERTa (tzn. mają zestaw parametrów trenowanych niezależnie).
Strategie wyboru negatywnych przykładów