Źródło: "Language Models are Unsupervised Multitask Learners" A. Radford, J. Wu, R. Child, D. Luan,D. Amodei, I. Sutskever
ZZ - zbiór dokumentów zz, które pomagaja odgadnąć token (|Z||Z| - miliony dokumentów)
p(z|x)p(z|x) - określenie przydatnych dokumentów
p(y|x,z)p(y|x,z) - odgadnięcie najbardziej prawdopodobnych zamaskowanych wyrazów na podstawie zdania xx i dokumentu zz
EP(⋅) - enokoder dla fragemtnów dokumentów
EQ(⋅) - enkoder dla pytań
sim(q,p)=EQ(q)TEP(p)
EP(⋅),EQ(⋅) - są osobnymi sieciami opartymi o BERTa (tzn. mają zestaw parametrów trenowanych niezależnie).
Strategie wyboru negatywnych przykładów