%%html

<blockquote class="twitter-tweet"><p lang="en" dir="ltr">This is mind blowing.<br><br>With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.<br><br>W H A T <a href="https://t.co/w8JkrZO4lk">pic.twitter.com/w8JkrZO4lk</a></p>&mdash; Sharif Shameem (@sharifshameem) <a href="https://twitter.com/sharifshameem/status/1282676454690451457?ref_src=twsrc%5Etfw">July 13, 2020</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>


%%html

<blockquote class="twitter-tweet"><p lang="en" dir="ltr">A demo of the attention mechanism of DeepMind&#39;s AlphaCode as it completes a coding question.<br><br>Now consider having 100s of browser tabs open and the attention corresponded to clicking on buttons and keyboard keys. <a href="https://t.co/mU0Cywm9N3">pic.twitter.com/mU0Cywm9N3</a></p>&mdash; dave (@dmvaldman) <a href="https://twitter.com/dmvaldman/status/1602326660220600324?ref_src=twsrc%5Etfw">December 12, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

Sztuczne sieci neuronowe w przetwarzaniu języka naturalnego¶

dr inż. Aleksander Smywiński-Pohl¶

apohllo@agh.edu.pl¶

http://apohllo.pl/dydaktyka/nlp¶

konsultacje: środa 17-18¶

Plan¶

Sztuczne sieci neuronowe (artificial neural networks - ANN)¶

Sigmoida¶

Tangens hiperboliczny¶

ReLU¶

Sieć w pełni połączona (feed-forward NN)¶

Uogólniona notacja¶

Funkcja straty (loss function)¶

Graf obliczeń¶

Plan¶

Wsteczna propagacja błędu (error backpropagation, backprop)¶

Przejście w tył w grafie obliczeń¶

Proces uczenia¶

Kluczowy problem - sekwencyjna natura tekstu¶

Plan¶

Sieci rekurencyjne (RNN)¶

Inferencja w sieci rekurencyjnej¶

Algorytm inferencji¶

Wsteczna propagacja błędu w sieci rekurencyjnej (BPTT)¶

Klasyfikacja tokenów przy użyciu RNN¶

Głębokie sieci rekurencyjne¶

Sieci dwukierunkowe (BiRNN)¶

Sieć z długą pamięcią krótkoterminową (LSTM)¶

Plan¶

Struktura komórki LSTM¶

Bramka zapominająca¶

Bramka dodająca¶

Bramka wyjściowa¶

Plan¶

Architektura transformacyjna¶

Przeuczenie modelu¶

Pre-training i fine-tuning¶

Unsupervised sentiment neuron - OpenAI¶

GPT-1 - OpenAI¶

GPT-2 - OpenAI¶

GPT-2 - OpenAI¶

Istota mechanizmu atencji - tłumaczenie maszynowe¶

Istota mechanizmu samo-atencji¶

Macierze atencji¶

Wynikowa reprezentacja pojedynczego wyrazu¶

Wzór na atencję¶

Architektura transformacyjna¶

Architektura BERTa - Google¶

Maskowany model języka (MLM)¶

Warianty sieci transformacyjnych¶

Literatura¶

http://apohllo.pl/dydaktyka/nlp ¶

Sieć w pełni połączona
(feed-forward NN)¶