https://www.bbc.com/news/science-environment-36888541
https://huggingface.co/datasets/maharshipandya/spotify-tracks-dataset/viewer/default/train
https://christinesunflower.com/2016/02/09/on-book-reviews-and-the-stars-rating-system/
https://www.kdnuggets.com/2019/09/hierarchical-clustering.html
https://rare-technologies.com/new-gensim-feature-author-topic-modeling-lda-with-metadata/
https://www.sbert.net/examples/unsupervised_learning/MLM/README.html
Mając dany zbiór treningowy par
$$ (x_1, y_1), (x_2, y_2), (x_3, y_3), \ldots, (x_n, y_n) $$generowanych przez funkcję $f(x)$, znaleźć funkcję $h$, która aproksymuje funkcję $f$.
Funkcja $h$ zwana jest hipotezą, a przestrzeń z której jest wybierana przestrzenią hipotez H.
Alternatywnie mówimy, że $h$ jest modelem danych, wybieranym z określonej klasy modeli H.
Oczekujemy, że funkcja $h$ będzie spójna z danymi uczącymi, tzn. najlepiej jeśli $h(x_i) = y_i$.
S. Russel, P. Norvig, AIMA 4rd edition
Obciążenie - tendencja hipotezy $h$ do różnienia się od oczekiwanego wyniku (wartości oczekiwanej), w przypadku treningu na różnych zbiorach danych.
Niedopasowanie (ang. underfitting) - niezdolność hipotezy do właściwego odwzorowania danych uczących.
Wariancja - zmienność wyniku funkcji, wynikająca z (niewielkich) zmian w danych.
Przeuczenie lub nadmierne dopasowanie (ang. overfitting) - zbyt dokładne dopasowanie hipotezy do zbioru uczącego.
Kompromis między obciążeniem a wariancją (ang. bias-variance tradeoff) - wybór pomiędzy bardziej złożoną hipotezą, która dobrze dopasowuje się do danych, a prostszą hipotezą, która może lepiej się generalizować.
Generalizacja - zdolność modelu do generowania poprawnych wartości funkcji, na danych spoza dystrybucji danych uczących.
S. Russel, P. Norvig, AIMA 4rd edition.
Entropia - miara niepewności na temat zmiennej losowej. Entropia jest tym mniejsza im więcej wiemy na temat zmiennej losowej.
S. Russel, P. Norvig, AIMA 4rd edition.
https://www.studying-in-uk.org/information-on-predicted-grades-for-independent-applicants-in-the-uk/
Przypadki
https://en.wikipedia.org/wiki/F-score
https://www.researchgate.net/publication/338909223_Artificial_Intelligence_Technique_for_Gene_Expression_by_Tumor_RNA-Seq_Data_A_Novel_Optimized_Deep_Learning_Approach/figures
Błąd średniokwadratowy (mean squared error - MSE):
$$ C(X) = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat y_i)^2 = \frac{1}{N} || y - \hat y ||_2^2 $$Błąd bezwzględny (mean absolute error - MAE):
$$ C(X) = \frac{1}{N}\sum_{i=1}^N | y_i - \hat y_i| = \frac{1}{N}|| y - \hat y||_1 $$Błąd binarny:
$$ C(X) = \frac{1}{N} \sum_{i=1}^N 1 - \delta(y_i, \hat y_i) $$Entropia skrośna:
$$ H(p,q) = - \sum_{x \in X} p(x) \log q(x) $$
https://www.alamy.com/stock-photo-an-aerial-view-showing-tanks-and-infantry-of-the-american-6th-armored-105370917.html
https://datascience.stackexchange.com/questions/53645/regarding-training-loss-and-validation-loss