https://www.bbc.com/news/science-environment-36888541
https://huggingface.co/datasets/maharshipandya/spotify-tracks-dataset/viewer/default/train
https://christinesunflower.com/2016/02/09/on-book-reviews-and-the-stars-rating-system/
https://www.kdnuggets.com/2019/09/hierarchical-clustering.html
https://rare-technologies.com/new-gensim-feature-author-topic-modeling-lda-with-metadata/
https://www.sbert.net/examples/unsupervised_learning/MLM/README.html
Mając dany zbiór treningowy par
(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)generowanych przez funkcję f(x), znaleźć funkcję h, która aproksymuje funkcję f.
Funkcja h zwana jest hipotezą, a przestrzeń z której jest wybierana przestrzenią hipotez H.
Alternatywnie mówimy, że h jest modelem danych, wybieranym z określonej klasy modeli H.
Oczekujemy, że funkcja h będzie spójna z danymi uczącymi, tzn. najlepiej jeśli h(xi)=yi.
S. Russel, P. Norvig, AIMA 4rd edition
Obciążenie - tendencja hipotezy h do różnienia się od oczekiwanego wyniku (wartości oczekiwanej), w przypadku treningu na różnych zbiorach danych.
Niedopasowanie (ang. underfitting) - niezdolność hipotezy do właściwego odwzorowania danych uczących.
Wariancja - zmienność wyniku funkcji, wynikająca z (niewielkich) zmian w danych.
Przeuczenie lub nadmierne dopasowanie (ang. overfitting) - zbyt dokładne dopasowanie hipotezy do zbioru uczącego.
Kompromis między obciążeniem a wariancją (ang. bias-variance tradeoff) - wybór pomiędzy bardziej złożoną hipotezą, która dobrze dopasowuje się do danych, a prostszą hipotezą, która może lepiej się generalizować.
Generalizacja - zdolność modelu do generowania poprawnych wartości funkcji, na danych spoza dystrybucji danych uczących.
Entropia - miara niepewności na temat zmiennej losowej. Entropia jest tym mniejsza im więcej wiemy na temat zmiennej losowej.
S. Russel, P. Norvig, AIMA 4rd edition.
https://www.studying-in-uk.org/information-on-predicted-grades-for-independent-applicants-in-the-uk/
Przypadki
https://en.wikipedia.org/wiki/F-score
https://www.researchgate.net/publication/338909223_Artificial_Intelligence_Technique_for_Gene_Expression_by_Tumor_RNA-Seq_Data_A_Novel_Optimized_Deep_Learning_Approach/figures
Błąd średniokwadratowy (mean squared error - MSE):
C(X)=1NN∑i=1(yi−^yi)2=1N||y−^y||22Błąd bezwzględny (mean absolute error - MAE):
C(X)=1NN∑i=1|yi−^yi|=1N||y−^y||1Błąd binarny:
C(X)=1NN∑i=11−δ(yi,^yi)Entropia skrośna:
H(p,q)=−∑x∈Xp(x)logq(x)
https://www.alamy.com/stock-photo-an-aerial-view-showing-tanks-and-infantry-of-the-american-6th-armored-105370917.html
https://datascience.stackexchange.com/questions/53645/regarding-training-loss-and-validation-loss