import numpy as np

def viterbi(observations, states, words, initial_p, transition_p, emmision_p):
    probs = np.zeros((len(observations), len(states)))
    pointers = np.zeros((len(observations), len(states)))
    word_idx = words.index(observations[0])
    for idx, state in enumerate(states):
        probs[0][idx] = initial_p[idx] * emmision_p[idx][word_idx]
        pointers[0][idx] = -1
    for o_idx, word in enumerate(observations[1:], 1):
        word_idx = words.index(observations[o_idx])
        for c_idx, c_state in enumerate(states):
            max_value, max_idx = -1, -1
            for p_idx, p_state in enumerate(states):
                value = probs[o_idx-1][p_idx] * transition_p[p_idx][c_idx]
                if(value > max_value):
                    max_value = value
                    max_idx = p_idx
            probs[o_idx][c_idx] = max_value * emmision_p[c_idx][word_idx]
            pointers[o_idx][c_idx] = max_idx
    max_value = max(probs[-1])
    
    path = []
    for idx, word in reversed(list(enumerate(observations))):
        path.insert(0, states[probs[idx].argmax(0)])
    return path, max_value


sequence = ["a", "dog", "barks"]
states = ["NN", "DT", "VB"]
initial_p = [0.2, 0.6, 0.2]
transition_p = [
    [0.3, 0.1, 0.6],   # from NN
    [0.7, 0.1, 0.2],   # from DT
    [0.4, 0.4, 0.2]    # from VB
]
emmision_p = [
    [0.1, 0.8, 0.1],   # from NN
    [0.8, 0.1, 0.1],   # from DT
    [0.1, 0.1, 0.8]    # from VB
]
viterbi(sequence, states, sequence, initial_p, transition_p, emmision_p)

(['DT', 'NN', 'VB'], 0.129024)

Tagowanie morfosyntaktyczne¶

dr inż. Aleksander Smywiński-Pohl¶

apohllo@agh.edu.pl¶

http://apohllo.pl/dydaktyka/nlp ¶

konsultacje: czw. 16:30-17:30¶

Części mowy - klasyfikacja tradycyjna¶

Części mowy - klasy otwarte i zamknięte¶

Kategorie gramatyczne 1/2 w Narodowym Korpusie Języka Polskiego (NKJP)¶

Kategorie gramatyczne 2/2¶

Klasy fleksyjne 1/2¶

Klasy fleksyjne 2/2¶

Kompatybilność kategorii i klas¶

Klasy fleksyjne Universal Dependencies 2.0¶

Tagi w korpusie Penn Treebank¶

Tagowanie morfosyntaktyczne¶

Zastosowania tagowania morfosyntaktycznego¶

Przykłady dezambiguacji¶

Algorytmy tagowania¶

Łańcuchy Markowa¶

Definicja łańcucha Markowa 1-rzędu¶

Ukryty model Markowa 1-rzędu (HMM)¶

Przykład HMM¶

Definicja ukrytego modelu Markowa 1-rzędu¶

Założenia dla HMM¶

Tagowanie morfosyntaktyczne w oparciu o HMM¶

Tagowanie jako dekodowanie¶

Algorytm tagowania wykorzystujący ukryty model Markowa¶

Macierz prawdopodobieństw¶

Wyszukiwanie wiązkowe (beam search)¶

Model Markowa o maksymalnej entropii (Maximum-entropy Markov Model MEMM)¶

HMM¶

MEMM¶

Cechy wykorzystywane przez MEMM¶

Taggery dla j. polskiego¶

Literatura¶

Tagowanie morfosyntaktyczne¶

dr inż. Aleksander Smywiński-Pohl¶

apohllo@agh.edu.pl¶

http://apohllo.pl/dydaktyka/nlp¶

konsultacje: czw. 16:30-17:30¶

Części mowy - klasyfikacja tradycyjna¶

Części mowy - klasy otwarte i zamknięte¶

Kategorie gramatyczne 1/2 w Narodowym Korpusie Języka Polskiego (NKJP)¶

Kategorie gramatyczne 2/2¶

Klasy fleksyjne 1/2¶

Klasy fleksyjne 2/2¶

Kompatybilność kategorii i klas¶

Klasy fleksyjne Universal Dependencies 2.0¶

Tagi w korpusie Penn Treebank¶

Tagowanie morfosyntaktyczne¶

Zastosowania tagowania morfosyntaktycznego¶

Przykłady dezambiguacji¶

Algorytmy tagowania¶

Łańcuchy Markowa¶

Definicja łańcucha Markowa 1-rzędu¶

Ukryty model Markowa 1-rzędu (HMM)¶

Przykład HMM¶

Definicja ukrytego modelu Markowa 1-rzędu¶

Założenia dla HMM¶

Tagowanie morfosyntaktyczne w oparciu o HMM¶

Tagowanie jako dekodowanie¶

Algorytm tagowania wykorzystujący ukryty model Markowa¶

Macierz prawdopodobieństw¶

Wyszukiwanie wiązkowe (beam search)¶

Model Markowa o maksymalnej entropii (Maximum-entropy Markov Model MEMM)¶

HMM¶

MEMM¶

Cechy wykorzystywane przez MEMM¶

Taggery dla j. polskiego¶

Literatura¶

http://apohllo.pl/dydaktyka/nlp ¶