Izvleček
Abstract
Zahvala
Seznam slik
Seznam tabel
1. Uvod
1.1 Namen naloge
1.2 Pregled vsebine
1.3 Prispevki naloge
2. Viri
2.1 Besedila
2.1.1 Prvi vzorec
2.1.2 Drugi vzorec
2.1.3 Vzorca kot del celote
2.2 Strojna in sistemska programska oprema
2.3 Programska oprema
3. Priprava besedil
3.1 Format besedil
3.1.1 Dodatni simboli
3.1.2 Zaglavja besedil
3.2 Označevanje gradnikov besedila
3.2.1 Odstavki
3.2.2 Povedi
3.2.3 Premi govor
3.2.4 Citati, vzdevki in ostalo
3.3 Vprašanje napak
3.3.1 Napake pri prepoznavanju
3.4 Zbirka besed iz SSKJ
3.4.1 Samostalniki
3.4.2 Pridevniki
3.4.3 Glagoli
3.4.4 Preverjanje s slovarjem izpeljank
4. Oblikoslovno označevanje
4.1 Uvod
4.2 Prvi označevalnik
4.3 Drugi označevalnik
4.4 Oznake drugega vzorca
5. Statistični opis
5.1 Znaki
5.1.1 Nabor
5.1.2 Porazdelitve
5.1.3 N-terčki znakov
5.2 Besede
5.2.1 Rast besednega zaklada
5.2.2 Dolžine besed
5.2.3 Najpogostejše besede
5.2.4 Besedni n-terčki
5.3 Povedi
5.3.1 Dolžine povedi
5.3.2 Najpogostejše povedi
5.3.3 Lipogramske povedi
6. Entropija
6.1 Definicije
6.2 Entropija n-terčkov za oba vzorca
6.2.1 Algoritem
6.2.2 Rezultati
6.3 Ocena entropije z modelom
6.3.1 Huffmanovo kodiranje
6.3.2 Izbira postopka
6.3.2 Model z razrezom na enako dolge n-terčke
6.3.4 Model z razrezom na besede
6.3.5 Model z optimalnim razrezom na n-terčke
6.3.6 Komprimiranje vzorcev z drugimi programi
6.4 Druge entropije
7. Sklep
Literatura
Priloga A: Seznam del v prvem vzorcu
Priloga B: Seznam del v drugem vzorcu
Priloga C: Abecedni seznam oblikoslovnih
oznak v 2. vzorcu, s frekvencami
Priloga Č: Abecedni seznam lem,
oblikoslovnih oznak in frekvenc v 2. vzorcu.
Priloga D: Z nalogo povezani naslovi na internetu
Izjava