Jezikovne tehnologije
doc. dr. Primož Jakopin
Predmet Jezikovne tehnologije
je imenovani poučeval na Univerzi v Novi Gorici Fakulteta za
humanistiko med leti 2012 in 2016 za študente 3. letnika študijskega
programa Slovenistika (prva stopnja), pred tem pa pod imeni
Računalništvo za filologe, Besedilo in računalnik in Računalniška
analiza besedil med leti 1993 in 2012
na Filozofski fakulteti Univerze v Ljubljani kot izbirni predmet za študente
raznih študijskih smeri.
Njegov namen je bil seznaniti študente z osnovami kvantitativne analize besedil,
z možnostmi, ki jih odpirajo predvsem domači besedilni korpusi, ter
znanji o označevalnem jeziku spletnih strani.
Ocena
pri predmetu je bila sestavljena iz ocene seminarske naloge
in iz preverjanja znanja po koncu izvajanja predmeta.
Seminarska naloga je obsegala statistični opis izbranega
literarnega dela v slovenskem ali angleškem jeziku, v obliki spletne strani.
Teme:
- Računalnik in internet
- Strojna oprema
- Programska oprema
- Internet: kaj, kako in zakaj
- Socialna omrežja
- Elektronska pošta
- Uporaba pregledovalnikov za preverjanje jezikovnih hipotez
- Besedilni viri
- Tujejezični besedilni korpusi
- Besedilni korpusi iz skupine Fida
- Jezikovni viri Inštituta za slovenski jezik
- Jezik HTML
- Nastanek, predhodniki
- Nabor oznak
- Komentarji v HTML
- Uporaba sicer prepovedanih znakov < in >, trdi presledki
- Organizacija W3C, validacija strani
- Spletna etiketa
- Spletna stran v jeziku HTML
- Urejevalnik Eva
- Nastanek, cilji
- Navigacija po datoteki
- Osnovni urejevalniški ukazi, desna tipkovnica
- Delo z datotekami, HTML in surovi format
- Podatkovne zbirke v EVI
- Besedilo kot podatkovna zbirka
- Gradniki besedila: črke, besede, povedi
- Izdelava histogramov
- Uporaba pri gradnji enojezičnih in dvojezičnih slovarjev
- Izdelava konkordančnih seznamov
- Frekvenčni in obrnjeni slovar besed
- Statistični opis besedila
- Porazdelitev črk
- Porazdelitev besednih dolžin
- Statistika polnopomenskih besednih vrst
- Krivulje rasti besed
- Porazdelitev dolžin povedi
- Entropija
- Kaj je entropija
- Entropija v termodinaniki
- Huffmanovo kodiranje
- N-terčki v besedilu
- Model jezika z entropijo n-terčkov
- Merjenje razdalje med jeziki z entropijo
- Objavljanje na Wikipediji
- Nastanek in pomen Wikipedije
- Kaj spada v Wikipedijo in kaj ne
- Označevalni jezik
- Pisanje referenc
- Peskovnik
- Zbirke Creative Commons
- Oprema prispevka s slikovnim gradivom
- Prenos podatkov med različnimi programi in formati
- Statistika znakov
- Nabor znakov - od ASCII
do UNICODE
- Datotečni formati
- Izmenjava besedil med različnimi programi
- Konverzija iz formata .DOC (MS Word) v .HTML
- Strojno prevajanje
- Zgodovina
- Stanje
- Prostodostopni prevajalniki
- Perspektive
- Oblikoslovno označevanje in lematizacija
- Postopek
- Namen
- Prostodostopni označevalniki
-
za slovenski jezik, projekt Sporazumevanje v slovenskem jeziku, izberite možnost TEI-XML
-
za angleški jezik, podjetja Xerox - najprej izberite jezik, nato kliknite na Text in v okence vnesite besedilo
Seminarska naloga
- Izbor ustreznega literarnega dela iz spletnih zbirk
- Izdelava besednega zaklada
- Statistični opis
- Postavitev naloge na internet
Viri in literatura
- D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja,
Prentice Hall, 1024 str.
- C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str.
- A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and
Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40,
Springer, 266 str.
- G. Leech, P. Rayson, A. Wilson, 2001. Word Frequencies in Written and Spoken English: based on the British National Corpus. Longman, London, 320 str.
- Prispevki s konferenc
Association for Computational Linguistics (ACL)
- ACL wiki
- V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str.
- P. Jakopin, 2002.
Entropija v slovenskih leposlovnih besedilih. Založba
ZRC, Ljubljana, 208 str.
Magistrska dela in diplomske naloge
Pri predmetu je bilo mogoče izbrati tudi temo za
diplomsko nalogo, magistrsko delo ali doktorsko disertacijo.
Teme obsegajo kvantitativno analizo izbranega zaključenega besedila ali določene jezikovne
prvine večje besedilne zbirke.
Stran je postavil
P. Jakopin in jo nazadnje spremenil 27. novembra 2016.
Naslov strani: http://www.jakopin.net/JT/Predmet_Jezikovne_tehnologije.php
4212