 |
Univerza v Novi Gorici
Fakulteta za humanistiko
Slovenistika - prva stopnja |
Jezikovne tehnologije
doc. dr. Primož Jakopin, asist. Mateja Curk
Predmet Jezikovne tehnologije
je namenjen študentom tretjega letnika študijskega programa Slovenistika (prva stopnja).
Njegov namen je seznaniti študente z osnovami kvantitativne analize besedil,
z možnostmi, ki jih odpirajo predvsem domači besedilni korpusi, ter
znanji o označevalnem jeziku spletnih strani. Predmet obsega 60 ur (2 + 2)
predavanj in vaj v zimskem semestru šolskega leta
2015/2016 od 1. oktobra 2015 naprej ob četrtkih od 9.00 do 12.15 v računalniški učilnici R-BS
na Vipavski 13 v Novi Gorici.
Ocena
pri predmetu je sestavljena iz ocene seminarske naloge
in iz preverjanja znanja po koncu izvajanja predmeta.
Seminarska naloga obsega statistični opis izbranega
literarnega dela v slovenskem ali angleškem jeziku, v obliki spletne strani.
Govorilne ure so vsak drugi četrtek, po predavanjih, od 12.15
do 13.00 v profesorski sobi fakultete. Termini govorilnih ur v zimskem semestru 2015/2016 so:
1. 10., 15. 10., 29. 10., 12. 11., 26. 11., 10. 12., 7. 1. in 21. 1.; vaje bodo predvidoma
8. 10., 22. 10., 5. 11., 19. 11., 3. 12., 17. 12. in 14. 1. Elektronski naslov predavatelja je
ime.priimek@guest.arnes.si, kjer sta ime in priimek njegova, le da s
črko z namesto ž v imenu, elektronski naslov asistentke pa m....3@gmail.com, kjer je
namesto pikic njen priimek.
Izpitni roki bodo trije, eden februarja, eden junija in
eden septembra 2016. Točni datumi bodo znani naknadno.
Teme:
- Računalnik in internet
- Strojna oprema
- Programska oprema
- Internet: kaj, kako in zakaj
- Socialna omrežja
- Elektronska pošta
- Uporaba pregledovalnikov za preverjanje jezikovnih hipotez
- Besedilni viri
- Tujejezični besedilni korpusi
- Besedilni korpusi iz skupine Fida
- Jezikovni viri Inštituta za slovenski jezik
- Jezik HTML
- Nastanek, predhodniki
- Nabor oznak
- Komentarji v HTML
- Uporaba sicer prepovedanih znakov < in >, trdi presledki
- Organizacija W3C, validacija strani
- Spletna etiketa
- Spletna stran v jeziku HTML
- Urejevalnik Eva
- Nastanek, cilji
- Navigacija po datoteki
- Osnovni urejevalniški ukazi, desna tipkovnica
- Delo z datotekami, HTML in surovi format
- Podatkovne zbirke v EVI
- Besedilo kot podatkovna zbirka
- Gradniki besedila: črke, besede, povedi
- Izdelava histogramov
- Uporaba pri gradnji enojezičnih in dvojezičnih slovarjev
- Izdelava konkordančnih seznamov
- Frekvenčni in obrnjeni slovar besed
- Statistični opis besedila
- Porazdelitev črk
- Porazdelitev besednih dolžin
- Statistika polnopomenskih besednih vrst
- Krivulje rasti besed
- Porazdelitev dolžin povedi
- Entropija
- Kaj je entropija
- Entropija v termodinaniki
- Huffmanovo kodiranje
- N-terčki v besedilu
- Model jezika z entropijo n-terčkov
- Merjenje razdalje med jeziki z entropijo
- Objavljanje na Wikipediji
- Nastanek in pomen Wikipedije
- Kaj spada v Wikipedijo in kaj ne
- Označevalni jezik
- Pisanje referenc
- Peskovnik
- Zbirke Creative Commons
- Oprema prispevka s slikovnim gradivom
- Prenos podatkov med različnimi programi in formati
- Statistika znakov
- Nabor znakov - od ASCII
do UNICODE
- Datotečni formati
- Izmenjava besedil med različnimi programi
- Konverzija iz formata .DOC (MS Word) v .HTML
- Strojno prevajanje
- Zgodovina
- Stanje
- Prostodostopni prevajalniki
- Perspektive
- Oblikoslovno označevanje in lematizacija
- Postopek
- Namen
- Prostodostopni označevalniki
-
za slovenski jezik, projekt Sporazumevanje v slovenskem jeziku, izberite možnost TEI-XML
-
za angleški jezik, podjetja Xerox - najprej izberite jezik, nato kliknite na Text in v okence vnesite besedilo
Seminarska naloga
- Izbor ustreznega literarnega dela iz spletnih zbirk
- Izdelava besednega zaklada
- Statistični opis
- Postavitev naloge na internet
Viri in literatura
- D. Jurafsky, J. H. Martin, 2009. Speech and language processing, 2. izdaja,
Prentice Hall, 1024 str.
- C. D. Manning in H. Schütze, 1999. Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA, 620 str.
- A. Witt in D. Metzing (Ur.), 2010. Linguistic Modeling of Information and
Markup Languages, zbirka Text, Speech and Language Technology, Vol. 40,
Springer, 266 str.
- G. Leech, P. Rayson, A. Wilson, 2001. Word Frequencies in Written and Spoken English: based on the British National Corpus. Longman, London, 320 str.
- Prispevki s konferenc
Association for Computational Linguistics (ACL)
- ACL wiki
- V. Gorjanc, 2005. Uvod v korpusno jezikoslovje. Izolit, Domžale, 163 str.
- P. Jakopin, 2002.
Entropija v slovenskih leposlovnih besedilih. Založba
ZRC, Ljubljana, 208 str.
Magistrska dela in diplomske naloge
Pri predmetu je mogoče izbrati tudi temo za
diplomsko nalogo, magistrsko delo ali doktorsko disertacijo.
Teme obsegajo kvantitativno analizo izbranega zaključenega besedila ali določene jezikovne
prvine večje besedilne zbirke.
Stran je postavil
P. Jakopin in jo nazadnje spremenil 12. novembra 2015.
Naslov strani: http://www.jakopin.net/FH/jt/Jezikovne_tehnologije.html
