Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Miljenko Kokot i Barbara Kolar vs. baka Štefica i susjed Marko: što donose korpusi govornog i pisanog jezika osoba koji nisu profesionalni pisci ili govornici (CROSBI ID 637554)

Prilog sa skupa u zborniku | sažetak izlaganja sa skupa

Hržica, Gordana Miljenko Kokot i Barbara Kolar vs. baka Štefica i susjed Marko: što donose korpusi govornog i pisanog jezika osoba koji nisu profesionalni pisci ili govornici. 2016

Podaci o odgovornosti

Hržica, Gordana

hrvatski

Miljenko Kokot i Barbara Kolar vs. baka Štefica i susjed Marko: što donose korpusi govornog i pisanog jezika osoba koji nisu profesionalni pisci ili govornici

Većina se istraživanja u kojima se rabe korpusi temelji na velikim korpusima profesionalno pisanih tekstova (književna djela, novinarski tekstovi, stručna djela…), a ako je riječ o korpusima govornog jezika, to su jezični uzorci profesionalnih govornika (voditelji televizijskih emisija, predavači…). Postoje, naravno, i iznimke (neki primjeri: McEnery i Wilson, 2001), ali takvi korpusi, kojima je zajedničko to što sudionici nisu profesionalni pisci ili govornici, rijetki su i manji od korpusa profesionalnih tekstova. No, takvi su korpusi reprezentativni za svakodnevnu uporabu pisanog ili govornog jezika. Iz njih se može doznati kako se jezik rabi u porukama elektronske pošte, bilješkama, esejima, telefonskim pozivima, uputama, opuštenoj konverzaciji… Trenutačni trend prikupljanja internetskih korpusa omogućuje uključivanje neprofesionalnih tekstova pisanog jezika (na primjer, blogovi, zapisi na forumima…), ali takvi korpusi zahtijevaju veću razinu odabira izvora da bi se do takvih informacija došlo. Osim toga, oni ne sadržavaju podatke o sudionicima važne za jezične analize (na primjer, dob, dijalektalne informacije, obrazovanje…). Osobe s jezičnim teškoćama (na primjer, posebne jezične teškoće, disleksija, afazija) posebna su skupina neprofesionalnih pisaca/govornika. U govoru i pismu oni se od govornika urednog jezičnog statusa razlikuju u brzini i točnosti. Zbog problema u jezičnoj obradi moguće je i da griješe na drugačiji način (pregled: Ramus, 2014). Poznate su neke činjenice o pisanju osoba s jezičnim teškoćama (pregled: Zourou i sur., 2010), ali teško se može govoriti o dostupnosti detaljnih opisa. Do sada su specijalizirani korpusi takvih govornika obuhvaćali mali broj pojavnica (na primjer Pedler, 2007: oko 12 000 pojavnica ili Rello i Llisterri, 2014: oko 1 000 pojavnica). Veći bi specijalizirani korpusi doprinijeli spoznajama o narušenom jeziku različitih skupina govornika. Mogućnost je uporabe uzoraka govornog jezika velika, a njihova organizacija i objavljivanje u javno dostupnim korpusima koji omogućuju i lak dohvat nekih podataka omogućuje višestruku iskorištenost resursa i u znanstvenom radu, ali i u stručnim područjima kao što je, na primjer, logopedska procjena. Moguće primjene uključuju, između ostalog, i u nastavku nabrojeno. (1) Čestotnost i kolokacija. Podatci o čestotnosti i kolokacijama nužni su za izradu jezičnih zadataka ili jezičnih testova jer se svi elementi (ovisno o svrsi ispitnog materijala) kontroliraju prema različitim čimbenicima (na primjer, čestotnost natuknice, čestotnost obličnice, čestotnost fonema, fonološko susjedstvo…). Takvi su podatci pouzdaniji ako se prikupe iz više izvora. S obzirom na to da se u istraživanjima jezične obrade ili procjeni jezičnog znanja procjenjuju osobe koje nisu profesionalni govornici nekog jezika, jasna je iskoristivost korpusa prikupljenih od reprezentativne skupine takvih govornika. (2) Jezični varijeteti. Uz dostupnost podataka o govornicima (dob, podrijetlo, mjesto stanovanja, obrazovanje, socioekonomski status…), korpus omogućuje uvid u vodoravnu i okomitu jezičnu raslojenost skupine koju predstavlja. Na primjer, omogućuje praćenje rasprostranjenosti karakteristika regiolekata, praćenje dijakronijskih jezičnih promjena, opis fonetskih karakteristika varijeteta itd. (3) Mjere jezičnog razvoja/znanja. Jezični uzorci sadrže velike količine podataka koje uključuju analize na različitim jezičnim razinama (na primjer, sintaktička složenost, rječničke složenost, analiza pogrešaka, govorni činovi…). Različite se mjere, od kojih su mnoge automatizirane, upotrebljavaju za analizu jezičnih uzoraka. Za mnoge se mjere tek utvrđuje koliko su pouzdane, a posebno koliko su primjenjive za tipološki različite jezike. Trenutačno je najviše podataka koje mogu doprinijeti ovakvim raspravama dostupno za engleski jezik te temeljeno na korpusima profesionalnih govornika. Primjenom mjera na hrvatski može se doprinijeti znanstvenim diskusijama o valjanosti i mogućnostima primjene takvih mjera. Mjere se, ako se pokažu prikladnima za hrvatski jezik, mogu rabiti tako da se govornici koji imaju jezične teškoće usporede s govornicima urednog jezičnog razvoja/statusa. LITERATURA McEnery, T., Wilson, A. (2001). Corpus Linguistics. Edinburgh: Edinburgh University Press. Ramus, F. (2014). Should there really be a “Dyslexia debate”? Brain, 137, 3371-3374. Zourou, F., Ecalle, J., Magnan, A., & Sanchez, M. (2010). The fragile nature of phonological awareness in children with specific language impairments: Evidence from literacy development. Child, Language, Teaching, and Therapy, 26, 347–358. Pedler, J. (2007). Computer Correction of Real- word Spelling Errors in Dyslexic Text. PhD thesis, Birkbeck, London University. Rello, L., Baeza-Yates, R., & Llisterri, J. (2014). DysList: An annotated resource of dyslexic errors. In LREC 2014. Proceedings of the Ninth International Conference on Language Resources and Evaluation (pp. 1289–1296). Reykjavik, Iceland. 26-31 May, 2014.

korpus pisanog jezika ; korpus govornog jezika ; uzorkovanje jezika ; reprezentativnost korpusa

nije evidentirano

engleski

Shakespeare and Now York Times vs. Jack and Jill: Working with non-professional and specialized corpora

nije evidentirano

corpus of written language ; corpus of spoken language ; language sampling ; representativeness in corpus design

nije evidentirano

Podaci o prilogu

x

2016.

objavljeno

Podaci o matičnoj publikaciji

Podaci o skupu

Drugi ReLDI seminar

pozvano predavanje

27.06.2016-30.06.2016

Zagreb, Hrvatska

Povezanost rada

nije evidentirano