Croatian Language N-Gram System

Dembitz, Šandor; Blašković, Bruno; Gledec, Gordan

izvor podataka: crosbi !

Croatian Language N-Gram System (CROSBI ID 184676)

Prilog u časopisu | izvorni znanstveni rad | međunarodna recenzija

Dembitz, Šandor ; Blašković, Bruno ; Gledec, Gordan Croatian Language N-Gram System // Frontiers in artificial intelligence and applications, 243 (2012), 696-705. doi: 10.3233/978-1-61499-105-2-696

Podaci o odgovornosti

Autori

Dembitz, Šandor ; Blašković, Bruno ; Gledec, Gordan

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Croatian Language N-Gram System

Sažetak

Large-scale n-gram models are available for a small number of languages. So far, Croatian was not one of them. The research presented in this paper describes the development of n-gram database system suitable for large-scale language modeling in Croatian. The process of n-gram collection relies on Croatian academic online spellchecker Hascheck, which has been publicly available since 1993, and is today a popular language service, with average daily traffic exceeding million tokens. The approach demonstrated in this paper eliminated the need of n-gram data cleaning in the post-processing phase, which is a serious issue in other languages. The spellchecker dynamics allowed Heaps’ law modeling to be applied to Croatian n-grams, which enabled the prediction of n-gram count growth.

Ključne riječi

Croatian; lexical n-gram; language modeling; Heaps’ law

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o izdanju

Časopis

Frontiers in artificial intelligence and applications

Volumen (broj)

243

Godina

2012.

Stranice rada

696-705

Status objave rada

objavljeno

ISSN

0922-6389

DOI

10.3233/978-1-61499-105-2-696

Povezanost rada

Povezane osobe

Šandor Dembitz (autor/i)

Gordan Gledec (autor/i)

Bruno Blašković (autor/i)

Povezane ustanove

Fakultet elektrotehnike i računarstva (036) (autorova ustanova)

Povezani projekti

Računalna potpora obrazovanju (rezultat rada na projektu)

Umrežena ekonomija (rezultat rada na projektu)

Isporuka sadržaja i pokretljivost korisnika i usluga u mrežama nove generacije (rezultat rada na projektu)

Područje

Elektrotehnika, Računarstvo

Poveznice

doi.org

booksonline.iospress.nl

Indeksiranost

Scopus