IT-SR-NER: СРПСКО-ИТАЛИЈАНСКИ ПАРАЛЕЛНИ КОРПУС ЗА УЧЕЊЕ СРПСКОГ КАО СТРАНОГ ЈЕЗИКА
DOI:
https://doi.org/10.21618/fil2531153pKljučne reči:
паралелни корпус, италијански као матерњи, српски као страни, препознавање именованих ентитета, глотодидактика, превођењеApstrakt
У раду се истражују могућности примјене паралелног италијанскосрпског корпуса It-Sr-NER у настави српског као страног језика. Ради се о првом паралелном корпусу за ову језичку комбинацију који су 2022. године развили истраживачи са Универзитета у Торину и Друштва за језичке ресурсе и технологије (Јертех) у Београду у оквиру пројекта Bridging gaps инфраструктуре за језичке технологије CLARIN. Корпус садржи 10.000 реченица преузетих из класичних и модерних дјела италијанске и српске књижевности које су поравнате (паралелизоване) ради лакшег истраживања података и превођења ријечи у контексту. Корпус је анотиран за препознавање именованих ентитета (Named Entity Recognition, NER) са посебном пажњом усмјереном на топониме (укључујући именице pluralia tantum) и антропониме. У раду се истражују могућности употребе овог корпуса у циљу превазилажења изазова са којима се студенти српског језика као страног на почетном нивоу суочавају у препознавању и повезивању именованих ентитета са њиховим основним облицима, усљед богате морфологије српског језика. У исто вријеме истражује се употреба корпуса за ученике средњег и напредног нивоа у проучавању лексичких празнина (ријечи без директних преводних еквивалената). Рад указује да паралелни корпуси са NER анотацијом представљају не само дјелотворну алтернативу традиционалним ресурсима за учење српског језика као страног, већ су и незамјенљив алат за одређене врсте лингвистичких истраживања.
Reference
Avirović, Lj. (2003) Il ponte di Andrić collega uomini e cose: sulla traduzione di Ivo Andrić in Italia. Comunicare. Letterature lingue. 3, 377–388.
Baker, M. (1993) Corpus Linguistics and Translation Studies. Implications and Applications. In Baker, M., Francis, G. & Tognini-Bonelli, E. (eds), Text and Technology. In Honour of John Sinclair. Philadelphia-Amsterdam, John Benjamins, pp. 233–250.
Bosco, C., Cosi, P., Dell’Orletta, F., Falcone, M., Montemagni, S. & Simi, M. (eds). (2014) Proceedings of the First Italian Conference on Computational Linguistics CLiCit 2014 & the Fourth International Workshop EVALITA 2014: 9-11 December 2014. Pisa, Pisa University Press.
Botley, S. P., McEnery, A. M., & Wilson, A. (eds). (2000) Multilingual Corpora in Teaching and Research. Amsterdam, Rodopi.
Chesterman, A. (2007) Similarity Analysis and the Translation Profile. Belgian Journal of Linguistics. 21 (1), 53–66, https://doi.org/10.1075/bjl.21.05che
Doval, I. & Sánchez Nieto, M. T. (eds). (2019) Parallel Corpora for Contrastive and Translation Studies: New Resources and Applications. Amsterdam, John Benjamins.
Đukanović, M. & Polovina, V. (2018) Kulturno-specifična leksika u prevodu Iva Andrića na slovenački, francuski i engleski jezik. In Vraneš, A. (ur.), Ivo Andrić u našem vremenu: zbornik radova. Аndrićgrad – Višegrad, Andrićev institut, pp. 241–260.
Granger, S. (2018) Has Lexicography Reaped the Full Benefit of the (Learner) Corpus Revolution? In Čibej, J., Gorjanc, V., Kosem, I. & Krek, S. (eds), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. Ljubljana, Ljubljana University Press, Faculty of Arts, pp. 17–24.
Ikonić Nešić, M., Petalinkar, S., Škorić, M. & Stanković, R. (2024) BERT Downstream Task Analysis: Named Entity Recognition in Serbian. In Trajanović, M., Filipović, N. & Zdravković, M. (eds), Disruptive Information Technologies for a Smart Society. ICIST 2024. Lecture Notes in Networks and Systems, vol 860. Cham, Springer, pp. 333–347, https://doi.org/10.1007/978-3-031-71419-1_29
Klajn, I. (2007) Grammatica della lingua serba. Beograd, Zavod za udžbenike.
Klie, J. C., Bugert, M., Boullosa, B., De Castilho, R. E. & Gurevych, I. (2018) The inception platform: Machine-assisted and knowledge-oriented interactive annotation. In Zhao, D. (ed.), Proceedings of the 27th international conference on computational linguistics: System demonstrations. Santa Fe, New Mexico, Association for Computational Linguistics, pp. 5–9.
Moderc, S., Stanković, R., Tomašević, A. & Škorić, M. (2023) An Italian-Serbian Sentence Aligned Parallel Literary Corpus. Review of the National Center for Digitization. 43, 78–91, https://doi.org/10.5281/zenodo.11203388
Mrazović, P. (2009) Gramatika srpskog jezika za strance. Sremski Karlovci-Novi Sad, Izdavačka knjižarnica Zorana Stojanovića.
Obradović, I., Stanković, R. & Utvić, M. (2008) Integrisano okruženje za pripremu paralelizovanog korpusa. In Tošović, B. (ed.), Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen. Münster, LitVerlag, pp. 563–578.
Perišić Arsić, O. (2020) Translating lexical gaps: A contrastive corpus-based analysis. In Matešić, M. & Memišević, A. (eds), Language and Mind. Proceedings from the 32nd International Conference of the Croatian Applied Linguistics Society. Berlin, Peter Lang, pp. 93–108.
Perišić, O., Stanković, R., Ikonić Nešić, M. & Škorić, M. (2023) It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text. In Erjavec, T. & Eskevich, M. (eds), Selected Papers from the CLARIN Annual Conference 2022, pp. 99–110. https://doi.org/10.3384/ecp198
Salkie, R. (2002) How can linguists profit from parallel corpora? In Borin, L. (ed.), Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, 22 – 23 April, 1999. Amsterdam – New York, Rodopi, pp. 111-122.
Stanković, R., Krstev, C., Vitas, D., Vulović, N. & Kitanović, O. (2017) KeywordBased Search on Bilingual Digital Libraries. In Calì, A., Gorgan, D. & Ugarte, M. (eds), Semantic Keyword-Based Search on Structured Data Sources. IKC 2016. Lecture Notes in Computer Science. Cham, Springer, pp. 112–123, https://doi.org/10.1007/978-3-319-53640-8_10
Stanković, R., Škorić, M. & Šandrih Todorović, B. (2022) Parallel bidirectionally pretrained taggers as feature generators. Applied Sciences. 12(10), 5028, https://doi.org/10.3390/app12105028
Stanković, R., Ikonić Nešić, M., Perišić, O., Škorić, M. & Kitanović, O. (2024) Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking. In Chiarcos, C., Gkirtzou, K. et al. (eds), Proceedings of the 9th Workshop on Linked Data in Linguistics @ LREC-COLING 2024, Turin, 20-25 May 2024, Torino, ELRA & ICCL, pp. 115–125.
Škorić, M. (2024) Novi jezički modeli za srpski jezik. Infotheca. 24(1), accepted for publishing.
Tognini Bonelli, E. (2000) ‘Unità funzionali complete’ in inglese e in italiano: verso un approccio corpus-driven. In Bernardini, S. & Zanettin, F. (eds), I corpora nella didattica della traduzione. Bologna, Clueb, pp. 153–175.
Toury, G. (1980) In Search of a Theory of Translation. Tel Aviv, The Porter Institute for Poetics and Semiotics.
Trousterud, T. (2002) Parallel corpora as tools for investigating and developing minority languages. In Lars, B. (ed.), Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, Sweden, 22-23 April, 1999. Language and Computers, 43, 111-122.
Venuti, L. (1995), The Translator’s Invisibility: A History of Translation, London-New York: Routledge.
Vitas, D. & Krstev, C. (2012) Processing of corpora of Serbian using electronic dictionaries. Prace Filologiczne. 63, 279-292.
Zanettin, F. (1994) Parallel words: designing a bilingual database for translation activities. In Wilson, A. & McEnery, T. (eds), Corpora in language education and research: a selection of papers from Tale 94, UCREL technical papers, 4. Lancaster, UCREL, pp. 163–180.
##submission.downloads##
Objavljeno
Kako citirati
Broj časopisa
Sekcija
Licenca

Ovaj rad je pod Creative Commons Aуторство-Nekomercijalno-Bez prerade 4.0 Internacionalna licenca.