Development of Serbian dictionary for automatic text analysis (LIWCser)
Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser)
Abstract
Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four ph...ases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology.
Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odr...ednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije.
Keywords:
automatic text analysis / Serbian dictionary LIWCser for automatic textanalysis / verbal behaviour / implicit and explicit measures / automatska analiza teksta / rečnik srpskog jezika za automatsku analizu teksta LIWCser / verbalno ponašanje / implicitne i eksplicitne mereSource:
Psihološka istraživanja, 2012, 15, 1, 85-110Publisher:
- Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd
Funding / projects:
Collections
Institution/Community
Institut za medicinska istraživanjaTY - JOUR AU - Bjekić, Jovana AU - Lazarević, Ljiljana B. AU - Erić, Milica AU - Stojimirović, Elena AU - Đokić, Teodora PY - 2012 UR - http://rimi.imi.bg.ac.rs/handle/123456789/445 AB - Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four phases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology. AB - Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odrednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije. PB - Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd T2 - Psihološka istraživanja T1 - Development of Serbian dictionary for automatic text analysis (LIWCser) T1 - Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser) EP - 110 IS - 1 SP - 85 VL - 15 DO - 10.5937/PsIstra1201085B UR - conv_1077 ER -
@article{ author = "Bjekić, Jovana and Lazarević, Ljiljana B. and Erić, Milica and Stojimirović, Elena and Đokić, Teodora", year = "2012", abstract = "Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four phases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology., Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odrednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije.", publisher = "Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd", journal = "Psihološka istraživanja", title = "Development of Serbian dictionary for automatic text analysis (LIWCser), Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser)", pages = "110-85", number = "1", volume = "15", doi = "10.5937/PsIstra1201085B", url = "conv_1077" }
Bjekić, J., Lazarević, L. B., Erić, M., Stojimirović, E.,& Đokić, T.. (2012). Development of Serbian dictionary for automatic text analysis (LIWCser). in Psihološka istraživanja Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd., 15(1), 85-110. https://doi.org/10.5937/PsIstra1201085B conv_1077
Bjekić J, Lazarević LB, Erić M, Stojimirović E, Đokić T. Development of Serbian dictionary for automatic text analysis (LIWCser). in Psihološka istraživanja. 2012;15(1):85-110. doi:10.5937/PsIstra1201085B conv_1077 .
Bjekić, Jovana, Lazarević, Ljiljana B., Erić, Milica, Stojimirović, Elena, Đokić, Teodora, "Development of Serbian dictionary for automatic text analysis (LIWCser)" in Psihološka istraživanja, 15, no. 1 (2012):85-110, https://doi.org/10.5937/PsIstra1201085B ., conv_1077 .