RIMI - Repository of the Institute for Medical Research
Institute for Medical Research
    • English
    • Српски
    • Српски (Serbia)
  • English 
    • English
    • Serbian (Cyrillic)
    • Serbian (Latin)
  • Login
View Item 
  •   RIMI
  • Institut za medicinska istraživanja
  • Radovi istraživača / Researchers' publications
  • View Item
  •   RIMI
  • Institut za medicinska istraživanja
  • Radovi istraživača / Researchers' publications
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Development of Serbian dictionary for automatic text analysis (LIWCser)

Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser)

Thumbnail
2012
442.pdf (172.9Kb)
Authors
Bjekić, Jovana
Lazarević, Ljiljana B.
Erić, Milica
Stojimirović, Elena
Đokić, Teodora
Article (Published version)
Metadata
Show full item record
Abstract
Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four ph...ases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology.

Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odr...ednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije.

Keywords:
automatic text analysis / Serbian dictionary LIWCser for automatic textanalysis / verbal behaviour / implicit and explicit measures / automatska analiza teksta / rečnik srpskog jezika za automatsku analizu teksta LIWCser / verbalno ponašanje / implicitne i eksplicitne mere
Source:
Psihološka istraživanja, 2012, 15, 1, 85-110
Publisher:
  • Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd
Funding / projects:
  • Identification, measurement and development of the cognitive and emotional competences important for a Europe-oriented society (RS-179018)

DOI: 10.5937/PsIstra1201085B

ISSN: 0352-7379

[ Google Scholar ]
URI
http://rimi.imi.bg.ac.rs/handle/123456789/445
Collections
  • Radovi istraživača / Researchers' publications
Institution/Community
Institut za medicinska istraživanja
TY  - JOUR
AU  - Bjekić, Jovana
AU  - Lazarević, Ljiljana B.
AU  - Erić, Milica
AU  - Stojimirović, Elena
AU  - Đokić, Teodora
PY  - 2012
UR  - http://rimi.imi.bg.ac.rs/handle/123456789/445
AB  - Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four phases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology.
AB  - Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odrednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije.
PB  - Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd
T2  - Psihološka istraživanja
T1  - Development of Serbian dictionary for automatic text analysis (LIWCser)
T1  - Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser)
EP  - 110
IS  - 1
SP  - 85
VL  - 15
DO  - 10.5937/PsIstra1201085B
UR  - conv_1077
ER  - 
@article{
author = "Bjekić, Jovana and Lazarević, Ljiljana B. and Erić, Milica and Stojimirović, Elena and Đokić, Teodora",
year = "2012",
abstract = "Automatic text analysis is a methodological approach in the analysis of individual differences in verbal behaviour. It enables extraction of statistically manipulable information about intensity and/or frequency of thematic and stylistic characteristics of verbal output. LIWC (Linguistic Inquiry and Word Count), one of the widely used software solutions for automatic text analysis, performs analyses by matching word stems from incorporated software dictionary with those from text input. It provides information about the percentage of each of the predefined categories in the analyzed text. Research suggests that data obtained by automatic text analysis have potential in explaining the relationship between implicit and explicit measures, independently of the object of measurement (attitudes, pathological potential, assessment of basic personality traits etc.). The topic of this paper is the development of the Serbian LIWC dictionary. Development of the dictionary was performed in four phases: translation of English LIWC dictionary, forming lemmas, classification of word stems according to absolute consensus among four independent raters (where word stems could be categorized in more than one category, depending on the context), and revision of the content of categories and creation of final set of word stems. The final version of the LIWCser dictionary contains 12103 word stems classified into 65 categories (linguistic, psychological and personal concerns). Only four word stems (0.03%) were classified into eight categories, 22 (0.2%) into seven, 147 (1.2%) into six, and 568 (4.7%) into five. 1531 (12.6%) word stems were classified into four categories, 2913 (24.1%) into three, 4800 (39.7%) into two, while 2188 (17.5%) word stems were classified into only one category. Development of the LIWCser dictionary allows researchers to collect and analyze data on verbal behaviour and to study the relationship between implicit and explicit measures in different fields of psychology., Automatska analiza teksta je metodološki pristup analizi individualnih razlika u verbalnoj produkciji (ponašanju) koji omogućava ekstrakciju statistički manipulabilnih informacija o intenzitetu i/ili frekvenci tematskih i stilističkih karakteristika verbalnih produkata. LIWC (Linguistic Inquiry and Word Count) jedan je od najzastupljenijih programa za automatsku analizu teksta, koji analizu obavlja upoređivanjem odrednica u rečniku sa odrednicama u tekstu i beleženjem relativne zastupljenosti svake od kategorija u datom uzorku teksta. Istraživanja ukazuju na to da mere dobijene obradom verbalnog ponašanja imaju potencijal da objasne odnose između mera dobijenih primenom implicitnih i tradicionalnih eksplicitnih mera, nezavisno od predmeta merenja (stavovi, psihopatološki potencijal, procena bazičnih dimenzija ličnosti itd.). Cilj ovog rada jeste konstrukcija rečnika za srpski jezik LIWCser. Konstrukcija rečnika odvijala se u četiri faze: prevod sadržaja engleskog rečnika, kreiranje odrednica, klasifikacija odrednica pomoću apsolutnog konsenzusa između četiri nezavisna procenjivača (jednu odrednicu moguće je klasifikovati u više kategorija u zavisnosti od konteksta u kojem se upotrebljava) i revizija sadržaja kategorija i formiranje konačnog skupa odrednica. Konačna verzija rečnika LIWCser sadrži 12103 odrednice, klasifikovane u 65 kategorija (lingvističkih, psiholoških i tematskih). Od ukupnog broja odrednica, samo četiri (0,03%) je klasifikovano u osam kategorija, 22 (0,2%) u sedam, 147 (1,2%) u šest, a 568 (4,7%) u pet kategorija. U četiri kategorije klasifikovano je 1531 (12,6%) odrednica, u tri 2913 (24,1%) odrednica, u dve 4800 (39,7%) odrednica, dok je 2118 (17,5%) odrednica klasifikovano samo u jednu kategoriju. Razvojem rečnika LIWCser otvara se mogućnost prikupljanja mera verbalnog ponašanja i dalja istraživanja odnosa implicitnih i eksplicitnih mera u različitim oblastima psihologije.",
publisher = "Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd",
journal = "Psihološka istraživanja",
title = "Development of Serbian dictionary for automatic text analysis (LIWCser), Razvoj srpske verzije rečnika za automatsku analizu teksta (LIWCser)",
pages = "110-85",
number = "1",
volume = "15",
doi = "10.5937/PsIstra1201085B",
url = "conv_1077"
}
Bjekić, J., Lazarević, L. B., Erić, M., Stojimirović, E.,& Đokić, T.. (2012). Development of Serbian dictionary for automatic text analysis (LIWCser). in Psihološka istraživanja
Univerzitet u Beogradu - Filozofski fakultet - Institut za psihologiju, Beograd., 15(1), 85-110.
https://doi.org/10.5937/PsIstra1201085B
conv_1077
Bjekić J, Lazarević LB, Erić M, Stojimirović E, Đokić T. Development of Serbian dictionary for automatic text analysis (LIWCser). in Psihološka istraživanja. 2012;15(1):85-110.
doi:10.5937/PsIstra1201085B
conv_1077 .
Bjekić, Jovana, Lazarević, Ljiljana B., Erić, Milica, Stojimirović, Elena, Đokić, Teodora, "Development of Serbian dictionary for automatic text analysis (LIWCser)" in Psihološka istraživanja, 15, no. 1 (2012):85-110,
https://doi.org/10.5937/PsIstra1201085B .,
conv_1077 .

DSpace software copyright © 2002-2015  DuraSpace
About RIMI | Send Feedback

OpenAIRERCUB
 

 

All of DSpaceCommunitiesAuthorsTitlesSubjectsThis institutionAuthorsTitlesSubjects

Statistics

View Usage Statistics

DSpace software copyright © 2002-2015  DuraSpace
About RIMI | Send Feedback

OpenAIRERCUB