Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Программные системы и вычислительные методы
Правильная ссылка на статью:

Батура Т.В. Методы определения авторского стиля текстов и их программная реализация

Аннотация: Статья представляет собой обзор формальных методов атрибуции текстов. Задачи определения авторства текстов встречаются в различных областях и представляют интерес для филологов, литературоведов, историков, юристов. При решении задачи атрибуции наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. В некотором смысле более узкой задачей является задача сентимент-анализа (определения тональности текста). Методы ее решения могут оказаться полезными при определении автора текста. К сожалению, экспертный анализ авторского стиля является трудоемким и длительным процессом. Целесообразно создание новых подходов, позволяющих хотя бы частично автоматизировать деятельность экспертов. Поэтому в статье уделяется внимание именно формальным методам идентификации авторов текстов и программной реализации этих методов. В настоящее время для атрибуции текстов применяются алгоритмы сжатия данных, методы математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. В статье приведено описание наиболее известных на сегодняшний день программных систем для определения авторского стиля текстов на русском языке, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилестических параметров текста и проблему составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, на поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.


Ключевые слова:

атрибуция текста, определение авторства, формальные параметры текста, авторский стиль, классификация текстов, машинное обучение, стастистический анализ, компьютерная лингвистика, идентификация стиля автора, анализ текстовой информации

Abstract: the article presents a review of formal methods of text attribution. The problem of determining the authorship of texts is present in different field and is important for philologists, literary critics, historians, lawyers. In solving the problem of text attribution the main interest and the main complexity is in the analysis of syntactic, lexical/idiomatic and stylistic levels of text. In a sense, a narrower task is in the text sentiment-analysis (defining the tone of the text). Techniques for solving the task can be useful for identifying authorship of the text. Unfortunately, expert analysis of author’s style is complex and time consuming. It’s desirable to find new approaches, allowing at least partially automate experts’ work. Therefore the article pays special attention exactly to the formal methods of author’s identification and software implementation of such methods. Currently, algorithms of data compression, methods of mathematical statistics, probability theory, neural networks algorithms and cluster analysis algorithms are applied for text attribution. The article describes the most popular software systems for author’s style identification for Russian language. Author attempts to make a comparative analysis, identify features and drawbacks of the reviews approaches. Among the problems hindering researches in text attribution there are a problem of selecting linguostylistic parameters of the text and a problem of selecting sample texts. The author states that there is a need in further researches, aimed at finding new or improving existing methods of texts attribution, at finding new characteristics allowing to clearly separate author’s style, including cases of short texts and small number of sample texts.


Keywords:

text attribution, defining authorship, formal text parameters, author’s style, text classification, machine learning, statistical analysis, computer linguistics, identification of author’s style, analysis of textual information


Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография
1. Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста: Автореф. дис. канд. тех. наук. Томск, 2010. 26 с.
2. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами теории распознавания образов. Л.: ЛГУ, 1990. 164 с.
3. Родионова Е.С. Методы атрибуции художественных текстов // Структурная и прикладная лингвистика: Межвузовский сборник. СПб.: СПбГУ, 2008. Вып. 7. С. 118–127.
4. Марков А.А. Об одном применении статистического метода // Известия Императорской Академии наук. Сер. 6. 1916. Т. 10, № 4. С. 239–242.
5. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов // Новая хронология Греции: Античность в Cредневековье. М.: МГУ, 1995. 422 с.
6. Хмелёв Д.В. Классификация и разметка текстов с использованием методов сжатия данных // Всё о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html (дата обращения: 17.04.2014)
7. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9: Филология. 2000. №2. С. 115–126.
8. Кукушкина О.В., Поликарпов А.А, Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. М.: Наука, 2001. Т. 37. № 2. С. 96–108.
9. Шевелёв О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. канд. тех. наук. Томск, 2006. 18 с.
10. Тимашев А.Н. Атрибутор // Текстология. ru. 1999–2007. URL: http://www.textology.ru/atr_resum.html (дата обращения: 17.04.2014)
11. Информационная система «Статистические методы анализа литературного текста». 2004. URL: http://smalt. karelia.ru (дата обращения: 16.04.2014) .
12. Рогов А.А., Сидоров Ю.В., Король А.В. Автоматизированная система обработки и анализа литературных текстов СМАЛТ // Труды и материалы II-го Международного конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М: МГУ, 2004. С. 485–486.
13. Антиплагиат. 2005–2014. URL: http://www.antiplagiat.ru (дата обращения: 16.04.2014)
14. Шевелёв О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие. Томск: ТМЛ-Пресс, 2007. 144 с.
15. Романов А.С., Мещеряков Р.В. Идентификация автора текста с помощью аппарата опорных векторов / А.С. Романов, Р.В. Мещеряков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009». М.: РГГУ, 2009. Вып. 8, №15. С. 432–437.
16. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. Vol. 2, No 1-2. 2008. P. 1–135.
17. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: cб. научных статей. М.: Изд-во РГГУ, 2011. Вып. 10, №17. С. 510–522.
18. Yi J., Nasukawa T., Bunescu R., Niblack W. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques // Proc. of the Third IEEE International Conference on Data Mining (ICDM 2003), 2003. P. 427–434.
19. Остин Дж. Слово как действие // Новое в зарубежной лингвистике. М.: Прогресс, 1986. Вып. 17. С. 22–130.
20. Онлайн энциклопедия «Кругосвет». 1997–2014. URL: http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/ RECHEVO_AKT.html (дата обращения: 15.04.2014)
21. Серль Дж. Что такое речевой акт? // Новое в зарубежной лингвистике. М., 1986. Вып. 17. С. 151–169
References
1. Romanov A.S. Metodika i programmnyy kompleks dlya identifikatsii avtora neizvestnogo teksta: Avtoref. dis. kand. tekh. nauk. Tomsk, 2010. 26 s.
2. Marusenko M.A. Atributsiya anonimnykh i psevdonimnykh literaturnykh proizvedeniy metodami teorii raspoznavaniya obrazov. L.: LGU, 1990. 164 s.
3. Rodionova E.S. Metody atributsii khudozhestvennykh tekstov // Strukturnaya i prikladnaya lingvistika: Mezhvuzovskiy sbornik. SPb.: SPbGU, 2008. Vyp. 7. S. 118–127.
4. Markov A.A. Ob odnom primenenii statisticheskogo metoda // Izvestiya Imperatorskoy Akademii nauk. Ser. 6. 1916. T. 10, № 4. S. 239–242.
5. Fomenko V.P., Fomenko T.G. Avtorskiy invariant russkikh literaturnykh tekstov // Novaya khronologiya Gretsii: Antichnost' v Crednevekov'e. M.: MGU, 1995. 422 s.
6. Khmelev D.V. Klassifikatsiya i razmetka tekstov s ispol'zovaniem metodov szhatiya dannykh // Vse o szhatii dannykh, izobrazheniy i video. 2003. URL: http://compression.ru/download/articles/classif/intro.html (data obrashcheniya: 17.04.2014)
7. Khmelev D.V. Raspoznavanie avtora teksta s ispol'zovaniem tsepey A.A. Markova // Vestnik MGU. Ser. 9: Filologiya. 2000. №2. S. 115–126.
8. Kukushkina O.V., Polikarpov A.A, Khmelev D.V. Opredelenie avtorstva teksta s ispol'zovaniem bukvennoy i grammaticheskoy informatsii // Problemy peredachi informatsii. M.: Nauka, 2001. T. 37. № 2. S. 96–108.
9. Shevelev O.G. Razrabotka i issledovanie algoritmov sravneniya stiley tekstovykh proizvedeniy: Avtoref. dis. kand. tekh. nauk. Tomsk, 2006. 18 s.
10. Timashev A.N. Atributor // Tekstologiya. ru. 1999–2007. URL: http://www.textology.ru/atr_resum.html (data obrashcheniya: 17.04.2014)
11. Informatsionnaya sistema «Statisticheskie metody analiza literaturnogo teksta». 2004. URL: http://smalt. karelia.ru (data obrashcheniya: 16.04.2014) .
12. Rogov A.A., Sidorov Yu.V., Korol' A.V. Avtomatizirovannaya sistema obrabotki i analiza literaturnykh tekstov SMALT // Trudy i materialy II-go Mezhdunarodnogo kongressa issledovateley russkogo yazyka «Russkiy yazyk: istoricheskie sud'by i sovremennost'». M: MGU, 2004. S. 485–486.
13. Antiplagiat. 2005–2014. URL: http://www.antiplagiat.ru (data obrashcheniya: 16.04.2014)
14. Shevelev O.G. Metody avtomaticheskoy klassifikatsii tekstov na estestvennom yazyke: Uchebnoe posobie. Tomsk: TML-Press, 2007. 144 s.
15. Romanov A.S., Meshcheryakov R.V. Identifikatsiya avtora teksta s pomoshch'yu apparata opornykh vektorov / A.S. Romanov, R.V. Meshcheryakov // Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoy Mezhdunarodnoy konferentsii «Dialog 2009». M.: RGGU, 2009. Vyp. 8, №15. S. 432–437.
16. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. Vol. 2, No 1-2. 2008. P. 1–135.
17. Pazel'skaya A.G., Solov'ev A.N. Metod opredeleniya emotsiy v tekstakh na russkom yazyke // Komp'yuternaya lingvistika i intellektual'nye tekhnologii: cb. nauchnykh statey. M.: Izd-vo RGGU, 2011. Vyp. 10, №17. S. 510–522.
18. Yi J., Nasukawa T., Bunescu R., Niblack W. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques // Proc. of the Third IEEE International Conference on Data Mining (ICDM 2003), 2003. P. 427–434.
19. Ostin Dzh. Slovo kak deystvie // Novoe v zarubezhnoy lingvistike. M.: Progress, 1986. Vyp. 17. S. 22–130.
20. Onlayn entsiklopediya «Krugosvet». 1997–2014. URL: http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/ RECHEVO_AKT.html (data obrashcheniya: 15.04.2014)
21. Serl' Dzh. Chto takoe rechevoy akt? // Novoe v zarubezhnoy lingvistike. M., 1986. Vyp. 17. S. 151–169