WWW.KNIGI.KONFLIB.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 
<< HOME
Научная библиотека
CONTACTS

Pages:     || 2 | 3 |

« ...»

-- [ Страница 1 ] --

АнАлиз лексико-семАнтических

особенностей регионАльной

прессы (нА примере гАзет

гродненского регионА белАруси)1

Шайкевич А. Я. (lingstat@yandex.ru),

Савчук С. О. (savsvetlana@mail.ru)

Институт русского языка им. В. В. Виноградова

РАН, Москва, Россия

В статье приводятся результаты применения дистрибутивно-статистического анализа к корпусу газет Гродненского региона Беларуси.

Было выделено три подкорпуса — районные газеты, городская газета «Вечерний Гродно» и комментарии читателей в «Вечернем Гродно».

В каждом подкорпусе с помощью дистрибутивно-статистического метода были выделены списки маркеров, которые на основе лингвистического анализа удалось сгруппировать в кластеры, отражающие как тематические, так и стилистические особенности подкорпусов.

Для районных газет ведущими оказались маркеры, связанные работой местной власти, сельским хозяйством, охраной здоровья, охраной порядка и др. Большая группа маркеров определяет стиль текстов районных газет как официальный и книжный. В «Вечернем Гродно» наряду с темами, отражающими повседневную жизнь города, неожиданно на первый план по количеству маркеров выдвинулись темы, связанные с достопримечательностями города и его историей. В стилистическом отношении газете свойственна разговорность и диалогичность.

Маркеры комментариев наследуют маркеры и кластеры маркеров из подкорпуса ВГ и демонстрируют логическое завершение основных стилистических тенденций газеты. Предложенный метод может быть использован для сопоставительного анализа других корпусов текстов.

Ключевые слова: дистрибутивно-статистический анализ, корпус региональных газет Работа выполнена при поддержке РГНФ, проект № 13-24-01004 (м) Shaikevich A. Y., Savchuk S. O.

Distributional-statistical analysis of regional Press (newsPaPers of groDno region of belarus) Shaikevich A. Y. (lingstat@yandex.ru), Savchuk S. O. (savsvetlana@mail.ru) Vinogradov Russian Language Institute of the Russian Academy of Sciences, Moscow, Russia The paper is an application of distributional-statistical analysis (DSA) to the sub-corpora of Grodno region newspapers corpus. The sub-corpora under study are district newspapers, “The Evening Grodno” and commentaries to the latter. With the help of DSA hundreds of keywords have been elicited for each sub-corpus. The linguistic interpretation of those three lists showed that the keywords grouped into clusters reflect both thematic and stylistic features of the sub-corpora.

The district newspapers are specific in the choice of domains (mostly of local interest) and stylistic flavor (mostly official and bookish, to some extent resembling Soviet use). “The Evening Grodno” is more colloquial stylistically; its domains are naturally connected with the day-to-day city life and some topics which were unexpected, such as a large cluster of words denoting places of interest for tourists and inhabitants of the city. The keywords of the commentaries brings the stylistic trend of “The Evening Grodno” to its logical end.

The method may be used for comparative analysis of other corpora, which might bring about new results depending on the composition of the corpus.

Key words: distributional-statistical analysis, regional press, newspaper corpus, Grodno region Введение В статье приводятся результаты исследования лексико-семантических и стилистических особенностей корпуса газет Гродненского региона Беларуси. Исследование проводится в рамках международного проекта, выполняемого коллективами ИРЯ им. В. В. Виноградова РАН и Гродненского государственного университета им. Янки Купалы. Цель проекта состоит в том, чтобы на материале газетных текстов выявить лексико-семантические и культурноспецифические особенности русской речи на территории Гродненского региона. В качестве экспериментальной базы используется создаваемый корпус региональных газет, который составит основу нового модуля в Национальном корпусе русского языка. В настоящее время в белорусскую часть корпуса входят 5 русскоязычных газет за 2012 год: городская газета «Вечерний Гродно»

Distributional-Statistical Analysis of Regional Press и 4 районные газеты — «Берестовицкая газета», «Островецкая правда», «Ивьевский край», «Свислочская газета», общий объем корпуса составляет около тыс. словоупотреблений. Российская часть корпуса формируется из областных и районных газет, а также региональных выпусков «Комсомольской правды».

Одновременно с составлением корпуса ведется поиск наиболее эффективных методов и приемов анализа материала. Как известно, в корпусной лингвистике принято разделение на corpus-based (CBA) и corpus-driven (CDA) подходы к изучению языковых данных. Мы предполагаем использовать оба подхода.

Перспективы применения первого на основе инструментария, предоставляемого НКРЯ, изложены в [Кустова, Савчук 2013]. Ко второму подходу относится дистрибутивно-статистический анализ, опыт использования которого на материале гродненского корпуса излагается в настоящей статье.

1. Метод и процедура анализа Существуют разные меры определения неслучайности концентрации той или иной лексической единицы в конкретном подкорпусе текстов, входящем в более широкой корпус. В настоящем проекте принимается путь, намеченный в публикации [A. Shaikevich, 2001, 229–255].

Как данное принимается следующая ситуация: существует какой-то корпус текстов (и соответствующий частотный словарь), в котором выделяется подкорпус (со своим частотным словарем). Зная долю подкорпуса в общем корпусе, мы можем подсчитать математическое ожидание (m) частоты какой-то лексической единицы в подкорпусе в предположении, что вероятность появления единицы не меняется по сравнению с общим корпусом (нулевая гипотеза).



Затем реальная частота единицы в подкорпусе (f) сравнивается с математическим ожиданием, и в случае значительного расхождения двух величин делается вывод о неслучайности такого расхождения. Мера неслучайности (S) определяется по формуле:

Для отрицательных значений S:

При S=2 следует обратить внимание на данное слово, при S=3 возникнет подозрение в неслучайности отклонения, при S=4 подозрение превращается в уверенность.

Предположим, что корпус гродненских газет включен как подкорпус в общий корпус русскоязычных белорусских и российских газет объемом около 4 млн словоупотреблений. Доля гродненского подкопуса составит 0.22, тогда степень специфичности следующих шести слов составит (F — частота в общем корпусе):

Shaikevich A. Y., Savchuk S. O.

больница белорусский ветеранский Вывод очевиден: частота слов без и больница ничем не отличается от общей нормы, слова белорусский и ветеранский крайне специфичны для гродненского подкорпуса, а частота слов бизнес и власть значимо меньше, чем в общем корпусе.

Будем называть лексическими маркерами те лексические единицы, реальная частота которых значимо превышает математическое ожидание (S превышает некоторый порог). В корпусе гродненских газет мы выделили три подкорпуса: районные газеты (РГ) (80 % всего объема), «Вечерний Гродно» (18 %) и комментарии читателей ВГ (2 %). К ним применена та же процедура выявления маркеров.

В подкорусе РГ обнаружено 217 маркеров (S2), в «Вечернем Гродно» — маркеров (S3), в комментариях — 360 (S2). Расхождения в числе маркеров в значительной мере связаны с самим устройством нашей формулы. Она легко находит маркеры в подкорпусе, составляющем небольшую долю общего корпуса (скажем, менее четверти). Когда подкорпус составляет половину общего корпуса и больше, маркеры выделяются с трудом.

Чтобы обойти эту трудность и все-таки найти характерные черты подкорпуса РГ, прибегнем к двум приемам. Первый прием возможен при данной структуре изучаемого корпуса, в котором больший и меньший подкорпусы покрывают почти весь объем корпуса. Тогда отрицательные маркеры меньшего корпуса можно использовать в качестве кандидатов в положительные маркеры большего корпуса. Рассмотрим как пример слово ввод. Оно встретилось в РГ 59 раз и за их пределами не встретилось ни разу. В большем подкорпусе частота 59 дает S меньше 2, но в городской газете частота 0 делает слово отрицательным маркером и тем самым кандидатом в маркеры подкорпуса РГ.

Такими же кандидатами становятся божественный, ветеранский, вклад, возглавлять, воинский, воспитанник, вправе, встреча, выборы и многие другие слова.

Второй способ пополнения маркеров возможен при любой структуре общего корпуса. Он сводится к группировке нескольких слов, что увеличивает реальную частоту и может вести к повышению S. Слова ВИЧ, ВИЧ-инфекция и ВИЧинфицированный порознь не обладают частотой, достаточной для S=2, но вместе эти три слова набирают частоту 141 в РГ (при 145 во всем корпусе), значение Строго говоря, их следовало бы называть положительными лексическими маркерами. Отрицательными лексическими маркерами можно называть слова, чья частота существенно ниже математического ожидания, но их в корпусе обычно не так много, и они хуже интерпретируются содержательно.

S превысит 2 и сделает группу полновесным маркером.3 Подобным образом маркерами РГ станут выяв-ить, животновод-ство, заготов-ить, информ-ация, кредит-, назнач-ить, налог-, нарко-тик, необходим-о, поруч-ить, страхов-ой, уделять, уплат-а, Христ-ос. Так же пополняется круг кандидатов в маркеры: гордиться, достав-ить, предостав-ить, прокур-ор, эффективн-ость 4. Группировку кандидатов в маркеры будем ниже давать в круглых скобках, заключая список указанием частоты в изучаемом подкорпусе на фоне остальных двух подкорпусов.

Оглядываясь постоянно на тексты, мы можем сводить маркеры в некоторые кластеры, открывающие для нас тематическую и стилистическую специфику изучаемого подкорпуса5.

2. Анализ результатов: маркеры в районных газетах Естественно предположить, что в районных газетах будут представлены маркеры, семантически связанные именно с данным административным образованием: районный f=1553 S=8, район f=2260 S=6, сельский6 S=4, агрогородок7, S=3 совет S=3 административный, населенный, отдел, пункт, сельсовет, территория (межрайонный, муниципалитет, полномочия, поселковый, село 226:9). К этому же кластеру следует отнести жителей района с их жильем и контактами с администрацией: работник f=1030 S=6, заявление f=431 S=3, Для краткости одно из слов такой группы будем делать ее представителем, выделяя в нем основу. Так за символом выплат-а будут скрываться четыре слова — выплата, выплатить, выплачивать, выплачиваться.

Группировку кандидатов в маркеры будем ниже давать в круглых скобках, заключая список указанием частоты в изучаемом подкорпусе на фоне остальных двух подкорпусов.

Такой анализ необходимо проводить при постоянном обращении к текстам, чтобы избежать ошибок при классификации многозначных лексем, а также контролировать влияние привычных ассоциативных связей. Так, например, первоначально предполагалось, что слово сердце имеет отношение к кластеру «медицина», а минировать — к «военной истории». Однако в ходе проверки выяснилось, что сердце (в районных газетах f= S=2) употребляется почти исключительно в метафорическом значении (чистые сердца, доброе сердце, зов сердца, найдется место в сердце, прикипела душой и сердцем и под.), и поэтому не годится на роль «медицинского» маркера. А слово минировать (в ВГ f=8, S=4) вообще, как выяснилось, к войне не имеет отношения, поскольку все 8 вхождений встретились в составе терминологического наименования минирующая моль.

Высокий показатель маркера сельский связан, скорее всего, с тем, что в подкорпус РГ попали газеты четырех районов с преимущественно сельским населением.



Pages:     || 2 | 3 |
 



Похожие работы:

«ЧЖУД-ШИ памятник средневековой тибетской культуры Ответственные редакторы кандидат медицинских паук С. М. Николаев, доктор исторических наук Р. Е. Пубаев Чжуд-ши — классический источник тибетской медицины, в котором собран многовековой опыт тибетских лекарей, использовавших в своей практике достижения медицинских систем Индии, Китая и других стран. Излагаются основные положения тибетской медицины, представлены теоретические установки и лекарственное сырье. Впервые на русском языке описаны...»

«Великие rеолоrические открытия ROMANOVSКY S. 1. ТНЕ GREAT GEOLOGICAL DISCOVERIES Second edition. revised РГеБВ VSEGEl PetP.Гfiburg St. 2005 с. и. РОМАНОВСКИЙ ВЕЛИКИЕ ГЕОЛОГИЧЕСКИЕ · ОТКРЫТИЯ Издание второе, переработ8ННое и дополненное Издательство ВСЕГЕИ Санкт· Петербург 2005 ВВК 26.3 Р69 55(09) УДК Романовскнй С. И. Великие геологические открытия/ Рсд. о. В. Петров. И ПД8lше 2-е. псрсраб. и дополн. СПб., ИЗД-во ВСЕГЕИ с. 2005. 224 Автором в поnyлярной форме описаны крупнейшие заво­ евания...»

«И. X. КАЛМЫКОВ |:S' h MmmPi [ 1 НАРОДОВ. С О ВЕТС К О Й f К А РА Ч А ЕВ О -Ч ЕР К ЕС И И ж ФСаеъ) К 17 КАРАЧАЕВО-ЧЕРКЕССКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ 00 ЭКОНОМИКИ, ИСТОРИИ, ЯЗЦКА И ЛИТЕРАТУРЫ ' И. X. К а л м ы ко в О KJAlTyfE иИТС НАРОДОВ КАРАЧАЕВО-ЧЕРКЕСИИ 4 * O ' -ь 0+ СТАВРОПОЛЬСКОЕ КНИЖНОЕ ИЗДАТЕЛЬСТВО КАРАЧАЕВО-ЧЕРКЕССКОЕ ОТДЕЛЕНИЕ Ч Е Р К Е С С К — 1970 Гч ГЛ А В A I ОБЩИЕ СВЕДЕНИЯ ПО НАРОДАМ КАРАЧАЕВО-ЧЕРКЕСИИ КРАТКИЙ ГЕОГРАФИЧЕСКИЙ ОЧЕРК П рирода К арачаево-Ч еркеси и еще в...»

«Аннотация Анатоль Франс – классик французской литературы, мастер философского романа. В Острове пингвинов в гротескной форме изображена история человеческого общества от его возникновения до новейших времен. По мере развития сюжета романа все большее место занимает в нем сатира на современное писателю французское буржуазное общество. Остроумие рассказчика, яркость социальных характеристик придают книге неувядаемую свежесть. Содержание Всеобщая история нелепостей 7 Предисловие 26 Книга первая 41...»

«О доблести, о подвигах, о славе героев Отечественной войны 1812 Библиографический указатель Обращение М. И. Кутузова к войскам накануне Бородинского сражения. Художник Ю. Атланов. 1982 г. Подготовила: гл. библиограф Н. Анисимова М.: 2012 Содержание: 1. Вступление 2 2. Книги об Отечественной войне 1812 года и ее героях 3-10 2.1. Отечественная война 1812 года 3-6 2.2. Полководцы России 6-7 2.3. Михаил Илларионович Кутузов 7-8 2.4. Петр Иванович Багратион 9 2.5. Барклай де Толли 9 2.6. Денис...»

«ПРОГРАММА вступительного испытания Общая социология для поступающих в магистратуру по направлению 040100.68 СОЦИОЛОГИЯ РАЗДЕЛ ОБЩАЯ СОЦИОЛОГИЯ Предмет, структура и парадигмы современного социологического знания Объект, предмет и структура социологии. Парадигмальный статус науки, его критерии. Парадигма науки и научная теория. Социологическая парадигма, социологическая теория и метатеория. Метасоциология. Многовариантный статус парадигм в социологии. Понятие социального. Парадигмы: · социальных...»

«Д.М. Магомедова Лекции по русской культуре конца XIX – начала ХХ в. Пособие для иностранных студентов (Программа Темпус) Москва 2005 2 Оглавление Серебряный век как переходная эпоха.3-24 Художественная жизнь эпохи..25-38 Музыка на рубеже XIX – XX вв..39-53 Саморефлексия культуры: культурфилософские концепции рубежа веков..54-65 3 Серебряный век как переходная эпоха 1. Краткий очерк исторических событий. 2. Кризис сословной системы: от сословий к профессионализации. Интеллигентные профессии....»

«/I ВЕСТНИК ПОЛОЦКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. С ерш А 2013 УДК 94(476.6) “ 1805/60”:619 ЭПИЗООТИЧЕСКОЕ СОСТОЯНИЕ ГРОДНЕНСКОЙ ГУБЕРНИИ В 1 8 0 5 -1 8 6 0 ГОДАХ А. С. БИЛЕЦКИЙ (Гродненский государственный университет им. Я. Купалы) Представлено комплексное исследование истории становления ветеринарии Гродненской губер­ нии в первой половине X IX века. Опираясь на статистический материал, показан уровень её эпизооти­ ческого состояния, характеризующий особенности формирования и основные...»

«Книги и люди. Люди и судьбы. Сплетение судеб. Толчком, побудившим меня вспомнить старую историю и еще раз вгляде­ ться в ее героев стала книга Записки флота капитана Головнина о его nриключе­ ниях в плену у японцев в и годах, с приобщением замечаний его о 1811, 1812 1813 Японском государстве и народе. Она относится к тем книгам, которые можно читать и перечитывать много раз, черпая в них заряд душевной бодрости и заново восхищаясь людьми, сумевшими одолеть судьбу в самых неблагоприятных обстоя­...»

«Историко-культурное введение в политологию Ответственный редактор — Н. М. Холотянц Предлагаемое Пособие вызвано к жизни многочисленными недоумениями учащихся, с которыми автор сталкивался и сталкивается в процессе преподавания исторических и историко-культурных дисциплин. С середины 1970-х гг. автор начал читать курсы русской истории в высшей и средней школе. Позднее сложились факультативные курсы русского средневекового искусства и русской архитектуры, а на их базе и курс истории отечественной...»






 
© 2013 www.knigi.konflib.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.