Создание русского WordNet на основе конвертации данных тезауруса РуТез



Скачать 28,12 Kb.
страница5/6
Дата21.07.2022
Размер28,12 Kb.
#187596
1   2   3   4   5   6
Связанные:
Создание русского WordNet на основе конвертации данных тезауруса РуТез
Реферат (Матковская), Рецензия на реферат (Матковская) - копия
5. Переход от RuThes до RuWordNet
В соответствии с руководящими принципами всемирно известного WordNet тезауруса, первая версия русского WordNet (RuWordNet) была создана. На наш взгляд, одной из самых отличительных черт WordNet-подобных ресурсов является их разделение на synset сеток по частям речи. Поэтому все текстовые записи из RuThes-LITE 2.0 были разделены на три части речи: существительные (одиночные существительные, существительных группы или группы) предлог, глаголы (одиночные глаголы и глагольные группы), прилагательные (одиночные прилагательные и прилагательные группы). Мы получили 29,297 существительного synsets, 12,865 прилагательное synsets и 7,636 глагола synsets (таблица 1). Это подразделение было основано на морфосинтакси- представлении RuTheslite записи 2.0 текст, который был выполнен полуавтоматически. Таким образом, небольшое число ошибок из-за обработки частиц (глаголов или прилагательных) или substantivated может появиться прилагательные. Например, русская фраза подраться любитель (= драчун) [Дебошир, забияка] обрабатывали в этой процедуре в качестве глагола группы и в настоящее время назначается к глаголу synsets. В настоящее время все обнаруженные ошибки исправлены. Разделенные synsets были связаны с отношением частичной из речи синонимии. Установлены Гипонимы-hypernym отношения между synsets одного и того же часть речи. Эти отношения включают в себя прямые Гипонимы-hypernym отношения с RuThes-LITE 2.0. Кроме того, свойство транзитивности-hypernym Гипонимы отношений был использован в тех случаях, когда конкретный synset не содержал определенную часть речи, но его родитель и ребенок имел текстовые записи этой части речи. В таких случаях hypernymyhyponymy связь была установлена ​​между ребенком и родителем этого synset. По аналогии с текущей версии Princeton WordNet, в RuWordNet класса инстанции также установлены отношения. К настоящему времени, они были сформированы полуавтоматически для географические объекты. Часть-целое отношения из RuThes были полуавтоматически переданы и корректируются в соответствии с традициями WordNet-подобных ресурсов. Теперь RuWordNet содержит 3,5 тыс часть-целое отношений. Часть-целое отношения включают в себя следующие подвиды:
• функциональные части (ноздрями нос),
• ингредиенты (добавки вещество),
• географические части (Sevilia-Андалусия),
• Члены (монах-монастырь),
• жители (москвич-Москва),
• временные части (гамбит-шахматная партия)
• включение обработанных, деятельности (промышленное производство-промышленный цикл)
Прилагательные в RuWordNet по аналогии с немецким или польским wordnets связаны с Гипонимы-hypernym отношений. Например, слово цветовой [цветной] связан таких, как гипонимов красный [красный], [СИНИЙ синий], зеленый [зеленый], еtc. Прилагательные часто имеют POS-синонимика ссылки на существительные, но могут также иметь POS-синонимы чтобы глагол synsets. Например, слово имеет два строительный POS-синонимией отношения: с существительным synset {стройка, постройка, возведение, сооружение ..} и к глаголу synset {строить, построить, ...} возводить. Особенностью текущего состояния описания прилагательных в RuWordNet является существование частичной целых отношений (Прибрежный-портовый) и даже экземпляр класса соотношения (майкопский-северо-кавказский) (таблица 2), что прилагательные унаследованный от RuThes понятий. Эти отношения должны быть переименован в hyponym-hypernym отношения. В текущем RuWordNet представлении русских глаголов, часть-целое отношений можно увидеть. Например, synset {видеть во сне, сниться, грезиться, присниться, привидеться во сне, пригрезиться, пригрезиться во сне »} [мечтать] связан чтобы synset {спать, поспать, доспать, соснуть, досыпать, почивать, проспать, просыпать} [спать] с часть-целое отношение. Такое соотношение между переводом эквиваленты [на сон-спать] существует также в Принстонском WordNet и называется "Воплощение отношение". Другой пример из RuWordNet является {оппонировать, оппони-
ровать диссертацию}, которая описывается как часть для {} защитить диссертацию.
Кристиан Fellbaum писал (Fellbaum, 1998), что «Воплощение соотношение между
глаголы напоминает мероним и холоним между существительными, но мероним и холоним лучше подходит для существительных чем глаголы ». Таким образом, простое переименование часть-целое отношения между глаголами в RuWordNet в Воплощение отношений возможно и правильно. Антонимия отношения являются концептуальные отношения в RuWordNet, что означает, что они ссылаются synsets, а не одиночные лексемы. Они введены для всех частей речи, в основном для synsets, обозначающие свойства и состояния, например:
• существительное synset {легкость, с легкостью, без труда, без затруднений} [легкость в качестве существительного] является антонимичный к synset {, тяжесть} [трудность] трудности,
• прилагательное synset {легкий, легкий для выполнения, легкий для осуществления, нетрудный} [легкость, как прилагательное] является антонимичный к synset {Тяжкий, Трудный, тяжелый, трудный для выполнения, нелегкий ...} [трудно],
• глагол synset {не соответствовать действительности} [противоречащим к Тот факт] является антонимичный к synset {соответствовать истине, соответствовать} действительности [быть в соответствии с истиной].Современные номера отношений, описанных в RuWordNet представлены в таблице 2.



Скачать 28,12 Kb.

Поделитесь с Вашими друзьями:
1   2   3   4   5   6




База данных защищена авторским правом ©psihdocs.ru 2022
обратиться к администрации

    Главная страница