Создание русского WordNet на основе конвертации данных тезауруса РуТез



Скачать 28,12 Kb.
страница1/6
Дата21.07.2022
Размер28,12 Kb.
#187596
  1   2   3   4   5   6
Связанные:
Создание русского WordNet на основе конвертации данных тезауруса РуТез
Реферат (Матковская), Рецензия на реферат (Матковская) - копия

Создание русского WordNet на основе конвертации данных тезауруса РуТез
В этой статье мы описали полуавтоматический процесс трансформации тезауруса RuThes русский язык (в версии, RuThes-Lite 2.0) для WordNet-подобных тезауруса, называется RuWordNet. В этой процедуре мы попытались для достижения двух основных характерных черт WordNet-подобных ресурсов: разделение данных в рамках Организации-речевых-ориентированных структур с перекрестными ссылками между ними и предоставления набора отношений, подобных WordNet-подобных ресурсов. Опубликованная версия RuWordNet содержит более 115 тысяч Русских слов и фраз, представленные в виде трех лексических сетей для существительные, глаголы и прилагательные. Между synsets таких отношений, как hyponymhypernym, мероним и холоним, часть-оф-речи синонимии, установлены антонимия. В статье мы сравним с веб-страниц представления RuThes 2.0 и Ru- WordNet. Можно видеть, что RuThes выглядит, как онтология, описывающая концепции и их отношения и RuWordNet выглядит как сеть слов. Исследователи можно получить оба типа тезаурусов и сравнить их в приложениях. В будущем, мы будем продолжать добавлять новые типы отношений к RuWordNet включая домен отношение, причина отношение, то отношение Воплощение и т.д.


1. Введение
WordNet-подобных ресурсов (Fellbaum, 1998) являются одним из самых популярных ресурсов используется для обработки естественного языка, Wordnet проекты были инициированы для многих языки во многих странах. По крайней мере четыре попытки создать русский WordNet известны. RussNet (Azarowa, 2008) начал разработку с нуля, и в этот момент, как представляется, весьма мала (не более 20000 synsets). Два других российских wordnets были получены с использованием автоматизированный перевод (Gelfenbeyn и др, 2003;. Balkova и др., 2008). Первый публично available1, но представляет собой прямой перевод с Princeton WordNet без какого-либо ручного пересмотра. Последний русский WordNet проект ПРЯЖА (Еще один Русский WordNet) была начата в 2012 году и создается с помощью краудсорсинга подход; В настоящее время она содержит в основном synsets с небольшим числом отношений их (Браславский и др., 2014). Для русского языка, существует RuThes тезаурус, лингвистическую онтологию, в состав которой имеет отличия от WordNet подхода. RuThes является более онтология-ориентированной Ресурс: понятия тезауруса имеют уникальные имена, текстовые записи всех частей речи могут быть связаны с той же концепции, RuThes отношения более формальный концептуальный связи. Текущий размер опубликованной версии RuThes (RuThes-Lite 2.0), доступный для некоммерческого использования, составляет более 115 тысяч текстов entries2. RuThes было специально созданная для поиска информации и естественного языка приложений, она может можно использовать в большинстве применений, где обычно используется WordNet, но исследователи и практикующие хотят иметь русский WordNet. В этой статье мы опишем преобразование данных RuThes в WordNet-подобных ресурс, называемый RuWordNet. В этом процессе мы пытаемся воспроизвести две основные функции структуры Princeton WordNet, таких как организация в форме частичной ofspeech лексические сети и базовый набор отношений. Текущий объем RuWordNet такая же, как в опубликованной версии RuThes-Lite 2.0 (115 тысяч записей). Оно может увидеть в сети Интернет, и может быть получена в формате XML. Работа организована следующим образом. Во втором разделе рассматриваются соответствующей работы. В третьем разделе рассмотрены основные особенности структуры WordNet. Четвертый раздел описывает основную структуру RuThes и ее отличия от WordNet. Пятый раздел представляет процесс трансформации от RuThes до RuWordNet и достиг Результаты. Шестой раздел сравнивает веб-представления RuThes и RuWordNet.



Скачать 28,12 Kb.

Поделитесь с Вашими друзьями:
  1   2   3   4   5   6




База данных защищена авторским правом ©psihdocs.ru 2022
обратиться к администрации

    Главная страница