Определение начальной словоформы
Кодер 21.09.2005 17:02
Немного оффтопик, то возможно кто-то сталкивался с решением подобной проблемы.
Итак есть задача. Надо в произвольном тексте у всех входящий в него слов отпределить исходную словоформу (дожди > дождь, капал > капать и т.д.)
В качестве исходных данных имеем сам текст, а так же таблицу регекспов, тех которые заменять и тех на которые заменять для восстановления словоформы. Создана на основе русских словарей от ispell
Пример таблицы:
'([^ЕЁЙЛНЬ])ЕН$', '$1НЫЙ',
'([^ЕЙЛНЬ])ЕН$', '$1НЫЙ',
'([ЕЁ])Н$', '$1НЫЙ',
'ЕН$', 'ЕНЫЙ',
'ЕН$', 'ЙНЫЙ',
'ЛОН$', 'ЛНЫЙ',
'ЕН$', 'ЬНЫЙ'
Понятно, что сначала текст разбивается на слова, удаляются все знаки препинания, союзы, предлоги т.п. Но вот как дальше что-то я никак не соображу.
К примеру из слова 'дожди' сделать 'дождь' Т.е. как именно определить правило (из таблицы), которое надо использовать?
Может кто решал подобную задачу? Или видел какие-нибудь утилиты для этого. Буду очень признателен за помощь.
- Определение начальной словоформы, Кодер 21.09.2005 17:02
- Ответ, G100m 21.09.2005 17:39
- капал дождь в лоб, Александр Петросян (PAF) [M] 21.09.2005 17:23 / 21.09.2005 17:24
- Ответ, Кодер 21.09.2005 17:38