On Github fsqcds / morph-presentation
Автор: Николаев Фёдор Александрович
Работа вылолнялась в рамках открытого проекта UIMA.Ext Лаборатории математической и компьютерной лингвистики КФУ, её результаты используются в рамках крупного научно-исследовательского проекта, поддержанного Фондом содействия развитию малых форм предприятий в научно-технической сфере.
Определение морфохарактеристик (часть речи, падеж и т.д.)
Пример: маме — сущ., одуш., ж. р., ед. ч., дат. п.
Осуществляется при помощи поиска в словаре слов с наибольшим совпадающим суффиксом
джоулево (прилагательное, ср. род, ед. число, им. падеж)
Аккуратность:
Троичное дерево эффективнее для хранения слов, чем хэш-таблица, в которой на каждый символ каждого слова расходуется память.
Потребляемая память сократилась почти в два раза.
110 граммем, 388733 лемм, 5094084 форм в индексе
931Mb → 530Mb
Можно заключить, что троичное дерево хорошо подходит в качестве основной структуры при разработке морфоанализаторов и других, работающих со словарями, систем ОЕЯ.