WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаМовознавство, Філологія → Автоматизована система морфемно-словотвірного аналізу як інструмент лінгвістичних досліджень - Реферат

Автоматизована система морфемно-словотвірного аналізу як інструмент лінгвістичних досліджень - Реферат


Реферат на тему:
Автоматизована система морфемно-словотвірного аналізу як інструмент лінгвістичних досліджень
У час загальної комп'ютеризації змінюються методи і технології лінгвістичного аналізу, зокрема сучасної лексикографії. Традиційний "паперовий" словник перестає бути єдиним та ефективним способом представлення знань з двох причин: 1) на сьогодні такий словник не задовольняє потреб користувача, який працює з комп'ютером; 2) укладання паперового словника вимагає багато часу та людських ресурсів для збирання, обробки та систематизації матеріалу у вигляді паперових картотек. Тому в українському мовознавстві на сьогодні нагальною є проблема укладання електронних лінгвістичних словників, які мають формат параметризованих електронних баз даних, оснащених пошуково-класифікаційними програмними аналізаторами для ефективного та оперативного проведення лінгвістичного аналізу.
Розвиток теорії і практики прикладної лінгвістики, зокрема методів комп'ютерного моделювання, дозволили по-новому сформулювати лексикографічне завдання в галузі сучасного українського словотвору та морфеміки, а саме як створення автоматизованої системи морфемно-словотвірного аналізу (скорочено АСМСА. У лабораторії комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка протягом 3-ох років ведеться робота над АСМСА. У створенні цієї системи було використано досвід світової комп'ютерної лексикографії (частотний словник З.Ф.Оліверіуса "Морфемы русского языка", кореневий словник Д.С.Уорта "Русский словообразовательный словарь"; морфемний словник чеської мови за редакцією Е.Славічкової); практику і теорію укладання відомих морфемних та словотвірних словників української мови, зокрема Словника афіксальних морфем української мови, Кореневого гніздового словника української мови та автоматизованої системи "Морфемно-словотвірний фонд української мови"; а також чималий досвід комп'ютерної лексикографії лабораторії комп'ютерної лінгвістики (www.proling.com): Частотний словник сучасної української поетичної мови; Ідеографічний словник української фразеології; Граматичний словник українських дієслів; Українсько-італійський словник українських дієслів; Тезаурус (словник синонімів) української мови
Мета цього проекту полягає у створенні автоматизованої системи, що структурується на: 1) дві лінгвістичні бази даних: морфемну і словотвірну; та на 2) морфемний і словотвірний аналізатори, що розглядаються як надійні лінгвістичні інструменти мовознавчих досліджень, здатні працювати в режимах пошуку, класифікації, морфемного та словотвірного аналізів на великих лексичних масивах.
Система АСМСА створювалася на базі ? 170 тис. слів української мови і структурується на два модулі та чотири блоки: 1) морфемний модуль - морфемна база даних, де аналізується морфна структура словоформ; 2) словотвірний модуль - словотвірна база даних, де аналізується словотвірна структура словоформ. Кожен модуль складається з двох блоків: 1) блок-словник; 2) блок-аналізатор. Структуру АСМСА можна представити у вигляді такої блок-схеми:
морфемний модуль словотвірний модуль
словник аналізатор словник аналізатор
Як показує блок-схема АСМСА, передбачається така логіка виконання завдань: укладання морфемного електронного словника (1), на базі якого створюється морфемний аналізатор (2), що виконує функцію лінгвістичного класифікатора у процесі укладання електронного словотвірного словника (3), на базі якого створюється система автоматизованого словотвірного аналізу (4).
Така послідовність завдань зумовлена робочою гіпотезою: побудова словотвірного гнізда як статті електронного словотвірного словника здійснюється на базі вибірки всіх спільнокореневих слів мови. Створення вибірок спільнокореневих слів само по собі є складним і трудомістким завданням і таких завдвнь у процесі дослідження виникало чимало. Єдиний вихід із цього становища - формалізація матеріалу на всіх етапах його опису, яка дає можливість створювати програмні інструменти лінгвістичного аналізу.
На першому етапі необхідно було створити формалізований опис морфних структур слів, який би дозволив автоматизувати групування слів з одним коренем. Першочерговим завданням було створення морфемної бази даних, яка укладалася на основі комп'ютерної лексико-граматичної бази української мови, де слова представлені у графемному записі з граматичною індексацією частин мови.
Графемний запис слів в електронному морфемному словнику у деяких випадках був доповнений фонемним, що зумовлено організацією морфних структур ряду слів та особливостями української графіки. Йдеться про фонемне представлення йотованих я, ю, є, ї, яке зроблено автоматизовано за лінгвістичним алгоритмом, що моделює всі можливі фонетичні позиції, в яких я, ю, є, ї передають два звуки. Автоматизація фонетичного представлення графем я, ю, є, ї забезпечує постійне перетворення графічного запису у фонемний і навпаки, що дозволяє проводити правильну морфну сегментацію на базі вихідних словоформ тексту.
Інформаційний макет морфемного словника та його ідеологія визначалися специфікою електронного характеру та перспективою створення на його основі автоматизованої системи морфемного аналізу.
Суть запропонованої формалізації морфних структур слів полягає у моделюванні структурно-функціональних зв'язків морфів у слові: представлення кожної морфної структури слова у вигляді лінгвістичної моделі, яка визначає межі і тип кожного морфа. Формалізований опис морфної структури слова предбачає моделювання структурних відношень морфів на двох площинах організації слова як мовного знака: формалізація структури плану вираження та плану змісту.
Межі і тип кожного морфа визначаються типовими позначками: - префікс, - корінь, - суфікс, - інтерфікс, -флексія, - постфікс: якщо морфна структура слова містить нульові афікси (суфікси чи флексії), які не мають субстанціонального вираження, то такі афікси позначаються знаком - , або знаком - , який позначає нульовий суфікс у позиції між двома субстанціально вираженими морфами.
,
Така лінгвістична модель дозволяє автоматично описати кожну морфну структуру через
Loading...

 
 

Цікаве