WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаМовознавство, Філологія → Методика створення автоматизованої системи морфемно-словотвірного аналізу (АСМСА) слів української мови - Реферат

Методика створення автоматизованої системи морфемно-словотвірного аналізу (АСМСА) слів української мови - Реферат

визначення яких були взяті дані морфемного словника ("Морфемний аналіз: Словник-довідник") І.Т. Яценка з певними змінами. За чітко визначеними принципами морфемного аналізу сегментувалися слова бази даних, які не зустрічаються у словнику І.Т. Яценка.
Графемний запис слів в електронному морфемному словнику у деяких випадках доповнюється фонемним, що зумовлено організацією морфних структур ряду слів та особливостями української графіки. Графеми я, ю, є, ї, що позначають два звуки, подаються у фонетичному записі: jа, jу, jе, jі, оскільки морфний шов може проходити у постпозиції до звука j. Фонетичне представлення я, ю, є, ї у вихідній базі даних зроблено автоматизовано на основі лінгвістичного алгоритму, що моделює всі можливі фонетичні позиції, в яких я, ю, є, ї передають два звуки. Автоматизація фонетичного представлення графем я, ю, є, ї забезпечує постійне перетворення графічного запису у фонемний і навпаки, що дозволяє проводити правильну морфну сегментацію на базі вихідних словоформ тексту.
Суть формалізації опису морфних структур слів в електронному морфемному словнику полягає у моделюванні структурно-функціональних зв'язків морфів у слові: представлення кожної морфної структури слова у вигляді лінгвістичної моделі, яка визначає межі і тип кожного морфа. Розглядаючи морф як значущу одиницю мови, формалізований опис морфної структури слова предбачає моделювання структурних відношень морфів на двох площинах організації слова як мовного знака: формалізація структури плану вираження та плану змісту.
Лінгвіст приписує кожному морфу у верхньому індексі позначку, яка визначає межі та тип цього морфа: - префікс, - корінь, - суфікс, - інтерфікс, - флексія, - постфікс : якщо морфна структура слова характеризується нульовими афіксами (суфіксами чи флексіями), які не мають субстанціонального вираження, то такі афікси позначаються знаком - , або знаком , який позначає нульовий суфікс у позиції між двома субстанціально вираженими морфами. Така лінгвістична модель дозволяє автоматично описати кожну морфну структуру через програмну процедуру P2R5І7S8F10 -
,
де латинськими літерами позначається тип морфа P - префікс, R - корінь, S - суфікс, F - флексія, І - інтерфікс, X - постфікс, а цифрами - порядковий номер (із початку слова) кінцевої графеми кожного морфа R4I5R8S9F10 - льод-о-різ-Ж-Ж (позначка нульового афікса також визначається як графема). Формалізований опис морфної структури слова у вигляді програмної процедури відображає функціональну закономірність організації слова на морфемному рінвні - PRІSF, а субстанціальне вираження цієї структури представлено через кількісно-графемну модель морфного шва (за - 2; лед - 5; ен - 7; і - 8; ти - 10).
У процесі укладання електронного морфемного словника було враховано, що автоматизована процедура групування лексики у спільнокореневі вибірки, яка у перспективі буде здійснюватися на базі цього словника, можлива за умови доведення, що морфна структура слів характеризується одним і тим самим коренем. Корінь як знакова одиниця мови, повторюючись у споріднених словах, утримує цілісність свого значення, але може варіювати формально. Враховуючи принципи процедури ідентифікації морфів однієї морфеми[9], кореневі морфи, які тотожні за значенням, але характеризуються частковою фонологічною відмінністю, визначаються як морфи однієї кореневої морфеми, а отже, слова з такими морфами є спільнокореневими. Тому в електронному морфемному словнику необхідно приписати кожному кореневому морфу, що характеризується морфонологічними чергуваннями (у випадку передачі м'якості приголосних через сполучуваність з м'яким знаком беруться до уваги так звані морфографічні альтернації земл-я земель-н-ий) в морфних структурах похідних слів, аломорф цього кореня у непохідному слові, тобто його первинний аломорф: за-лед-еніти - лід, льод-овий - лід. Інформація про вихідний аломорф кореня у морфемній базі даних дозволить автоматизувати ідентифікацію тотожних за значенням кореневих морфів, які субстанціально відрізняються хоча б однією графемою.
Згідно з відзначеними принципами був створений інформаційний макет електронного морфемного словника, що складається з п'ятьох зон, або електронних полів, які представлено у вигляді колонок табличного запису:
1 поле:
порядковий номер слова 2 поле:
лінгвістична модель морфної структури слова 3 поле:
програмна процедура ЛМ 4 поле:
морфонологічна варіативність кореня 5 поле:
лексичне значення омонімів
1
P2R5І7S8F10 лід
2
R3І5S6F8 лід
4
P2R5І7S8S10F11 лід
6
слати
R2S3F5
посилати
7
слати
R2S3F5
стелити
Перше поле відображає порядкову нумерацію слів у морфемному словнику. Порядковий номер є кодом інформації, приписуваної кожному слову в правобічно-горизонтальному напрямку, що забезпечує зв'язок по вертикалі між словами морфемного словника. У другому полі за алфавітом подано лінгвістичні моделі морфних структур словоформ. Третє поле містить інформацію про програмну процедуру, що описує лінгвістичну модель: між другим і третім полем існує взаємозв'язок: морфна структура у вигляді позначок верхнього індексу виражається у програмній процедурі через латинські літери, а морфний шов - через порядковий номер останньої графеми морфа (цифрова модель в інтерфейсі словника подана через латинську літеру за порядковим номером в алфавіті). У четвертому полі подається інформація про морфонологічну варіативність кореня. У п'ятому полі записується тлумачення омонімів.
На основі інформаційного макету створено інтерфейс електронного морфемного словника, в якому кожне слово представлено на окремій картці.
Створений у такий спосіб морфемний словник дозволяє побудувати автоматизовану систему, здатну працювати у режимі пошуку та аналізу і виконувати цілий ряд лінгвістичних завдань:
· групувати лексику у спільнокореневі та одноафіксальні класи;
· класифікувати лексику за кількісно-морфними моделями;
· створювати кореневі та афіксальні словники;
· проводити морфемний аналіз вихідних словоформ.
У процесі укладання словотвірного словника української мови, морфемний аналізатор буде використано длявиконання двох завдань: автоматизованого групування лексики у спільнокореневі вибірки; автоматизованої класифікації лексики у межах кожного спільнокореневого класу слів за кількісно-морфними моделями.
Автоматичне групування лексики у спільнокореневі вибірки здійснюється лише на основі ідентифікації форми вираження коренів та програмно предбачуваних їх морфонологічних варіантів. Тому до однієї спільнокореневої вибірки можуть потрапити слова з омонімічними коренями. Автоматизовано кореневу омонімію зняти неможливо, тому на цьому етапі працює лінгвіст, який на базі формально спільнокореневих класів групує лексику на формально-функціональні спільнокореневі вибірки.
Кожна вибірка спільнокореневої лексики формує у межах автоматизованої морфемної системи окреме поле, в якому моделі морфних структур слів (заледеніти) із збереженою, але не актуалізованою інформацією про граматичний код, програмну процедуру, морфонологічні варіанти кореня та лексичне значення омонімічних слів автоматизовано класифікуються за кількісно-морфними моделями. Враховуючи принципи словотвірної похідності про те що:
1) морфологічні способи словотвору передбачають кількісно-афіксальне зростання морфної структури мотивованої основи словотвірної пари;
2) інтерфікси не вважаються словотвірними формантами і додаються у процесі словотвору до словотвірних суфіксів та префіксів;
3) складні слова переважно належать до першого такту словотвору,
було висунуто
Loading...

 
 

Цікаве