WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаЖурналістика, ЗМІ → Редагування спецдокументації - Курсова робота

Редагування спецдокументації - Курсова робота

2.3 Комп'ютерний словник

2.3.1 Роль електронного словника для редагування текстів

Комп'ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа. Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер „1" присвоюють найбільш частому слову) до R, то добуток порядкового номера (рангу, r) будь-якого слова списку на його частоту появи в тексті (1) буде майже сталою величиною (с):

f∙r = c

На практиці це означає, що, коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п'ять тисяч - лише 85% і т.д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини - решту, лише четверту частину.

Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп'ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналів, включають також персоналії (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник.

Комп'ютерні словники, які використовують для редагування текстів, класифікують:

за типом лексичних одиниць - словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;

за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) - словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп'ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп'ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

2.3.2 Методи реконструкції

Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

для запису правильного (нормованого) слова;

для запису довжини слова в знаках;

для запису алфавіту від „а" до „я";

для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:

поле 1: структура

поле 2: 9

поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я

поле 4: 112122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника часто вживаних слів. Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

Інтегрована лексикографічна система.

„Словники України"

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД

Інтегрована лексикографічна система

Словники України

Передмова.

Інтегрована лексикографічна система "Словники України" призначена для надання користувачам лексикографічної інформації. Вона складається з п'яти словникових підсистем-модулів - парадигматичної, транскрипції, фразеології, синонімічної та антонімічної.

Реєстр.

Основу генерального реєстру системи "Словники України" складає реєстр Орфографічного Словника української мови, 2-е видання (К.: Довіра, 1999), який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр включає понад 150 тис. слів.

Парадигма.

Парадигматичний модуль створено на основі розробленої в Українському мовно-інформаційному фонді НАН України словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками близько 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації - близько 3000 класів. Завдяки вказаній класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для усіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію усіх словоформ в усіх граматичних значеннях. Повне число словоформ для понад 150 тис. одиниць реєстру є порядку 3 млн. У модулі "Парадигма" користувач, вибравши в реєстрі будь - яке слово, автоматично одержує в правому вікні екранну таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їх граматичних параметрів.

Транскрипція.

Модуль "Транскрипція" забезпечує автоматизоване виведення за допомогою транскрипційних знаків інформації про артикуляцію лексичних одиниць реєстру згідно із сучасною літературною вимовою звуків. В основу модуля покладено інформацію, що міститься в Орфоепічному словнику української мови, перший том якого вийшов у серії "Словники України" (К.: "Довіра", 2001). Його реєстр тут значно розширено за рахунок слів, які пишуться через дефіс, словосполучень тощо.

Фразеологія.

Фразеологічний модуль містить близько 56 тис. фразеологічних одиниць, які вживаються у сучасному українському мовленні. Фразеологізми є основою національного обличчя кожної мови; в них, як ні в якій жодній одиниці, яскраво виявляється специфічний національний колорит, особливості образного народного мислення, власне національне сприйняття "мовної картини світу", віддзеркалення характерних особливостей культури і побуту, народних звичаїв, символіки, історичного минулого. Фразеологічний модуль з достатньою повнотою передає фразеологічне багатство української мови на матеріалі літературної мови XIX-XX століть. Основою фразеологічного модуля послужили "Фразеологічний словник української мови" у 2-х книгах (К.: Наукова думка, 1993 та друге видання - 1999 рік), а також підготовлений до друку в серії "Словники України" новий "Фразеологічний словник української мови", де найповніше відображено загальновживану фразеологію української мови і дано всебічну лексикографічну характеристику фразеологізмів.

Синонімія.

Модуль синонімії з достатньою повнотою подає синонімічне багатство української мови (на матеріалах літературної мови ХІХ-ХХ ст. та народнорозмовної лексики). Модуль синонімії створено на основі "Словника синонімів української мови" у 2-х томах, який було випущено в серії "Словники України", (К.:, Наукова думка, 1999-2000 рр). Модуль словника містить синонімічні ряди (близько 9200), що складаються зі слів або їхніх окремих значень, а також сталих словосполучень (номінативних та граматичних). Ядром кожного синонімічного ряду є його домінанта - лексична одиниця, що має найзагальніші для цього ряду семантичні особливості. У словниковій статті вона є реєстровим словом. Члени синонімічних рядів супроводжуються семантичними, граматичними та стилістичними характеристиками. Уживання синонімів ілюструється типовими для них контекстами - цитатним матеріалом із художньої, публіцистичної, наукової та ін. літератури й словосполученнями.

Антонімія.

Основна частина модуля - словник антонiмiв, в якому подано понад 250 словникових статей. За змістом він відповідає Словникові антонімів української мови, який вийшов в серії "Словники України" у 1999 р. Загалом у модулі антонімів представлено понад 2200 компонентiв антонiмiчних пар, якi є у всiх частинах словникових статей.

Loading...

 
 

Цікаве