WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаІнформатика, Компютерні науки → SGML. SGML - структури. DTD - Реферат

SGML. SGML - структури. DTD - Реферат

призначення якого полягає в тому, щоб допомогти людині визначити де закінчується одне слово і починається інше, чи як інтерпретуватибільш глобальні структури - такі, як заголовки, підлеглий пропозиції в головній пропозиції, уся головна пропозиція, абзаци і т.д. Маркап тексту в принципі, також як і стенографія, - процес вказівки явно того, яким чином повинно інтерпретуватися зміст тексту.
Під мовою маркапа розуміється сукупність угод про маркап, використовуваних для розмітки тексту. Мова маркапа повинна визначати:
" Синтаксис маркапа:
" який маркап є припустимим
" який маркап необхідний
" як маркап відрізняється від тексту
" Семантика маркапа:
" що маркап означає.
SGML дозволяє визначити три перші, синтаксичні обмеження на маркап. Для визначення семантики використовується додатковий стандарт, наприклад HTML, TEI, CES чи іншої.
Схема маркапа, що вводиться SGML (далі просто SGML) має три основних відмінності від "класичних" схем:
" Орієнтація на дескриптивний маркап,
" Об'єктно-оріентована модель,
" Незалежність від конкретного фізичного представлення тексту.
Ці три особливості описуються більш докладно далі
Орієнтація на дескриптивний маркап
SGML по визначенню припускає використання дескриптивної схеми маркапа. Дані, необхідні для якої-небудь конкретної обробки документа (наприклад форматування), чітко відокремлюються від дескриптивного маркапа, що міститься в документі. Звичайно вони зібрані за межами документа у виді відповідних алгоритмів і програм. Існують стандарти, що визначають їхній (DSSSL, HyTime).
При використанні дескриптивного маркапа один і той же документ, як вже відзначалося, може оброблятися різними способами за допомогою різних програм, кожна з який приділяє увагу тим частинам документа, що є важливими для даного методу обробки. SGML, як стандарт, підтримує і робить реально реалізованим такий принцип роботи. Наприклад, програма аналізу змісту тексту (приміром, система автоматичного анотування) може цілком ігнорувати виноски і примітки, що зустрічаються в тексті, у той час як форматуюча програма може витягати їх з тексту і збирати всі разом, щоб потім вивести наприкінці розділу. Різні методи обробки можуть застосовуватися для тих самих частин документа. Одна програма може робити вибірку з документа всіх особистих імен і назв місць і створювати по них базу даних, у той час як інша, для тих же елементів документа, виконує їхнє форматування таким чином, щоб вони виділялися з навколишнього тексту.
Об'ектно-орієнтовна модель
SGML вводить поняття класу, чи типу, документа і спосіб його завдання й опису - Document Type Definition (DTD). Документи вважаються визначеного типу, точно також, як і будь-які інші об'єкти, оброблювані комп'ютером. Тип документа формально визначається його складовими частинами і їхньою структурою. Звіт, наприклад, визначається як назва і, можливо, автор, за яких випливає реферат і послідовність з одного чи більш абзаців. Текст, що не має назви, відповідно до цього формального визначення, формально не є звітом, також як і послідовність абзаців, з яких випливає реферат, незважаючи на подібність на звіт з погляду читача-людини.
Якщо тип документа відомий, спеціальна програма (парсер) може бути використана для перевірки того, що вміст документа відповідає його типу - всі його необхідні частини присутні і випливають у потрібному порядку. Більш важливо, що різні документи того самого типу можуть оброблятися однаковим способом. Можуть бути написані програми, що використовують інформацію, задану у визначеному типу документа і здатні завдяки цьому робити більш розумні і значимі дії.
Незалежність від низькорівневих представлення даних
Базовою метою, що ставилася при розробці SGML, була задача забезпечення перенесення документів між різними програмними й апаратними платформами без втрати інформації. Завдяки попереднім двом особливостям ця вимога досягається на абстрактному рівні. Розглянута тут можливість забезпечує цю вимогу на фізичному рівні, за допомогою визначення значення послідовностей байтів, з яких складається документ. SGML надає механізм загального призначення для заміни рядків, тобто простий машинно-незалежний спосіб для вказівки того, що конкретна послідовність символів у документі повинна бути замінена на іншу під час обробки документа. Одне з застосувань цієї можливості - забезпечення однаковості термінології й інших параметрів документів; інше, більш важливе - забезпечення можливості переносу тексту, що містить нестандартні і т.п. символи між різними платформами, що мають різні набори символів, можливості по їхньому відображенню і т.д. Це досягається за допомогою заміни нестандартних символів на рядки, що задають їхні коди. Послідовності символів, визначені для описаної вище заміни називаються entities ("поняття").
SGML-структури
Текстуальна структура
Текст не є недиференційованою послідовністю слів, а тим більше байт. Для різних цілей він може бути розбитий на безліч різних елементів різних типів і розмірів. Прозаїчний текст може бути розбитий на розділи, глави, абзаци і пропозиції. Віршований - на cantos, строфи і рядки. Надрукований текст, залишаючись чи прозою віршем і не залежно від цього, розбивається на томи, брошури і сторінки.
Структурні елементи подібного типу найчастіше використовуються для посилання на конкретні місця в тексті ("третя пропозиція другого параграфа глави 10", "песня 10, рядок 1234", "сторінка 412" і т.д.), хоча можуть використовуватися і по прямому призначенню - як позначення деякої структурно- і завершеною по змісту одиниці тексту, наприклад для аналітичних цілей (" чи відрізняється середня довжина пропозиції в розділі 2 у порівнянні з розділом 5?", "скільки абзаців розділяють кожне зустрінуте слово `природа' ?", "скільки сторінок у документі?"). Інші структурні елементи є чисто аналітичними, у тім змісті, що вони характеризують деяку частину тексту. У драматичному тексті мова якого-небудь персонажа може вважатися елементом одного типу, а вказівки для чи сцени опису дій - як інший тип. Подібний аналіз менш корисний для посилання на конкретне місце в тексті ("93-я мова Гораціо в акті 2"), чим для проведення порівнянь лексики одного персонажа в порівнянні з іншим і т.п.
У прозаїчним тексті подібним же чином можна виділяти пряму і непряму мову, стильові особливості тексту (оповідання, полеміка, коментар, аргументація і т.д.), цитати різних авторів і так далі. А для деяких типів аналізу (найбільше для критичного розбору), фізичного представлення друкованого чи рукописного тексту також може мати значення: парадоксально, але може виявитися необхідним використовувати дескриптивний маркап для опису процедурного.
Описані текстуальні структури перетинаються і накладаються один на одного, утворити складні і непередбачені комбінації. Таким чином,
Loading...

 
 

Цікаве