WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаІнформатика, Компютерні науки → Сховище даних та основи їх створення - Реферат

Сховище даних та основи їх створення - Реферат

організації інтелектуальних обчислень. Сховище даних - це предметно-орієнтований, інтегрований, прив'язаний до часу, незмінний набір даних для підтримки процесу прийняття рішень. Простий доступ користувача до сховища даних забезпечує тільки отримання відповідей на питання, що були задані, в той час як технологія data mining дозволяє побачити ("знайти") приховані правила і закономірності у наборах даних, які користувач не може передбачити, і застосування яких може сприяти виявленню більш ефективного результату.
Інформація в сховищі об'єднується в цілісну структуру по різних рівнях деталізування, що забезпечує необхідні користувачам міри узагальнення даних. У цій концепції центральне місце займають метадані - дані про дані. Управління метаданими забезпечує автоматизацію процесу збору і обробки інформації. При цьому в сховищі також вміщуються результати перетворення даних, їх сумаризації і верифікації.
Чим більше аналітик може "грати" з даними, будувати моделі, оцінювати результати, тим краще може бути результат. Робота з даними стає більш ефективною, коли можлива інтеграція наступних компонентів:візуалізація, графічний інструментарій, засоби формування запитів, оперативна аналітична обробка, що дозволяють зрозуміти дані й інтерпретувати результати, і, нарешті, самі алгоритми, що будують моделі.
З основних видів моделей, що використовуються для виявлення й аналізу знань на основі даних інформаційного сховища, можна виділити принаймні шість методів:
класифікація (виявлення ознак, що характеризують групу, до якої належить той чи інший об'єкт, за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил);
кластеризація (виділення різних однорідних груп даних, відрізняється від класифікації тим, що самі групи заздалегідь не задані);
регресія (кількісне вираження відношення між змінними у виді деякої комбінації цих змінних, яке використовується для передбачення значення, що може приймати цільова змінна, яка обчислюється на заданому наборі значень вхідних змінних);
прогнозування часових послідовностей (побудова математичної моделі за "історичною" інформацією, що зберігається в інформаційних сховищах у вигляді часових рядів);
асоціація (має місце в тому випадку, якщо кілька подій зв'язані між собою);
послідовність (має місце, коли існує ланцюжок зв'язаних у часі подій).
Перші три використовуються, головним чином, для передбачення, у той час як останні зручні для опису існуючих закономірностей в даних.
Зараз відбувається стрімкий зріст числа програмних продуктів, що використовують нові технології з організацією інтелектуальних обчислень, а також типів задач, застосування яких надає значного ефекту. Одним з них є пакет прикладних програм IDAMS, призначений для валідації, маніпулювання і статистичного аналізу даних. IDAMS виробляється та вільно поширюється UNESCO. Він включає в себе інструменти маніпулювання й аналізу даних, що є доступними через інтерфейс користувача та командну мову. Однією з особливостей IDAMS є проведення вичерпної валідації даних (перевірки їх коректності та логічності) перед проведенням аналізу.
IDAMS дозволяє підраховувати базові статистичні параметри вибірки - середні, частотні характеристики, кореляції та ін. Основний набір статистичних процедур включає також декілька важливих видів аналізу, таких як кластерний (підтримується шість алгоритмів), дискримінантний, факторний (метод головних компонент і аналіз відповідностей), регресійний та дисперсійний.
Декілька процедур IDAMS дозволяють побудувати різноманітні узагальнення регресійної моделі, призначених для виявлення внутрішніх взаємозалежностей і зв'язків у структурі даних. Це множинний класифікаційний аналіз та деякі інші тести із множини прогнозування та класифікації.
Крім тестів, що виконуються за допомогою командного синтаксису, частину важливих процедур можна підраховувати інтерактивно з використанням зручних діалогових вікон WinIDAMS. Таких типів аналізу три: багатовимірні таблиці, інтерактивне графічне дослідження та блок аналізу часових рядів.
Для того щоб знайти нове знання на основі даних великого сховища недостатньо просто взяти алгоритми Data Mining, запустити їх і чекати появи цікавих результатів. Знаходження нового знання - це процес, що містить у собі кілька кроків, кожний з яких необхідний для ефективного застосування засобів інтелектуальних обчислень:
визначення проблеми (постановка задачі, визначення мети майбутнього аналізу);
збір та підготовка даних (оцінка даних, об'єднання й очищення, відбір й перетворення даних);
побудова моделі (оцінка й інтерпретація, зовнішня перевірка);
використання моделі;
спостереження за моделлю.
Однією з найбільш перспективних сфер застосування вищезгаданих алгоритмів є електронні бібліотеки, що містять великі обсяги даних і відповідають концепціям інформаційних сховищ даних:
предметна орієнтація (дані об'єднані в категорії);
інтегрованість (наявність єдиної централізованої сукупності даних);
прив'язка до часу (сховище можна розглядати як сукупність "історичних" даних);
незмінність (дані у сховище лише долучаються).
Використана література:
1. Информатика для юристов и экономистов/ Симонович С.В. и др. - СПб: Питер, 2001. -688 с.
2. Фигурнов В.Э. IBM PC для пользователя. Краткий курс. Изд. 7-е. М.: ИНФРА-М, 1997, 432 с.
3. Бородич Ю.С. и др. Паскаль для персональных компьютеров: Справ. Пособие.-Мн.:высш. шк.: БФ ГИТМП "Ника", 1991.-365 с.
4. М.І. Жалдак, Ю.С.Рамський. Інформатика. Київ, "Вища школа", 1991.
5. Ю. Шафрин. Информатика. Информационные технологии: в 2 ч. М.: Лаборатория Базовых Знаний, 2001.
6. Куперштейн. В. Современные информационные технологии в производстве и управлении.-СПб.:БХВ, 2000.-304 с.
Loading...

 
 

Цікаве