WWW.REFERATCENTRAL.ORG.UA - Я ТУТ НАВЧАЮСЬ

... відкритий, безкоштовний архів рефератів, курсових, дипломних робіт

ГоловнаІнформатика, Компютерні науки → Сховище даних та основи їх створення - Реферат

Сховище даних та основи їх створення - Реферат


РЕФЕРАТ
на тему:
Сховище даних та основи їх створення
Під сховищем даних розуміють особливу базу даних, котра призначеня для зберігання в погодженому вигляді історичної інформації, що надходить з різних оперативних систем та зовнішніх джерел. В основі концепції сховища даних лежить розподіл інформації, що використовують в системах оперативної обробки даних (ОLTP) і в системах підтримки прийняття рішень.
Основними характеристиками сховищ даних є наступні:
Предметна орієнтація. Дані в сховищі зорієнтовані на бізнес-поняття, а не на бізнес-події.
Інтегрованість. Перш ніж потрапити до сховища даних оперативні дані перевіряють, очищують та певним чином агрегують.
Підтримка хронології. Дані в сховищі даних накопичуються у вигляді історичних пластів.
Незмінність. Дані у сховищі даних, на відміну від даних в базі даних, не підлягають ніяким змінам.
Мінімальна надлишковість. Не дивлячись на те, що інформація до сховища даних потрапляє від багатьох OLTP-систем, надлишковість інформації в сховищі даних зведена до мінімуму.
Ключовим компонентом побудови та використання сховищ даних є OLAP-технологія (On-Line Analytical Processing), що заснована на багатовимірному аналізі даних.
Наведемо основні вимоги до сховища даних.
1) Адекватність відображення логіки предметного середовища у відповідні моделі даних.
2) Оптимальна надмірність даних. БД повинна являти собою єдину сукупність інтегрованих даних.
В системах, що не використовують бази даних, кожне застосування має свої файли. Наприклад, застосування, пов'язане з обліком персоналу, і застосування, пов'язане з обліком навчання персоналу можуть мати свої власні файли з інформацією о персоналі. Це призводить до надмірності даних, що зберігаються. Наслідком надмірності даних може бути суперечність даних, наприклад, коли два записи про одного і того ж співробітника не погоджуються одна з одною.
3) Наявність ефективних засобів ведення баз даних ( засоби створення, накопичення, модифікації, видалення та пошуку даних ).
Засоби створення даних - це засоби завантаження даних з зовнішнього, орієнтованого на користувача, уявлення у системне.
4) Цілісність даних ( наприклад, забезпечення вимоги унікальності усіх записів БД ) та їх узгодженість при виконанні користувачами операцій над ними. Керування одночасними модифікаціями.
Задача цілісності полягає в забезпеченні правильності і точності даних в базі даних. Протиріччя між двома записами, що зображують один і той самий факт - є прикладом недостачі цілісності. У більшості продуктів баз даних підтримка контролю цілісності розвинена слабо.
5) Безпека даних - захист від несанкціонованого доступу до даних та від руйнування БД з наміром або без наміру.
Централізована природа системи баз даних вимагає наявності хорошої системи безпеки. Доступ до даних дозволяється лиш тим користувачам, що мають на те право.
6) Можливість реструктуризації БД - наявність засобів змінювання структури даних при змінюванні запитів до БД.
7) Наявність повних, зручних та простих у вивченні мовних засобів визначення та маніпулювання даними.
Такими засобами є мова визначення даних та мова маніпулювання даними. Автономну мову даних, тобто мову, що не включена в універсальну мову, називають також мовою запитів.
8) Наявність документації.
9) Простота вивчення.
10) Взаємна незалежність програм та даних.
БД повинна зберігати працездатність при розвитку програмного та апаратного забезпечення. Зміна фізичної організації даних або параметрів запам'ятовуючих пристроїв не впливають на користувача, або, точніше, на прикладну програму. Зміна уявлення користувача не потребує затрат на реорганізацію та зміну механізму доступу до файлів фізичних даних. Незалежність даних забезпечує можливість функціонування системи при змінах з обох сторін ( тобто зі сторони користувача та фізичних даних ) і є найбільш важливою властивістю і основною метою БД. Вона впливає на наявність інших властивостей, таких як, надмірність даних, можливість забезпечення захисту та цілісності та ін.
Незалежність даних можна визначити як імунітет програм до змін в структурах зберігання даних і в методах доступу до даних. Наприклад, деяке застосування обробляє файл з інформацією о співробітниках і цей файл проіндексований по деякому полю. Якщо програма враховує, що послідовність записів у файлі визначена даним індексом, то неможливо замінити індексований файл на хешований без внесення суттєвих змін у програму.
Дані в OLAP-моделі подаються як показники (measures), кожен з яких визначений на деякій множині вимірів (dimensions). В задачі "Аналіз кредитного портфеля банку" можна виділити такі показники як "Кредитна сума", "Залишки заборгованості". Вимірами цих показників будуть: "Тип клієнту", "Звітна дата", "Вид кредиту", "Валюта", "Категорія ризику" та інші. При відомих значеннях всіх вимірів ми можемо отримати результатні дані показника, що нас цікавить. Виміри утворюють деякий віртуальний простір, в якому зберігаються показники - гіперкуб. Користувач із даними, що подані в багатовимірному вигляді може робити ряд OLAP-операцій: піднімання (консолідація по деяким напрямкам), спуск (деталізація по деякому напряму), поворот (зміни напряму сортування), відбір і проекція даних в будь-який вимір.
Для аналізу кредитного портфеля можна застосовувати наступні архітектури OLAP-систем: MOLAP (Multidimentional OLAP), засновані багатовимірних СУБД (БСУБД), ROLAP (Relation OLAP), в основі яких лежать класичні реляційні бази даних, HOLAP (Hybrid OLAP) - гібридні системи, DOLAP (Desk OLAP) - настольні однокористувацькі системи.
Елементи автоматичної обробки і аналізу даних, що називають Data Mining (знаходження знань) стають невід'ємною частиною концепції інформаційних сховищ даних (data warehouse) та
Loading...

 
 

Цікаве