Компаниите и потребителите генерират повече данни от всякога. Разпространението на цифрови устройства и продукти води до експоненциално разширяване на цифровата вселена. Макар и да са активен продукт, мащабът на тези данни представлява предизвикателство: как компаниите могат на практика да организират информацията си, за да разкрият полезна информация?
Докато извличането на данни и бизнес разузнаването осигуряват ценното извличане и представяне на такива прозрения, хранилището на данни (DWH) е подготвителното обобщаване и реорганизация на обширните базови данни, които често се намират на множество места. Разбирането на ролята на DWH в по-широката екосистема на науката за данни, извличането на данни и бизнес разузнаването е от съществено значение за съвременния мениджър.
хакерски сайт за кредитни карти
DWH е централизирано хранилище на цифрова информация, агрегирано от различни разнородни източници и организирано в структура, оптимизирана за отчитане. Най-важното е, че DWH предоставя действаща информация на цялото предприятие, като дава възможност на служителите да извършват специфичен анализ и да вземат по-добри решения.
Релационният спрямо размерния модел
За да оцените функционалността на хранилището за данни, е важно да разберете разликата между релационен и измерен модел. Докато технически звучат, те са лесни за разграничаване.
От гледна точка на практическото използване, релационните и размерните бази данни се различават по един критичен критерий: потокът от информация. Докато релационните бази данни са оптимизирани за въвеждане на данни, размерните бази данни са изградени за извеждане, по-специално под формата на отчитане и анализ, известни като бизнес разузнаване .
Релационният модел организира информацията около една точка от информацията, например име на клиент. В такъв модел името на клиента съществува на едно място, като цялата свързана информация - като данни за контакт и дати на транзакции - е посочена в свързани или свързани таблици.
За разлика от това, размерната база данни по същество „разархивира“ релационната база данни, позволявайки на потребителите лесно да „нарязват и нарязват“ данните в необходимата пермутация, необходима за изпълнение на техните нужди за отчитане. Например в горния запис на релационна база данни данните за контакт с клиенти ще бъдат разделени на отделни полета, като телефонен номер, адрес, град, щат и пощенски код.
Базата данни с размери по същество „разопакова“ релационната база данни, позволявайки на потребителите лесно да „нарязват и заровеват“ данни
Разграничението между релационната и размерната база данни може да изглежда абстрактно. За тези, които са натоварени с предоставянето на все по-сложни анализи и отчети, оценяването на отличието предоставя ценно фундаментално разбиране за работа с технически екипи, които поддържат тези ресурси.
Както е описано подробно от Бил Инмон, един от създателите на хранилището за данни, няколко специфични характеристики управляват дизайна на хранилището за данни. Според Inmon, хранилището на данни е субектно ориентирано, нестабилно, интегрирано, събиране на данни с времеви вариант в подкрепа на решенията на ръководството.
Това е залък, но веднъж разбито на части, това определение дава ясна картина на основната структура на DWH. За да направим тези критерии лесни за запомняне, ние реорганизирахме критериите на Inmon съгласно анаграмата „Включено е“
Интегриран: Данните трябва да имат последователни формати. Често извличани от различни източници, полетата с данни трябва да имат последователни конвенции за именуване.
купете кредитна карта от хакери
Вариант на времето: DWH разкрива тенденции, които зависят от промяната във времето. Записването на точки с данни във времето е от основно значение за разкриване на връзките между данните.
Тематично ориентирано: DWH дава възможност за анализ и докладване, фокусирани върху темата. Например, една компания може да иска да оцени продажбите на даден продукт с течение на времето и след това да разгледа подробности за регионалните или специфични за клиента тенденции.
Нелетливи: След като данните влязат в склада, те не се променят.
Системите за бази данни DWH и транзакциите изпълняват принципно различни функции и обслужват различни потребители. Докато DWH е оптимизиран за отчитане и анализ, системите за транзакции - често наричани OnLine Transaction Processing (OLTP) - са оптимизирани за наличност и скорост на обработка.
Потребителите на OLTP обикновено са служители от предния край и обикновено имат достъп до няколко записа едновременно. Потребителите на DWH често са анализатори и мениджъри, чиито отчети могат едновременно да извикват до няколко милиона записа.
Системата за транзакции и DWH също се различават по детайлност и трайност на данните. В OLTP данните съдържат текущи стойности, които са подробни и силно променливи (на всеки няколко секунди хиляди транзакции променят стойностите на тези записи). За разлика от това, DWH съдържа преструктурирани данни, които не могат да бъдат променяни след зареждане.
Калкулатор на заплатата на temp to perm
Процесът на потребителски заем накратко илюстрира ключови разлики между тези системи. Когато клиентът осигури заем за автомобил, например, базата данни за транзакциите улавя подробности като тип автомобил, цвят, година на покупка, покупна цена и лични данни на купувача. След като се преобразува в DWH модел, информацията за транзакциите (около единичната транзакция на клиента) се дезагрегира на съставни части. От своя страна тези части се обединяват със сравними части от други транзакции.
Заявявайки DWH, служител на заемодателя може да получи достъп до отчети, съставени от обобщени клиентски данни. Например, опитвайки се да оптимизира разходите за реклама, маркетинг мениджърът може да търси автомобили от даден тип или ценови диапазон с най-висок процент на одобрение на кредита или средната възраст и ниво на доходите на кандидатите за кредит с течение на времето. Такава информация може да насочи пренасочване на разходите за реклама към по-подходящи канали с по-целенасочени съобщения.
Хранилището на данни срещу Data Mart и Data Lake
DWH може да бъде придружен от свързани бази данни - база данни и езеро с данни - чиито описателни имена предполагат различни функции. Подмножество на DWH, data mart обслужва определена група потребители, например подразделение или конкретна бизнес единица. Докато DWH държи множество теми, свързани с множество отдели - като продажби, клиенти, продукти, инвентар, доставчици, мартът с данни обикновено съдържа една тематична област за един отдел, като продажби или финанси.
Има два вида маркери за данни - зависими и независими - и всеки представлява уникални предимства. Зависимият март за данни черпи от DWH и има предимството на последователност. Тъй като всички данни са централизирани и последователни в DWH, получените данни за данни също са последователни. Докато по-надеждните, зависими данни изискват DWH и следователно са по-скъпи за разработване.
Независимите данни, от друга страна, черпят данни директно от същите бази данни, подобно на мини DWH. Въпреки че се разработват по-бързо и по-евтино, независимите информационни полета носят повишен риск, тъй като дефинициите на данни могат да станат несъвместими при независимо разработените информационни системи. Въпреки това, ако се разработят с дисциплина, независимите данни могат в крайна сметка да бъдат обединени в DWH.
Езерните данни обикновено се конфигурират на клъстер от евтин и мащабируем стоков хардуер. Това позволява изхвърлянето на данни в езерото, без да се притеснявате за капацитета за съхранение. Докато DWH обикновено е ограничен до текстови и цифрови данни, езерото може да съдържа и по-голямо разнообразие, включително социални медии, данни от сензори и изображения.
DWH позволява извличане на данни, което осигурява на компаниите силата да предсказват бъдещето. Основната цел на извличането на данни е да разкрие модели в големи набори от данни. Такива модели от своя страна разкриват връзките между различните категории данни и техните основни бизнес функции.
Такива взаимоотношения предоставят на мениджърите полезна информация, по същество нови лостове, които да извлекат за постигане на желаните резултати от бизнеса, като растеж на клиентите или увеличени продажби на клиент. Например прегледът на данните за исторически продажби по географски или индустриален сегмент може да подчертае аномален растеж, чийто източник може да предостави на мениджърите по продажбите знания, които да прилагат за други сегменти.