Przygotowywanie firmy do analizy

Podczas tworzenia systemu analitycznego każdy dział IT musi uwzględnić te kluczowe kwestie.

Aby skorzystać z dużych zbiorów danych, użytkownicy muszą podjąć wiele decyzji. Firma Intel zaobserwowała wiele metod tworzenia „stosów” analitycznych i związanych z nimi konsekwencji architektonicznych. Oto kilka czynników, które przyczynią się do sukcesu projektu.

Kadra kierownicza ds. IT musi zdecydować, na jaką odległość dane mogą być przesyłane przed ich przetworzeniem i przeanalizowaniem. Dwie najbardziej praktyczne opcje mają swoje mocne i słabe strony.

Z jednej strony przesiewanie nieprzetworzonych danych może spowolnić analizy, a w dużych zbiorach danych nieuchronnie zapisywane są również dane niepotrzebne.

Według Patricii Florissi, dyrektora globalnego ds. sprzedaży technologii i wyróżniającego się inżyniera w firmie EMC, zalety tego rozwiązania przeważają nad wadami.

„Analiza powinna być możliwa bez konieczności przenoszenia danych” – mówi.

W swoich rozwiązaniach repozytoriów danych („data lake”) firma EMC przechowuje nieprzetworzone dane z różnych źródeł w różnych formatach. Takie podejście oznacza, że analitycy mają dostęp do większej ilości informacji i mogą odkrywać zależności, które nie byłyby widoczne, gdyby dane zostały najpierw wyselekcjonowane i częściowo odrzucone.

Florissi dodaje, że duże operacje analityczne mogą wymagać wielu repozytoriów danych.

„Koncern medialny AOL również korzysta z repozytoriów danych” – mówi James LaPlaine, dyrektor ds. informatycznych firmy. Firma przeprowadza miliardy transakcji dziennie, a „kopiowanie ogromnych zestawów danych zajmuje mnóstwo czasu, co stanowi problem”. Pozostawienie danych w formatach natywnych i przenoszenie ich bezpośrednio z punktu, w którym są gromadzone, do publicznej chmury pozwala uniknąć kosztów związanych z kopiowaniem danych w ramach sieci wewnętrznej.

„Chcemy, aby wszystkie nasze ważne dane znajdowały się w jednym miejscu, do którego ma dostęp cała firma” – mówi

Mike Bojdak, dyrektor ds. technologii w AOL.

Jaki typ bazy danych wykorzystać?

Wybór właściwej bazy danych jest bardzo ważny z punktu widzenia projektu analitycznego. Pod uwagę należy wziąć takie czynniki jak ilość danych, formaty i opóźnienia.

Projekt, w którym firma Intel zmieniła bazy danych, wymagał zaawansowanych zapytań „korzystających z danych pochodzących z nieskorelowanych źródeł” – mówi Safa. Przetworzenie takiego samego zapytania w bazie SQL zajmowało cztery godziny. W bazie danych typu in-memory zajęło to 10 minut. Jednak Safa zauważa, że mimo oczywistych zalet tego rozwiązania baza danych typu in-memory nie nadaje się do wszystkich zastosowań. Wszystko sprowadza się do celów biznesowych obsługiwanego zadania.

Na początek według Safy należy określić, czy projekt będzie szukał wzorców czy wymaga raczej zegarmistrzowskiej precyzji.

„Rozproszone bazy danych, takie jak Hadoop, które przechowują dane w różnych formatach , sprawdzają się w projektach, gdzie szuka się trendów” – mówi „W takich przypadkach kilka niedokładnych danych nie zmieni radykalnie wyniku”.

Jednak z drugiej strony „[j]eśli próbujesz określić, gdzie konkretne materiały znajdują się na danym etapie procesu produkcji, potrzebna jest absolutna precyzja bez opóźnień”.

Takie potrzeby wymagają bazy danych z lepszą strukturą i możliwościami sterowania, pozwalającej na uzyskiwanie wyników w czasie rzeczywistym. W zależności od konkretnych potrzeb firma może wybrać architekturę przetwarzania rozproszonego typu in-memory lub wydajną bazę danych NoSQL. Chociaż możliwości wielu rodzajów analitycznych baz danych się pokrywają, ich funkcje są zupełnie inne.

Klasyfikacja danych wymaga dużych nakładów pracy, ale warto się do niej przyłożyć.

James LaPlaine, dyrektor ds. informatycznych w AOL

Kontrola dostępu

Zabezpieczając duże zbiory danych, działy IT staja przed odwiecznym dylematem – jak zabezpieczyć dane przed nieuprawnionym dostępem, a jednocześnie zapewnić do nich odpowiedni dostęp?

Brian Hopkins, wiceprezes i główny analityk w Forrester Research, zaleca kontrolowanie dostępu za pomocą standardowych mechanizmów uwierzytelniania i autoryzacji, takich jak hasła lub uwierzytelnianie wieloskładnikowe. „Jednak firmy powinny również szyfrować dane i ograniczać ich udostępnianie za pomocą tokenizacji” – mówi.

Innymi sposobami na zapewnienie bezpieczeństwa danych jest kopiowanie praw dostępu do danych z systemów, z których dane pochodzą, i ograniczanie dostępu do danych już przeanalizowanych do osoby lub zespołu, którzy przeprowadzili analizę.

Chociaż AOL planuje umieszczenie wszystkich swoich ważnych danych w scentralizowanej chmurze, firma wprowadziła już ograniczenia dostępu na wielu poziomach.

Analityk ręcznie przegląda dane i ustawia poziom dostępu w oparciu o poufność tych danych, a system uwierzytelniania zapewnia, że tylko osoby, którym przyznano autoryzację na tym poziomie, mogą przeglądać dane.

„AOL stale przegląda dane, by zapewnić odpowiednią klasyfikację praw dostępu na potrzeby systemu uwierzytelniania” – wyjaśnia LaPlaine. „Klasyfikacja danych to proces przeprowadzany ręcznie” – mówi LaPlaine. „Wymaga dużych nakładów pracy, ale warto się do niej przyłożyć” – dodaje.

„Staramy się znaleźć równowagę między potrzebami analityków i bezpieczeństwem danych” – mówi Bojdak.

Pobierz przewodnik „Od danych do skutecznego działania”


Biuletyn

Nasze najpopularniejsze przewodniki po planowaniu i informacje możesz otrzymywać pocztą e-mail.

Zaprenumeruj teraz