Co to jest analiza danych?

Dane są tworzone szybciej niż kiedykolwiek, ale czy w pełni wykorzystujesz te, które gromadzisz?

Zrozumienie istoty danych na głębszym poziomie jest kluczowe dla stworzenia firmy odnoszącej sukcesy. Analiza danych to proces, podczas którego surowe dane stają się użyteczną wiedzą, na podstawie której można działać. Technologia Intel® działa na każdym etapie potoku danych, aby ułatwić firmom gromadzenie i analizowanie danych praktycznie w każdym celu.

W przypadku firm i wszelkiego rodzaju organizacji przekształcanie danych w przydatne do działania informacje może mieć wpływ na zmaganie się z problemami lub prosperowanie przedsiębiorstwa. Maksymalizacja wartości informacji wymaga analizy danych — procesu, w którym surowe dane są analizowane w celu wyciągnięcia wniosków.

Podczas gdy prawie każda firma analizuje jakieś dane, nowoczesna analiza zapewnia bezprecedensowy poziom zrozumienia i wiedzy. Jak daleko Twoja firma posunęła się w kierunku kultury opartej na danych oraz analizie i jaki jest następny krok?

Wszystko zaczyna się od potoku danych.

Zrozumienie potoku danych

Stworzenie dobrze rozwiniętego podejścia do analizy danych jest procesem ewolucyjnym wymagającym czasu i zaangażowania. Dla przedsiębiorstw, które chcą zrobić kolejny krok, bardzo ważne jest zrozumienie potoku danych oraz cyklu życia danych przechodzących przez ten potok.

  • Pozyskiwanie: gromadzenie danych
    Pierwszym etapem potoku danych jest pozyskiwanie. Na tym etapie dane są zbierane ze źródeł i przenoszone do systemu, w którym mogą być przechowywane. Dane mogą być gromadzone jako ciągły strumień lub jako seria nieciągłych zdarzeń.

    W przypadku większości danych niestrukturalnych — firma IDC szacuje, że od 80 do 90%1 — pozyskiwanie jest zarówno początkiem, jak i końcem cyklu życia danych. Te informacje, zwane „ciemnymi danymi”, są pozyskiwane, ale nigdy nie są analizowane ani wykorzystywane do wywierania wpływu na resztę firmy.

    Obecnie jeden z największych trendów w zaawansowanej analizie danych zaczyna się już na etapie pozyskiwania. W takich przypadkach analiza danych strumieniowych w czasie rzeczywistym odbywa się równolegle z procesem pozyskiwania. Jest to znane jako analiza brzegowa i wymaga wysokiej wydajności obliczeniowej przy niskim zużyciu energii. Do analizy brzegowej często wykorzystuje się urządzenia IoT oraz czujniki, które gromadzą informacje z urządzeń, w tym maszyn przemysłowych, miejskich latarni ulicznych, sprzętu rolniczego i innych powiązanych rzeczy.

  • Przygotowanie: przetwarzanie danych
    Kolejnym etapem potoku danych jest przygotowanie danych do wykorzystania oraz przechowywanie informacji w systemie dostępnym dla użytkowników i aplikacji. Aby zmaksymalizować jakość danych, należy je wyczyścić i przekształcić w informacje, do których łatwo można uzyskać dostęp i szybko wykonać zapytanie.

    Zazwyczaj informacje są przygotowywane i przechowywane w bazie danych. Do zrozumienia i analizy danych w różnych formatach i do różnych celów wykorzystuje się różne typy baz danych. Systemy zarządzania relacyjnymi bazami danych SQL*, takie jak SAP HANA* lub Oracle DB*, zazwyczaj obsługują zestawy danych strukturalnych. Może to obejmować informacje finansowe, weryfikację poświadczeń lub śledzenie zamówień. Do obciążeń niestrukturalnych danych oraz analizy w czasie rzeczywistym częściej wykorzystuje się bazy danych NoSQL*, takie jak Cassandra i HBase.

    Optymalizacja tego etapu potoku danych wymaga wydajności obliczeniowej i pamięci, a także zarządzania danymi w celu szybszego wykonywania zapytań do bazy. Wymaga również skalowalności, aby pomieścić duże ilości danych. Dane mogą być przechowywane i warstwowane według pilności oraz przydatności, tak aby umożliwić jak najszybszy dostęp do najbardziej krytycznych danych.

    Technologie Intel® obsługują niektóre z obecnych przypadków użycia baz danych, które wykorzystują większość pamięci masowej i intensywnie korzystają z pamięci. Dzięki dyskom Intel® Optane™ Solid State Drive Alibaba Cloud* było w stanie zapewnić 100 TB pojemności dla każdej instancji POLARDB.

  • Analiza: modelowanie danych
    Na kolejnym etapie potoku danych przechowywane dane są analizowane i tworzone są algorytmy modelowania. Dane mogą być analizowane przez kompleksową platformę analityczną taką jak SAP, Oracle lub SAS, lub przetwarzane na dużą skalę przez narzędzia takie jak Apache Spark*.

    Przyspieszenie i zmniejszenie kosztów w tej fazie potoku danych ma kluczowe znaczenie dla przewagi konkurencyjnej. Biblioteki i zestawy narzędzi mogą skrócić czas oraz zmniejszyć koszty rozwoju. Tymczasem optymalizacje sprzętu i oprogramowania mogą pomóc obniżyć koszty serwerów oraz centrum danych, skracając czas odpowiedzi.

    Technologie, takie jak analityka w pamięci, mogą rozszerzyć możliwości analizy danych i sprawić, że inwestycje w analitykę będą bardziej opłacalne. Dzięki firmie Intel firma chemiczna Evonik uzyskała 17-krotnie szybsze ponowne uruchomienie tabel danych SAP HANA*2

  • Działanie: podejmowanie decyzji
    Po pozyskaniu, przygotowaniu i przeanalizowaniu danych można działać na ich podstawie. Wizualizacja danych i sporządzanie sprawozdań pomaga przedstawić wyniki analizy.

    Przekształcenie tych wyników w analitykę biznesową, na podstawie której można szerzej działać, zazwyczaj wymagało, aby były one zinterpretowane przez ekspertów lub analityków danych. Jednakże, w oparciu o dane analityczne, firmy zaczęły wykorzystywać sztuczną inteligencję do automatyzacji działań, takich jak wysyłanie ekipy konserwacyjnej lub zmiana temperatury w pomieszczeniu.

Aby uzyskać bardziej szczegółowe zasoby na temat potoku danych i tego, jak organizacje mogą rozwijać swoje możliwości analityczne, przeczytaj nasz e-book pt. „Od danych do wiedzy: maksymalizacja potoku danych”.

Jak daleko Twoja firma posunęła się w kierunku kultury opartej na danych oraz analizie i jaki jest następny krok?

Cztery rodzaje analizy danych

Analizę danych można podzielić na cztery podstawowe rodzaje: analiza deskryptywna, diagnostyczna, predykcyjna i preskryptywna. Są to kroki w kierunku dojrzałości analitycznej. Każdy krok skraca dystans między fazami „analizy” i „działania” w potoku danych.

  • Analiza deskryptywna
    Analiza opisowa służy do podsumowania i wizualizacji danych historycznych. Innymi słowy, informuje firmy o tym, co się już wydarzyło.
    Najprostszy rodzaj analizy, analiza deskryptywna, może być tak podstawowa, jak wykres analizujący zeszłoroczne dane dotyczące sprzedaży. Każdy wysiłek analityczny zależy od solidnego fundamentu opartego na analizie deskryptywnej. Wiele firm nadal polega głównie na tej formie analizy, która obejmuje pulpity nawigacyjne, wizualizację danych i narzędzia do raportowania.

  • Analiza diagnostyczna
    W miarę dojrzewania działań analitycznych firmy zaczynają zadawać coraz trudniejsze pytania dotyczące ich danych historycznych. Analiza diagnostyczna bada nie tylko to, co się stało, ale dlaczego się to stało. Aby przeprowadzić analizę diagnostyczną, analitycy muszą być w stanie zadać szczegółowe pytania w celu zidentyfikowania tendencji i przyczyn.
    Korzystając z analizy diagnostycznej, można odkryć nowe zależności między zmiennymi: w przypadku firmy produkującej odzież sportową rosnące dane dotyczące sprzedaży na Środkowym Zachodzie mogą korelować ze słoneczną pogodą. Analiza diagnostyczna dopasowuje dane do wzorców i wyjaśnia dane nietypowe lub odstające od reszty.

  • Analiza predykcyjna
    Podczas gdy dwa poprzednie rodzaje analizy badają dane historyczne, zarówno analiza predykcyjna, jak i preskryptywna zajmują się przyszłością. Analiza predykcyjna tworzy prognozę prawdopodobnych wyników na podstawie zidentyfikowanych tendencji i modeli statystycznych opartych na danych historycznych.
    Opracowanie strategii na podstawie analizy predykcyjnej wymaga budowania i walidacji modelu w celu stworzenia zoptymalizowanych symulacji tak, aby osoby podejmujące decyzje biznesowe mogły osiągnąć najlepsze wyniki. Uczenie maszynowe jest powszechnie wykorzystywane do analizy predykcyjnej i tworzenia modeli szkoleniowych na wysoce skalowanych zestawach danych w celu generowania bardziej inteligentnych prognoz.

  • Analiza preskryptywna
    Innym zaawansowanym rodzajem analizy jest analiza preskryptywna. Dzięki analizie preskryptywnej, która zaleca najlepsze rozwiązanie na podstawie analizy predykcyjnej, ewolucja w kierunku podejmowania decyzji opartych na danych jest zakończona.
    Analiza preskryptywna w dużej mierze opiera się na analityce uczenia maszynowego i sieciach neuronowych. Te obciążenia działają na wysokiej wydajności obliczeniowej i pamięci. Ten rodzaj analizy wymaga solidnych podstaw opartych na pozostałych trzech typach analiz i może być wykonywany tylko przez firmy posiadające wysoce rozwiniętą strategię analityczną, które są gotowe zaangażować znaczne zasoby w ten wysiłek.

Przypadki użycia analizy danych

Technologia Intel® zmienia sposób przeprowadzania analiz w nowoczesnych przedsiębiorstwach. Dzięki przypadkom użycia obejmującym wiele branż — i na całym świecie — firma Intel® nieustannie rozwija analizę, pomagając firmom w optymalizacji wydajności i opłacalności.

  • Produkcja
    W przypadku producentów samochodów kontrola jakości oszczędza pieniądze — i ratuje życie. W zautomatyzowanej fabryce firmy Audi analitycy korzystali z próbkowania, aby zapewnić jakość spoiny. Wykorzystując analizę predykcyjną na brzegu sieci, opartą na oprogramowaniu Intel® Industrial Edge Insights, producent może automatycznie sprawdzać każdą spoinę, w każdym samochodzie i przewidywać problemy ze spoiną podczas jej wykonywania na podstawie odczytów czujników.

  • Służba zdrowia
    Szkolenie sztucznej inteligencji w zakresie odczytywania zdjęć rentgenowskich klatki piersiowej może pomóc pacjentom i lekarzom szybciej uzyskać diagnozę. Wykorzystując skalowalne procesory Intel® Xeon® do zasilania sieci neuronowej, organizacja badawcza SURF skróciła czas szkolenia z jednego miesiąca do sześciu godzin, jednocześnie zwiększając dokładność.

  • Telekomunikacja
    Smartfony i mobilny internet stworzyły bezprecedensowe ilości danych mobilnych. Aby poprawić doświadczenia klientów, firma telekomunikacyjna Bharati Airtel wdrożyła zaawansowaną analizę sieci przy użyciu procesorów Intel® Xeon® oraz dysków Intel® SSD w celu szybszego wykrywania i naprawiania problemów z siecią.

Technologie Intel® do analizy

Dzięki szerokiemu ekosystemowi technologii i partnerów, którzy pomagają firmom tworzyć rozwiązania jutra, firma Intel zapewnia zaawansowane narzędzia analityczne dla przedsiębiorstw na całym świecie. Od centrum danych do brzegu sieci, firma Intel pracuje w każdym punkcie ekosystemu analitycznego, aby zapewnić maksymalną wartość i wydajność.

  • Skalowalne procesory Intel® Xeon® umożliwiają analizę ogromnych ilości danych z dużą prędkością zarówno na brzegu sieci, w centrum danych, jak i w chmurze.
  • Technologia Intel® Optane™ reprezentuje rewolucyjne podejście do pamięci i pamięci masowej, które pomaga uporać się z wąskim gardłem w sposobie przenoszenia oraz przechowywania danych.
  • Układy Intel® FPGAzapewniają przyspieszenie w centrum danych, aby skrócić czas odpowiedzi.
  • Rozwiązania Intel® Select są sprawdzone pod kątem optymalnej wydajności, eliminując domysły i przyspieszając wdrażanie rozwiązań.

Często zadawane pytania

Analiza danych to proces, podczas którego informacje zmieniają się z surowych danych w użyteczną wiedzę, na podstawie której firmy mogą działać.

Analiza dużych zbiorów danych wykorzystuje wysoce skalowane zestawy danych do odkrywania nowych zależności oraz lepszego zrozumienia dużych ilości informacji.

Zaawansowana analiza nie jest konkretną technologią lub zestawem technologii. To klasyfikacja przypadków użycia i rozwiązań, w których wykorzystano zaawansowane technologie, takie jak uczenie maszynowe, rozszerzona analityka oraz sieci neuronowe.

Analiza danych służy do tworzenia analityki biznesowej, która może pomóc firmom w zrozumieniu przeszłych wydarzeń, przewidywaniu przyszłych wydarzeń oraz planowaniu kierunków działań.

Cztery etapy potoku danych to pozyskiwanie, przygotowanie, analiza i działanie.

Zarówno analiza deskryptywna, jak i diagnostyczna dotyczą przeszłości. Analiza opisowa odpowiada na pytanie co się stało, podczas gdy analiza diagnostyczna bada dlaczego się to stało.

Analiza opisowa spogląda w przeszłość, aby dowiedzieć się, co się stało i jest podstawą wszystkich pozostałych rodzajów analizy. Analiza preskryptywna przedstawia zalecenia dotyczące działania w oparciu o istniejące dane oraz algorytmy predykcyjne.

Zarówno analiza predykcyjna, jak i preskryptywna generują wgląd w przyszłość. Analiza predykcyjna tworzy prognozę dotyczącą przewidywanych zdarzeń, a analiza preskryptywna zaleca sposób działania w oparciu o te przewidywania.

Analiza predykcyjna służy do lepszego przewidywania przyszłych wydarzeń. Analiza predykcyjna pozwala zidentyfikować potrzeby konserwacyjne, zanim się one rozwiną, lub ocenić najbardziej prawdopodobny wpływ warunków ekonomicznych na przyszłe prognozy sprzedaży.

Podobna treść

Dowiedz się więcej na temat technologii Intel® do analizy.

Analiza danych

Dowiedz się, jak analiza może pomóc firmom w dostarczaniu wiarygodnych i przydatnych spostrzeżeń oraz jak rozwijać swoją strategię analityczną.

Wykorzystaj w pełni możliwości analizy

Zaawansowana analiza danych

Inteligentniejsze firmy zaczynają od zaawansowanych analiz. Dowiedz się, jak zdobyć przewagę na rynku opartym na danych dzięki technologiom Intel®.

Opracuj inteligentniejszą strategię analityczną

Analiza uczenia maszynowego

Aby usprawnić działania analityczne, uzyskaj głębszy wgląd w szybszym tempie dzięki uczeniu maszynowemu i sztucznej inteligencji.

Uwolnij swój pełny potencjał

Analiza predykcyjna

Wykorzystaj swoje dane, aby zyskać przewagę nad konkurencją, tworząc przydatne prognozy dotyczące przyszłości.

Patrz w przyszłość dzięki analizie predykcyjnej

Informacje i warunki
Technologie firmy Intel mogą wymagać obsługującego je sprzętu, oprogramowania lub aktywacji usług. // Żaden produkt ani komponent nie jest w stanie zapewnić całkowitego bezpieczeństwa. // Rzeczywiste koszty i wyniki mogą się różnić. // Firma Intel nie sprawdza ani nie weryfikuje danych podawanych przez osoby trzecie. Aby ocenić ich dokładność, należy się zapoznać z innymi źródłami.

Informacje o produktach i wydajności

1„What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses”, Forbes, czerwiec 2019, forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e.
2Symulowane obciążenie SAP HANA* dla wersji SAP BW dla SAP HANA* Standard Application Benchmark wersja 2 na dzień 30 maja 2018. Oprogramowanie i obciążenia wykorzystane w testach wydajności mogły zostać zoptymalizowane pod kątem wydajnego działania tylko na mikroprocesorach Intel®. Testy wydajności, takie jak SYSmark* i MobileMark, mierzą wydajność określonych systemów komputerowych, podzespołów, oprogramowania, działań i funkcji. Jakakolwiek zmiana wyżej wymienionych czynników może spowodować uzyskanie innych wyników. Aby wszechstronnie ocenić planowany zakup, w tym wydajność danego produktu w porównaniu z konkurencyjnymi, należy zapoznać się z informacjami z innych źródeł oraz innymi testami wydajności. Więcej informacji znajdziesz na stronie www.intel.pl/benchmarks. Wyniki są oparte na testach z dni wskazanych w konfiguracjach i mogą nie uwzględniać wszystkich publicznie dostępnych aktualizacji. Szczegóły dotyczące konfiguracji można znaleźć w kopii zapasowej. Żaden produkt ani komponent nie jest całkowicie bezpieczny. Podstawowa konfiguracja z tradycyjną pamięcią DRAM: serwer Lenovo ThinkSystem SR950 z 8 procesorami Intel® Xeon® Platinum 8176M (28 rdzeni, 165 W, 2,1 GHz). Łączna pamięć operacyjna obejmuje 48 × 16 GB TruDDR4 2666 MHz RDIMM, a pamięć masowa dla SAP HANA* składa się z 5 2,5-calowych dysków SSD ThinkSystem PM1633a SAS 12 Gb typu hot swap o pojemności 3,84 TB. Zaimplementowanym systemem operacyjnym jest SUSE Linux Enterprise Server 12* SP3, który korzysta z SAP HANA* 2.0 SPS 03 z zestawem danych 6 TB. Średni czas rozruchu dla wszystkich zakończonych danych po wstępnym wczytaniu tabeli dla 10 iteracji: 50 minut. Nowa konfiguracja z połączeniem pamięci DRAM i pamięci trwałej Intel® Optane™ DC: procesor Intel Lightning Ridge SDP z 4 procesorami CXL QQ89 AO (24 rdzenie, 165 W, 2,20 GHz). Całkowita pamięć operacyjna obejmuje 24 moduły DDR4 2666 MHz 32 GB i 24 moduły AEP ES2 128 GB oraz dysk Intel® SSD DC z serii S3710 o pojemności 800 GB, 3 dyski Intel® SSD DC z serii P4600 o pojemności 2,0 TB i 3 dyski Intel® SSD DC z serii S4600 o pojemności 1,9 TB. Wersja systemu BIOS: WW33'18. Zaimplementowanym systemem operacyjnym jest SUSE Linux*4 Enterprise Server 15, który korzysta z SAP HANA* 2.0 SPS 03 (zastosowano określone jądro PTF SUSE) z zestawem danych 1,3 TB. Średni czas rozpoczęcia dla zoptymalizowanych wstępnie ładowanych tabel (17-krotna poprawa).