Gromadzenie danych: skąd biorą się cenne informacje

Zrozumienie informacji rozpoczyna się od gromadzenia danych. Technologie Intel® obsługują innowacyjne nowe metody gromadzenia danych na brzegu sieci.

Wnioski dotyczące gromadzenia danych:

  • Gromadzenie lub pozyskiwanie danych to pierwszy krok potoku danych, który obsługuje analizę biznesową, badania i rozwój oraz proces podejmowania decyzji.

  • Metody gromadzenia danych zmieniają się szybko, wraz z rosnącą różnorodnością urządzeń IoT, które generują dane na brzegu, a analitycy danych zajmują się większymi niż kiedykolwiek wcześniej bazami danych, przetwarzanymi przez systemy obliczeniowe dużej skali (HPC).

  • Firma Intel oferuje zaawansowane technologie związane z procesorami, siecią i warstwami pamięci masowej, aby zapewnić szybkie gromadzenie danych, ich dostępność na brzegu sieci, w chmurze oraz w centrum danych.

author-image

By

Czym jest gromadzenie danych?

Gromadzenie lub pozyskiwanie danych, czyli pierwszy etap w potoku danych, to proces gromadzenia informacji z wielu różnych źródeł. Celem gromadzenia danych jest dostarczanie informacji niezbędnych do analizy biznesowej, badań i podejmowania decyzji. W wielu przypadkach decyzje oparte na danych można podejmować w miejscu, w którym dane są gromadzone, jak w przypadku inteligentnej produkcji, wykorzystującej dane wizyjne AI do kontrolowania jakości produktów na linii produkcyjnej. W innych przypadkach analiza może trwać dużej i działać na petabajtach lub większej ilości danych, aby obsługiwać najtrudniejsze wyzwania obliczeniowe, takie jak sekwencjonowanie genomu. Wraz z rozwojem IoT i technologii centrów danych, metody i rozwiązania związane z gromadzeniem danych stały się bardziej zróżnicowane niż kiedykolwiek wcześniej.

Dane ustrukturyzowane a dane nieustrukturyzowane

Dwa główne rodzaje danych to dane ustrukturyzowanenieustrukturyzowane, a niektórzy specjaliści używają również terminu częściowo ustrukturyzowane, aby opisywać dane z pewnymi cechami obu tych rodzajów danych.

  • Dane ustrukturyzowane są specyficzne i zorganizowane, co umożliwia ich odczyt i łatwe zrozumienie w relacyjnych bazach danych. Zazwyczaj informacje te są hierarchiczne i można je łatwo porównać. Przykłady danych ustrukturyzowanych obejmują dane dotyczące transakcji finansowych, informacje o relacjach z klientami (CRM), dane zawiązane z planowaniem zasobów korporacyjnych (ERP) lub dokumentację zdrowotną.
  • Dane nieustrukturyzowane mają charakter bardziej jakościowy, są mniej zorganizowane wewnętrznie lub strukturalnie. Ponieważ trudno je ująć w hierarchii, od dawna znacznie więcej danych nieustrukturyzowanych jest gromadzonych niż analizowanych, a organizacje, które je wytwarzają i przechowują, pozostawiają je w „strefie mroku”, bez przeprowadzania analiz. Zazwyczaj do przechowywania i udostępniania danych nieustrukturyzowanych wykorzystuje się nierelacyjne bazy danych. Przykłady danych nieustrukturyzowanych obejmują pliki audio, pliki PDF, wpisy w mediach społecznościowych, opinie klientów, czy archiwa dokumentacji papierowej.

Zarówno dane ustrukturyzowane, jak i nieustrukturyzowane można gromadzić wraz z metadanymi lub danymi o danych. Na przykład aparat cyfrowy gromadzi metadane o godzinie i dacie oraz sprzęcie użytym do wykonania zdjęcia, które są następnie przekazywane jako element samego zdjęcia cyfrowego.

Źródła i metody gromadzenia danych

Gromadzenie danych odnosi się również do dwóch procesów: analityków danych zbierających i opracowujących informacje w bazach danych i przenoszących je do centrum danych lub środowiska chmury oraz do czujników IoT, kamer i innych urządzeń gromadzących dane na brzegu sieci. W wielu przypadkach użycia IoT dane są często przetwarzane w czasie zbliżonym do rzeczywistego w serwerach brzegowych, aby umożliwić wykorzystanie w przypadkach takich jak zautomatyzowane wykrywanie wad w inteligentnych fabrykach lub inteligentne zarządzanie ruchem w inteligentnych miastach. Dane gromadzone na brzegu mogą być również przekazywane w górę potoku do chmury w celu dalszego przetwarzania i analizy.

Źródła i metody gromadzenia danych są zróżnicowane i obejmują, między innymi:

  • Urządzenia i czujniki IoT: wraz z rozwojem technologii brzegowych dane można teraz gromadzić poprzez zautomatyzowane procesy z większej liczby źródeł niż kiedykolwiek wcześniej, na przykład czujników urządzeń przemysłowych, rur kanalizacyjnych czy urządzeń monitorujących pacjentów.
  • Gromadzenie danych audiowizualnych: rozwijające się rozwiązania analizy danych nieustrukturyzowanych, takich jak dźwięk, obraz czy pliki wideo, sprawiają, że gromadzenie takich danych stało się ważniejsze niż kiedykolwiek wcześniej. Te rodzaje danych nieustrukturyzowanych często wykorzystują pliki o znacznie większym rozmiarze, co powoduje, że ich pozyskiwanie wymaga większej mocy obliczeniowej i przestrzeni pamięci masowej.
  • Analiza w czasie rzeczywistym: dzięki analizie w czasie rzeczywistym dane są gromadzone i analizowane w czasie trwania strumienia gromadzenia danych. Na przykład czujniki liczby osób ułatwiają sprzedawcom detalicznym zachowanie wymogów związanych ze zdrowiem publicznym poprzez powiadamianie w czasie rzeczywistym, gdy liczba osób zbliża się do bezpiecznej wartości granicznej lub ją przekracza.
  • Gromadzenie danych zanonimizowanych: obawy dotyczące prywatności spowodowały pojawienie się potrzeby analizowania niektórych danych bez możliwości bezpośredniego powiązania danych z określoną osobą, która je generuje. Gromadzenie i przetwarzanie danych może obecnie obejmować podział na grupy demograficzne bez dostępu do konkretnych danych osobowych.
  • Opracowywanie danych: analitycy danych specjalizują się w organizowaniu źródeł danych ustrukturyzowanych w celu obsługi złożonych analiz, takich jak sekwencjonowanie genomu, badania nad klimatem czy prognozowanie finansowe. Zazwyczaj takie zbiory danych są tak ogromne, że do ich analizy wymagana jest infrastruktura HPC.

Nowoczesna strategia gromadzenia danych będzie prawdopodobnie obejmować różnorodną gamę tych technik i źródeł.

Urządzenia do gromadzenia danych na brzegu sieci

Wymagania technologiczne związane ze strategią gromadzenia danych zależą od miejsca powstawania danych oraz od tego, co firma chce osiągnąć dzięki ich wykorzystaniu. Przetwarzanie danych w miejscu ich powstawania i gromadzenia ma dwie kluczowe zalety. Pierwsza z nich to brak potrzeby przenoszenia danych do chmury, co pozwala firmom zmniejszać koszty związane z niższymi wymogami dotyczącymi infrastruktury sieci. Drugą zaletą jest fakt, że przetwarzanie danych w miejscu ich powstawania umożliwia przeprowadzanie analiz w czasie zbliżonym do rzeczywistego.

Urządzenia IoT mogą wykorzystywać procesory Intel Atom® lub jednostki przetwarzania widzenia Intel® Movidius™ Myriad™ X (VPU) do zapewnienia wydajności na potrzeby strumieni audiowizualnych lub czujników na brzegu sieci. W zależności od przypadku użycia procesory te są również dobrze dostosowane do wymagań termicznych w mniejszych przestrzeniach lub nawet zastosowań zewnętrznych. W przypadku obciążeń brzegowych wymagających pod względem danych, takich jak obsługa wnioskowania AI w wielu strumieniach wideo, urządzenia AI i serwery brzegowe z procesorami Intel® Core™ jedenastej generacji lub skalowalnymi procesorami Intel® Xeon® trzeciej generacji zapewniają większą przepustowość danych niż samodzielne czujniki brzegowe. Serwery te umożliwiają również większą łączność dzięki gniazdom rozszerzeń PCIe, co umożliwia integratorom systemów dodawanie akceleratorów do konkretnych wdrożeń.

Technologia gromadzenia danych dla chmury i centrów danych

Przenoszenie obliczeń na brzeg sieci nie zawsze ma sens. Jeśli w danej implementacji istnieje potrzeba szybkiego zwiększania skali ponad dostępne zasoby urządzenia brzegowego, przenoszenie danych do chmury jest skuteczniejszym rozwiązaniem. Poza tym niektóre obciążenia robocze mają na tyle wysokie wymagania pod względem obliczeń oraz pamięci operacyjnej i masowej, że do osiągnięcia wyników w oczekiwanym czasie wymagają centrum danych lub infrastruktury HPC. W takich przypadkach technologia gromadzenia danych ma największy wpływ w zrównoważonych konfiguracjach, które łączą najważniejsze nowoczesne rozwiązania obliczeniowe, pamięci masowej i sieci, aby uzyskać większy poziom wykorzystania platformy i dostępności danych.

  • Przetwarzanie: skalowalne procesory Intel® Xeon® trzeciej generacji są idealnym wyborem w przypadku obciążeń gromadzenia danych w chmurze lub centrum danych. Te procesory zapewniają nawet 1,92 razy lepszą wydajność analityki w porównaniu z pięcioletnią czterogniazdową platformą 1 i gdy obsługują technologię Intel® DL Boost z BF16,zapewniają nawet 1,93 razy lepszą wydajność klasyfikacji obrazu AI w porównaniu z poprzednią generacją z rozwiązaniem ResNet50 do przepustowości na potrzeby klasyfikacji obrazu2.
  • Sieć: karty sieciowe Intel® Ethernet z serii 800 obsługują prędkości nawet do 100 GbE w wielu różnych wariantach konstrukcyjnych, rozbudowaną pomoc techniczną na potrzeby systemu operacyjnego i elastyczną konfigurację portów. Technologie wbudowane, takie jak Dynamic Device Personalization (DDP) zmniejszają opóźnienia w przypadku zachowań programowalnych przy przetwarzaniu pakietów.
  • Pamięć masowa: dyski SSD Intel® Optane™ DC zapewniają niewiarygodnie szybkie prędkości odczytu i zapisu, duże ilości danych dla lepszej gęstości pamięci oraz opcje interfejsów PCIe, które umieszczają dane bliżej procesora.

Kompleksowa strategia gromadzenia danych

Rozbudowana oferta firmy Intel od brzegu sieci po rdzeń i chmurę zapewnia wydajność, przepustowość i dostępność danych potrzebnych do obsługi szybkiego, spójnego i niezawodnego pozyskiwania i gromadzenia danych. Firma Intel oferuje kompleksową podstawę dla potoku danych, zwiększając możliwości wykorzystania urządzeń brzegowych, rozwiązań sieciowych o dużej przepustowości i wydajność obliczeniową w wielu punktach wejścia i konstrukcjach. Rozwiązania Intel® ułatwiają firmom szybkie przemieszczanie danych, pozyskiwanie cennych informacji do podejmowania działań i wydobywanie wysokiej wartości.

Informacje o produktach i wydajności

1Zobacz punkt (5) na stronie www.intel.com/3gen-xeon-config. Wyniki mogą się różnić.
2Zobacz punkt (9) na stronie www.intel.com/3gen-xeon-config. Wyniki mogą się różnić.