Problemy trudne do rozwiązania

Wypowiedź Boba Rogersa z firmy Intel na temat wykorzystywania informacji uzyskanych w niemal wszystkich projektach analitycznych.

Zawsze można znaleźć sposób na uzyskanie istotnych wyników, nawet jeśli wydaje się, że problemu nie da się rozwiązać. Bob Rogers, główny analityk firmy Intel ds. przetwarzania danych, wyjaśnia, jak to zrobić.

Zarządzając funduszem hedgingowym, spędziłem ponad dziesięć lat na prognozowaniu zachowania rynków terminowych. Dysponowaliśmy bazą tickowych danych historycznych z kilkudziesięciu lat, jednak ogromną rolę odgrywał w nich czynnik losowy. W związku z tym uzyskiwanie automatycznych prognoz o pożądanym stopniu dokładności było niemożliwe. Motywy, jakimi ludzie kierują się podczas kupna i sprzedaży w konkretnym momencie, w połączeniu z dużą liczbą ludzi dokonujących transakcji oznaczały, że bez względu na to, co robiliśmy, nigdy nie udało nam się uzyskać wyników pozbawionych czynnika niepewności.

W analizie danych nazywamy takie problemy nierozwiązywalnymi. Gdy dojdzie się do pewnego punktu, poczynienie dalszych postępów w analizie i przetwarzaniu dużych ilości danych może po prostu nie być możliwe.

Na szczęście wiele problemów nierozwiązywalnych na pierwszy rzut oka można rozwiązać, jeśli usprawni się podejście lub zmieni dane wejściowe.

Świadomość, że problemy, które wydają się trudne, mogą zostać rozwiązane po wprowadzeniu pewnych, niewymagających dużych nakładów, zmian, ustawia firmę i sponsora projektu na wygranej pozycji. Z drugiej strony umiejętność rozpoznania problemów niemożliwych do rozwiązania pozwoli zapobiec stracie czasu i środków, które można z pożytkiem przeznaczyć na uzyskanie odpowiedzi na bardziej ukierunkowane pytanie.

Oto cztery sposoby rozwiązywania problemów, dzięki którym można poprawić uzyskiwane wyniki. Stosując konsekwentnie jeden lub kilka z nich, zamiast walić głową w mur można zwiększyć szanse na uzyskanie cennych wyników w swojej pracy analitycznej.

1. Zadaj bardziej ukierunkowane pytanie

Często najlepszym sposobem na zrobienie kroku naprzód jest rozwiązanie tylko części pierwotnego zadania i ekstrapolacja wniosków. Określenie prawdopodobieństwa, z jakim dany użytkownik mediów społecznościowych będzie zainteresowany projektowanym przez Ciebie modelem samochodu, jest raczej niemożliwe. Nawet dysponując dużą ilością dobrych danych, będziesz mieć zbyt wiele zmiennych, aby uzyskać model o faktycznej wartości prognostycznej.

Czasami dodanie nowego zestawu danych pozwala uzyskać nową perspektywę i znaleźć rozwiązanie.

Bob Rogers, główny analityk firmy Intel ds. przetwarzania danych

2. Popraw algorytm

W nauce o danych algorytmy określają nie tylko sekwencję operacji wykonywanych przez system analityczny podczas przetwarzania zestawu danych, ale również odzwierciedlają Twój sposób myślenia lub „modelowania” potencjalnych zależności między danymi.

Czasem stworzenie odpowiedniego algorytmu lub modyfikacja dostępnego algorytmu na potrzeby konkretnego nowego celu wymaga wielu prób. (Uczenie maszynowe osiąga obiecujące rezultaty, zmierzające w kierunku automatyzacji algorytmów – to dziedzina, którą warto śledzić).

Czasami dodanie nowego zestawu danych pozwala uzyskać nową perspektywę i znaleźć rozwiązanie.

Jedną z oznak, że algorytm nie działa poprawnie, jest niewielka poprawa w czasie przetwarzania po znacznym zwiększeniu mocy obliczeniowej (np. pięciokrotnym).

Można też nieznacznie zmodyfikować parametry algorytmu. Nieznacznie różniące się algorytmy powinny dawać zbliżone wyniki. Jeśli odpowiedzi radykalnie się różnią, prawdopodobnie coś jest nie tak i potrzebny jest inny algorytm.

Albo być może zupełnie inny typ algorytmu. Wybór modelu często opiera się na założeniach dotyczących danych, takich jak oczekiwana progresja liniowa między dwoma elementami, których relację można lepiej przedstawić na drzewie decyzyjnym.

Istnieje wiele powszechnie dostępnych bibliotek algorytmów na licencji open-source. Rzadko trzeba zaczynać od zera.

3. Uporządkuj swoje dane

To odwieczne wyzwanie dla działów IT. Fałszywe dane = fałszywe wyniki. Optymalnie problem ten należałoby rozwiązać przed rozpoczęciem projektu analitycznego, jednak problemy z zestawami danych często pojawiają się dopiero po rozpoczęciu analizy.

4. Użyj innych danych

To nieco trudniejsza wariacja na temat poprzedniej wskazówki. Aby uzyskać więcej danych, czasem wystarczy zaktualizować metadane. Aby zebrać potrzebne dane, konieczna może być zmiana niektórych procesów.

Większość firm wyciąga już z danych, które przechowują w tradycyjnych magazynach danych, tyle informacji, ile to tylko możliwe. Czasem po dodaniu nowego zestawu danych – zwłaszcza nieusystematyzowanych, takich jak zapiski lekarzy o postępach lub udokumentowane interakcje między pracownikami call center i klientami – udaje się znaleźć nowe rozwiązanie.

Ogólnie rzecz biorąc, więcej danych powinno pomóc w uzyskaniu lepszych odpowiedzi. Podczas testowania projektu analitycznego należy dodawać dane stopniowo, aby sprawdzić, jak wpływa to na odpowiedzi. Należy je dodawać tak długo, jak długo uzyskiwane odpowiedzi poprawiają się.

Gdy postęp zwolni, trzeba ocenić koszty możliwych podejść wobec potencjalnych zysków. Nie zaszkodzi też pamiętać o zasadzie: próba zbyt precyzyjnego przewidzenia ludzkich zachowań może doprowadzić do zastoju.

Pobierz przewodnik „Od danych do skutecznego działania”


Biuletyn

Nasze najpopularniejsze przewodniki po planowaniu i informacje możesz otrzymywać pocztą e-mail.

Zaprenumeruj teraz