Logo DataRobot

Wykorzystaj zautomatyzowane uczenie maszynowe do przyspieszenia czasu uzyskania wartości dla AI

Dzięki platformie AutoML firmy DataRobot i najnowszym technologiom Intel® przedsiębiorstwa mogą szybko szkolić duże zbiory danych i budować gotowe do produkcji modele uczenia maszynowego.

Korzyści z rozwiązania:

  • Wypełnia lukę w umiejętnościach w zakresie danologii. Umożliwia szerokiemu gronu użytkowników biznesowych tworzenie modeli uczenia maszynowego.

  • Zapewnia cenę/wydajność dla szkoleń z zakresu uczenia maszynowego. Ekonomicznie szkoli wiele modeli z dużymi zbiorami danych jednocześnie.

  • Buduje sukces AI. Szybko tworzy solidne, przejrzyste modele uczenia maszynowego, wyrównując drogę do przyjęcia AI.

author-image

Według

Streszczenie

Rosnące pragnienie uzyskania wartości biznesowej ze sztucznej inteligencji (AI) stworzyło lukę pomiędzy zapotrzebowaniem na wiedzę z zakresu danologii a podażą naukowców zajmujących się danymi. Platforma automatycznego uczenia maszynowego (AutoML) firmy DataRobot działająca na architekturze Intel® odpowiada na to wyzwanie, automatyzując wiele zadań potrzebnych do tworzenia aplikacji AI i uczenia maszynowego.

Użytkownicy DataRobot mogą budować dokładne, przejrzyste modele predykcyjne w ciągu kilku minut. Eksperci w dziedzinie danologii mogą pracować wydajniej. Użytkownicy biznesowi mogą tworzyć solidne modele uczenia maszynowego, wykorzystując swoją wiedzę na temat danych przedsiębiorstwa i procesów biznesowych. Organizacje mogą stosować AI do ważnych wyzwań biznesowych i nakierować się na sukces w powstającej gospodarce algorytmów.

Zoptymalizowane pod kątem najnowszych technologii Intel rozwiązanie DataRobot AutoML zapewnia niezrównaną wydajność, pojemność pamięci i skalowalność w zakresie tworzenia, szkolenia i wdrażania modeli uczenia maszynowego w znanej, ekonomicznej infrastrukturze. Dzięki skalowalnym procesorom Intel® Xeon® 2. generacji i pamięci trwałej Intel® Optane™ organizacje mogą trenować modele na zbiorach danych o wielkości do 100 GB. W testach porównawczych system z pamięcią trwałą Intel Optane szkolił się praktycznie z taką samą prędkością jak system tylko z pamięcią DRAM, w zależności od rozmiaru zbioru danych i metody szkolenia. Przewidywano, że system z pamięcią trwałą Intel Optane może wyszkolić się nawet do 1,33x większego zbioru danych przy tym samym koszcie pamięci w porównaniu z systemem opartym wyłącznie na pamięci DRAM.1

Rysunek 1. DataRobot, działając na technologiach Intel®, buduje sukces AI poprzez automatyzację rozwoju solidnych narzędzi uczenia maszynowego.

Wyzwanie biznesowe: Wypełnić lukę pracowników w dziedzinie danologii

Organizacje wszystkich rozmiarów chętnie stosują AI do najtrudniejszych wyzwań i najbardziej ekscytujących możliwości. Wiele z nich uznaje uczenie maszynowe i inne formy AI za skuteczne sposoby na uzyskanie przewagi konkurencyjnej poprzez czerpanie świeżych informacji z rosnących zasobów danych. Wartość światowego rynku AI, w 2018 r. wyceniona na 20,67 mld USD, do 2026 r. ma wzrosnąć do 202,57 mld USD, co oznacza skumulowaną roczną stopę wzrostu od 2019 r. na poziomie 33,1 proc.2.

Rosnący popyt na rozwiązania AI doprowadził do znacznych niedoborów pracowników znających się na AI. Według raportu TalentSeer ze stycznia 2020 r. zapotrzebowanie na osoby z umiejętnościami w zakresie AI wzrosło o 74 proc. w każdym z czterech poprzednich lat.3 W badaniu Gartnera przeprowadzonym wśród 3000 CIO przedsiębiorstw z 89 krajów, 54 proc. z nich wskazało braki w umiejętnościach jako swoje największe wyzwanie w zakresie AI4.

Wraz z brakiem ekspertów w dziedzinie danologii rozwój uczenia maszynowego jest utrudniony przez zadania, które są często złożone, żmudne i czasochłonne. W rezultacie naukowcy zajmujący się danymi spędzają cenny czas na wykonywaniu tych zadań, zamiast w pełni wykorzystywać swoją wiedzę. Poza tym wielu osobom posiadającym wiedzę na temat danych biznesowych brakuje konkretnych umiejętności z zakresu tworzenia modeli uczenia maszynowego. Te kwestie spowalniają rozwój AI i uniemożliwiają przedsiębiorstwom wdrażanie AI tak szybko i szeroko, jak wymagają tego potrzeby biznesowe.

Omówienie rozwiązania: Zautomatyzowane uczenie maszynowe z DataRobot i Intel

DataRobot wykorzystuje zautomatyzowane uczenie maszynowe (AutoML), aby pomóc wypełnić lukę w umiejętnościach AI. Rozwiązanie DataRobot automatyzuje i zastępuje wiele żmudnych prac manualnych wymaganych przez tradycyjne procesy danologiczne. Umożliwia użytkownikom znającym się na danych, na wszystkich poziomach zaawansowania, szybkie tworzenie, testowanie, modelowanie i wdrażanie algorytmów uczenia maszynowego, z wykorzystaniem najlepszych praktyk i zabezpieczeń, które pomagają uniknąć błędów popełnianych przez człowieka.

Dzięki DataRobot użytkownicy w całym przedsiębiorstwie mogą wykorzystać swoją wiedzę na temat danych biznesowych do wygenerowania zaawansowanych modeli uczenia maszynowego, bez konieczności tworzenia kodu lub rozumienia zawiłości konkretnych algorytmów. Naukowcy zajmujący się danymi mogą w produktywny sposób wykorzystać swoją unikalną wiedzę do wyboru i dostrojenia modeli. Organizacje mogą szybko tworzyć dokładne modele uczenia maszynowego i czerpać większą wartość z danych przedsiębiorstwa. Rysunek 2 przedstawia graficzny interfejs użytkownika (GUI) rozwiązania DataRobot.

Rysunek 2. Intuicyjny interfejs graficzny DataRobot pomaga użytkownikom posiadającym umiejętności w zakresie danych biznesowych rozwijać modele uczenia maszynowego bez konieczności opanowywania szczegółów tworzenia algorytmów, funkcji i innych aspektów.

DataRobot wykorzystuje uczenie maszynowe i technologie Intel do analizy ogromnych wolumenów danych oraz wychwytywania zależności, trendów i wzorców, które mogą być zbyt subtelne, aby mogły zostać wykryte przez wcześniejsze analizy i wywiady biznesowe. Użytkownicy wprowadzają odpowiednie dane i wybierają zmienną, którą chcą przewidzieć. DataRobot wybiera najbardziej odpowiednie algorytmy oraz optymalizuje przetwarzanie danych, inżynierię cech i strojenie parametrów dla każdego algorytmu. Buduje i szkoli setki modeli predykcyjnych, szereguje i ocenia modele oraz zaleca najlepszy model do wdrożenia dla danych i dla celów predykcji. Zamiast spędzać tygodnie lub miesiące na opracowywaniu i testowaniu kilku ręcznie kodowanych modeli, użytkownicy mogą tworzyć i badać setki modeli oraz wdrażać te, które działają najlepiej – wszystko w ciągu kilku godzin.

DataRobot zaprojektowano z myślą o przejrzystości, aby użytkownicy mogli zrozumieć i potrafili wyjaśnić, w jaki sposób modele zostały zbudowane i dlaczego dokonały takich przewidywań, jakich dokonały. Wbudowane wizualizacje pokazują, które typy danych mają największy wpływ na model, zapewniając wgląd w to, jak poszczególne zmienne wpływają na biznes. Rozwiązanie wykorzystuje wydajność, skalowalność i pojemność pamięci technologii firmy Intel do budowania, szkolenia i oceny modeli uczenia maszynowego, a także do obsługi rosnących zbiorów danych i przypadków użycia.

Generowanie wiedzy i wartości za pomocą AutoML

Różne branże wykorzystują rozwiązanie DataRobot AutoML do tworzenia modeli predykcyjnych, które wspomagają ludzką wiedzę, usprawniają podejmowanie decyzji na podstawie danych, zwiększają efektywność i wiele innych. Oto niektóre przykłady:

  • Firmy ubezpieczeniowe stawiają na obszary od wystawiania polis po marketing. Wykorzystują one wiedzę opartą na uczeniu maszynowym dla celów optymalizacji algorytmów cenowych, ostrzejszej oceny ryzyka i zmniejszenia liczby fałszywych roszczeń.
  • Firmy zajmujące się technologiami finansowymi przewidują nieuczciwe transakcje kartami kredytowymi i tworzą nowe produkty inwestycyjne. Wzmacniają one bezpieczeństwo Blockchain poprzez wykrywanie anomalii w łańcuchu oraz zwiększają wskaźniki odpowiedzi marketingowych dzięki lepszemu targetowaniu.
  • Sprzedawcy detaliczni uzyskują nowy wgląd we wzorce wydatków i zachowania zakupowe klientów we wszystkich kanałach. Wykorzystują te spostrzeżenia, aby lepiej dopasować asortyment produktów, promocje, komunikaty i wybory medialne, aby wybrać właściwy produkt we właściwym miejscu i czasie.
  • Producenci podejmują kolejne kroki w zakresie automatyzacji fabryk i optymalizacji łańcucha dostaw, napędzając dalszy wzrost wydajności, oszczędność kosztów i poprawę jakości. Wykorzystując konserwację predykcyjną i strumienie danych w czasie rzeczywistym z podłączonych aktywów, optymalizują koszty i czas pracy poprzez serwisowanie aktywów, zanim zdążą się one zepsuć. Włączają modele uczenia maszynowego do projektowania inteligentnych produktów nowej generacji.
  • Agencje sektora publicznego wykorzystują modele uczenia maszynowego z zasilaniem danymi w czasie rzeczywistym do przewidywania potencjalnych działań terrorystycznych, oszustw i zagrożeń dla cyberbezpieczeństwa. Skalowalne rozwiązania w zakresie uczenia maszynowego to kluczowy czynnik umożliwiający realizację funkcji inteligentnych miast, które mogą pomóc w poprawie bezpieczeństwa publicznego, wydajności ruchu drogowego i innych kwestii.
  • Organizacje opieki zdrowotnej wspomagają osąd zespołów opieki klinicznej modelami uczenia maszynowego, które wskazują pacjentów o wysokim ryzyku rozwoju zagrażających życiu infekcji lub wymagających kosztownego ponownego przyjęcia. Firmy farmaceutyczne optymalizują logistykę wysyłki leków, poprawiając koszty dostawy i obsługę klienta.

Wartość rozwiązania: Usprawniona droga do przedsiębiorstwa opartego na sztucznej inteligencji

Rozwiązanie AutoML od DataRobot i Intel zmienia szybkość i ekonomikę analizy predykcyjnej oraz zapewnia szybką drogę do sukcesu AI. Ta platforma klasy przemysłowej rozwiązuje problem niedoboru umiejętności poprzez zwiększenie produktywności naukowców zajmujących się danymi. Umożliwia profesjonalistom, którzy posiadają umiejętności w zakresie danych i wiedzę biznesową, szybkie opracowanie i wdrażanie dokładnych modeli predykcyjnych. Jest to również odpowiedź na potrzebę wielu użytkowników DataRobot, którzy muszą szkolić modele na bardzo dużych zbiorach danych. Organizacje mogą skalować swoje wysiłki w zakresie uczenia maszynowego, aby zrealizować większą liczbę projektów, iterować i badać nowe przypadki użycia oraz szerzej stosować AI w swojej działalności. Mogą zdemokratyzować AI i stworzyć przedsiębiorstwa napędzane przez AI.

DataRobot jest kompleksowym rozwiązaniem, które wnosi wartość dodaną na wszystkich krytycznych etapach tworzenia i wdrażania modeli uczenia maszynowego.

  • Wprowadzanie danych. DataRobot przekształca dane strukturalne i niestrukturalne w specyficzny format, którego każdy algorytm potrzebuje do optymalnego działania. Stosuje się do najlepszych praktyk partycjonowania danych.
  • Funkcje inżynieryjne. DataRobot tworzy nowe cechy z istniejących cech numerycznych, kategorycznych i tekstowych. Wie, które algorytmy korzystają na dodatkowej inżynierii funkcji, a które nie, i generuje tylko te funkcje, które mają sens, biorąc pod uwagę charakterystykę danych.
  • Zbadaj i wybierz algorytmy. DataRobot zapewnia dostęp do setek algorytmów wraz z odpowiednim przetwarzaniem wstępnym, które użytkownicy mogą testować na swoich danych. Pomaga użytkownikom wybrać algorytmy, które mają sens dla ich danych oraz ich wyzwania AI.
  • Szkol i dostrajaj modele uczenia maszynowego. DataRobot szkoli modele na danych użytkownika, wykorzystując inteligentne strojenie do optymalizacji najważniejszych hiper-parametrów dla każdego algorytmu.
  • Znajdź optymalne kombinacje algorytmów. Modele typu Ensemble lub Blender zazwyczaj przewyższają wyniki pojedynczych algorytmów. DataRobot znajduje optymalne algorytmy do połączenia i dostraja wagę algorytmów w ramach każdego modelu grupy.
  • Porównuj modele w bezpośredni sposób. DataRobot buduje i szkoli dziesiątki modeli, porównuje wyniki oraz szereguje modele według dokładności, szybkości i najbardziej efektywnej kombinacji. Użytkownicy mogą badać modele za pomocą intuicyjnego interfejsu graficznego DataRobot i wybierać te, z którymi kontynuować pracę.
  • Buduj zaufanie. Aby zapewnić przejrzystość, DataRobot wyjaśnia swoje decyzje dotyczące modelu, pokazując, które cechy mają największy wpływ na dokładność modelu i wzorce dopasowane do każdej funkcji. Dostarcza wyjaśnień ilustrujących przesłanki stojące za konkretnym przewidywaniem.
  • Wdrażaj modele gotowe do produkcji. DataRobot tworzy modele gotowe do produkcji, które użytkownicy mogą zintegrować z aplikacjami przedsiębiorstwa za pomocą zaledwie kilku linii kodu. Modele mogą być wdrażane do prognozowania w czasie rzeczywistym, wdrożeń wsadowych, punktacji na Apache Hadoop lub innych metod. Użytkownicy mogą tworzyć własne modele przy użyciu R, Python, Apache Spark, MLlib, H2O i innych narzędzi oraz wywoływać bibliotekę DataRobot, aby je aktywować.
  • Monitoruj i zarządzaj. Po wdrożeniu DataRobot ułatwia porównywanie przewidywań z rzeczywistymi wynikami i szkolenie nowego modelu na najnowszych danych. DataRobot proaktywnie podkreśla, czy wydajność modelu pogarsza się w czasie.

Architektura rozwiązań dla zautomatyzowanego uczenia maszynowego

Wydajne technologie Intel pomagają DataRobot zoptymalizować wydajność, aby jednocześnie zautomatyzować, wyszkolić i ocenić wiele modeli uczenia maszynowego i dostarczyć aplikacje AI w skali (patrz Rysunek 3).

Rysunek 3: DataRobot wykorzystuje najnowsze technologie Intel®, aby zapewnić wyjątkową wydajność dla zautomatyzowanego rozwoju uczenia maszynowego.

Dla każdego nowego modelu DataRobot przeszukuje swoją rosnącą bibliotekę tysięcy modeli uczenia maszynowego typu open-source.

Ocenia możliwe kombinacje algorytmów, etapów wstępnego przetwarzania i innych atrybutów, aby wybrać lub skonstruować najbardziej odpowiednie elementy dla danego zbioru danych i celu przewidywania. Szkoli najlepsze modele na danych użytkownika i przedstawia je użytkownikom do oceny. Wdrożone modele mogą analizować miliardy kombinacji danych, dostarczając nowych spostrzeżeń i odkrywając sygnały, które wcześniej mogły być ukryte przez „szum danych”. Rozwiązanie może być wdrożone w prywatnej chmurze on-premises lub w chmurze Amazon Web Services (AWS) zarządzanej przez DataRobot.

DataRobot łatwo integruje się z ekosystemem technologii, które już istnieją w przedsiębiorstwie. Należą do nich technologie bezpieczeństwa i prywatności danych, narzędzia do integracji i wizualizacji danych oraz platformy infrastrukturalne, takie jak Apache Hadoop i bazy danych SQL. Strukturalne i niestrukturalne dane mogą być pobierane z repozytoriów danych, tabel i innych źródeł korporacyjnych, a użytkownicy mogą wchodzić w interakcje z systemem poprzez interfejsy graficzne lub programowe.

Platforma DataRobot obejmuje dwa niezależne, ale powiązane ze sobą produkty:

  • Regresja i Klasyfikacja obejmuje różnorodne techniki regresji – od prostej regresji liniowej przez klasyczne modele regresji statystycznej, po bardziej złożone techniki, takie jak gradient boosting i sieci neuronowe. Platforma rozwiązuje proste problemy klasyfikacji binarnej, jak również złożone, wieloklasowe problemy z maksymalnie 100 kategoriami.
  • Time Series automatyzuje tworzenie zaawansowanych modeli, które przewidują przyszłe wartości serii danych na podstawie ich historii i trendów. Platforma integruje inżynierię funkcji Time Series w celu odkrycia sygnałów predykcyjnych.

Wykorzystuje zarówno podstawowe, jak i zaawansowane modele szeregów czasowych w celu optymalizacji dokładności prognozowania i może wizualizować spostrzeżenia w czasie i wdrażać modele do produkcji.

Technologie firmy Intel dla wydajnych i oszczędnych szkoleń AutoML

Najnowsza generacja technologii centrów danych marki Intel została zbudowana od podstaw z myślą o obciążeniach związanych z AI. Zapewniają one wyjątkową wydajność, skalowalność i pojemność pamięci dla obciążeń DataRobot, które są intensywnie wykorzystywane zarówno przez procesor, jak i pamięć. Organizacje mogą rozwijać wykorzystanie AI przy jednoczesnym zachowaniu spójnego, opłacalnego środowiska dla rozwoju AI i wdrażania modeli.

  • Skalowalne procesory Intel® Xeon® tworzą wydajną platformę dla obciążeń roboczych skoncentrowanych na danych. Skalowalne procesory Intel Xeon 2. generacji zawierają wbudowany akcelerator sprzętowy oraz Intel® Deep Learning Boost z Vector Neural Network Instruction (VNNI), zwiększając wydajność wnioskowania. Dodają one również sprzętowo wzmocnione funkcje bezpieczeństwa, pomagając zbudować fundamenty zaufanego przetwarzania. Nowe skalowalne procesory Intel Xeon 3. generacji dodają kolejne funkcje wydajnościowe, w tym pierwszą w branży obsługę x86 Brain Floating Point 16-bit (bfloat 16) w celu zwiększenia wydajności szkolenia.
  • Pamięć trwała Intel® Optane™ to nowa klasa pamięci nieulotnej, która wypełnia lukę między szybką, ale kosztowną pamięcią DRAM a tańszymi, mniej wydajnymi dyskami SSD NAND. Ta innowacyjna pamięć zbliża się do poziomu wydajności DRAM, ale przy niższym koszcie za gigabajt. Rezyduje na magistrali pamięci i pozwala na zainstalowanie ponad 3 TB pamięci na jedno gniazdo procesora. W trybie Memory pamięć trwała Intel Optane może być używana transparentnie jako lotne rozszerzenie pamięci DRAM.
  • Dyski Intel® Solid State Drives (Intel® SSD) łączą w sobie wysoką przepustowość, niskie opóźnienia i wysoką wytrzymałość, zwiększając wydajność aplikacji opartych na danych. Intel® SSD D3-S4510 to dysk SSD oparty na interfejsie SATA, zoptymalizowany pod kątem intensywnych obciążeń związanych z odczytem. Te dyski SSD o dużej pojemności, zaprojektowane z myślą o zwiększeniu ilości danych przypadających na jednostkę konstrukcji, są dostępne w rozmiarach od 240 GB do 3,8 TB. Dysk Intel SSD DC P4610 został zaprojektowany z 64-warstwową, trójpoziomową komórką technologii Intel® 3D NAND, aby pomóc menedżerom centrów danych zoptymalizować wydajność pamięci masowej i biegle zarządzać w skali.
  • Karty sieciowe Intel® Ethernet XXV710 oferują elastyczną, skalowalną wydajność z możliwością auto-negocjacji dla połączeń 1/10/25 GbE. Te karty zapewniają inteligentne odciążenia i akceleratory odblokowujące wydajność sieci w serwerach opartych na skalowalnych procesorach Intel Xeon.

Razem te technologie umożliwiają przedsiębiorstwom wdrażającym platformy DataRobot szkolenie z wysoką wydajnością ogromnych zbiorów danych i wielu modeli jednocześnie.

Testy porównawcze dla szkoleń z zakresu AutoML

Szkolenie w zakresie uczenia maszynowego jest zadaniem wymagającym dużej ilości danych, które może wymagać znacznych ilości pamięci. Wymagania mogą być szczególnie wysokie dla rozwiązań AutoML, takich jak DataRobot, które trenuje wiele modeli jednocześnie, wykorzystując dane klienta przed ich uszeregowaniem. Chociaż modele można szkolić z różną ilością danych, większy zbiór danych może pomóc zwiększyć dokładność modelu.

Aby zbadać wymagania pamięciowe platformy DataRobot, zespół z AI Solutions Group w Intel użył platformy DataRobot w trybie Autopilot, aby losowo wybrać i wytrenować modele z katalogu modeli DataRobot. Stwierdziliśmy, że szkolenie wielu losowo wybranych modeli wymagało śladu pamięciowego od 6 do 25 razy większego niż rozmiar zbioru danych. Zakres ten zależał od typów modeli, a także od procentowej wartości danych użytych do szkolenia. Ze względu na wysoki stosunek ilości danych do ilości pamięci organizacje szkolące duże zbiory danych mogą potrzebować dużej puli danych, aby uniknąć spadku wydajności związanego z obciążeniem pamięci. Konfiguracja dużej puli danych opartej wyłącznie na pamięci DRAM może być jednak bardzo kosztowna.

Zespół porównawczy chciał sprawdzić, jak dobrze pamięć trwała Intel Optane może rozwiązać ten problem. Czy innowacyjna pamięć Intel może zapewnić użytkownikom platformy DataRobot ekonomiczne rozwiązanie do wydajnego szkolenia AutoML na dużych zbiorach danych?

Zespół rozpoczął od przeszkolenia platformy DataRobot w trybie Autopilot z 50-GB zbiorem danych testowych. Następnie wybrali losowo kilka modeli z tablicy liderów i przeszkolili je na dwóch systemach, które różniły się jedynie rodzajem pamięci w węzłach roboczych. Jeden wykorzystywał całą pamięć DRAM, a drugi pamięć trwałą Intel Optane. Na Rysunku 4 i w Tabeli 1 przedstawiono podsumowanie systemów porównawczych.

Skonfigurowaliśmy oba systemy z taką samą pojemnością pamięci i porównaliśmy wydajność (czas szkolenia) dwóch konfiguracji. Spodziewaliśmy się, że pamięć trwała Intel Optane zapewni nieco niższą wydajność niż system wyposażony tylko w pamięć DRAM. Jednak gdy przeanalizowaliśmy czas szkolenia dla wybranych modeli, okazało się, że wydajność systemu z pamięcią trwałą Intel Optane była podobna do systemu z DRAM, w zależności od szkolonego modelu.

Następnie, korzystając z modelu cenowego Intel, przekonfigurowaliśmy oba systemy tak, aby zamiast tej samej pojemności miały ten sam koszt pamięci. W naszej analizie przewidzieliśmy, że pamięć trwała Intel Optane zapewni nawet 1,33x większą pojemność zbioru danych do szkolenia niż konfiguracja DRAM – ponownie w zależności od szkolonego modelu.

Rysunek 41 pokazuje te wyniki dla szkolenia na klasyfikatorze Gradient Boosted Trees dla systemu pamięci trwałej Intel Optane w stosunku do systemu tylko DRAM. Lewa połowa wykresu ilustruje wydajność oraz wydajność na dolara dla tej samej pojemności pamięci. Lewa strona pokazuje przewidywaną pojemność zbioru danych szkoleniowych i pojemność zbioru danych szkoleniowych na dolara dla równoważnego kosztu pamięci.

Rysunek 4: Pamięć trwała Intel® Optane™ zapewniała 1,23x lepszą wydajność na dolara przy tej samej pojemności (strona lewa). Przewiduje się, że zapewni ona 1,33x większą pojemność danych szkoleniowych i 1,26x lepszą wydajność szkolenia na dolara w porównaniu z konfiguracją DRAM.

Podsumowując, nasze testy wykazały następujące wnioski:

  • Organizacje mogą trenować z praktycznie taką samą prędkością na systemie z pamięcią trwałą Intel Optane jak na systemie z samą pamięcią DRAM, osiągając nawet 1,23-krotny wzrost wydajności na dolara.
  • Przewiduje się, że organizacje będą mogły przeszkolić nawet 1,33x większy zbiór danych przy tym samym koszcie na systemie z pamięcią trwałą Intel Optane w porównaniu z systemem opartym wyłącznie na pamięci DRAM. Przewiduje się, że dzięki temu indeksowana wydajność na dolara wyniesie do 1,26x.

Typowa konfiguracja dla wdrożenia platformy DataRobot

Tabela 1 podsumowuje typową konfigurację systemu do uruchomienia platformy DataRobot lokalnie z wdrożeniem Hadoop dla zestawów danych szkoleniowych o wielkości do 100 GB. W zależności od wielkości przedsiębiorstwa oraz liczby i wielkości zbiorów danych, może być potrzebnych wiele węzłów roboczych. Aby dowiedzieć się więcej na temat optymalnego doboru rozmiaru dla Twoich potrzeb szkoleniowych, skontaktuj się z przedstawicielem DataRobot.

Wniosek: AI w skali

AI stała się podstawowym elementem działalności biznesowej i krytycznym źródłem zróżnicowania konkurencyjnego. Dzięki platformie AI i AutoML firmy DataRobot oraz wiodącym w branży technologiom marki Intel, przedsiębiorstwa mogą rozwiązać problem niedoboru naukowców zajmujących się danymi i usunąć główną blokadę na drodze do sukcesu AI. Mogą one szybko tworzyć gotowe do produkcji modele uczenia maszynowego, zwiększając produktywność naukowców zajmujących się danymi, skalując wysiłki w zakresie rozwoju AI i stosując uczenie maszynowe do największych wyzwań i możliwości biznesowych.

Korzystając z technologii Intel zoptymalizowanych pod kątem AI, organizacje mogą wykorzystać pełną moc AutoML. Mogą wdrażać potężne platformy szkoleniowe z nawet 3 TB pamięci trwałej Intel Optane na gniazdo procesora. Mogą również szkolić duże zbiory danych przy niższym koszcie niż konfiguracje tylko z pamięcią DRAM. Niezależnie od tego, czy wybiorą infrastrukturę lokalną, czy opartą na chmurze, mogą korzystać z wszechstronnej, standardowej w branży architektury o wyjątkowej wydajności, skalowalności i niezawodności. Dzięki rozwiązaniu AutoML firmy DataRobot i technologiom Intel organizacje mogą skupić się na innowacjach w zakresie AI i tworzeniu przedsiębiorstwa napędzanego przez AI.

Znajdź rozwiązanie odpowiednie dla swojej organizacji. Skontaktuj się z przedstawicielem firmy Intel lub odwiedź stronę intel.com/ai1.

Informacje o produktach i wydajności

1

Szczegóły konfiguracji dla testów porównawczych:

System DRAM: Test Intel na dzień 1 maja 2020 r. 1-węzeł, 2x procesor Intel® Xeon® Platinum 8260L, 24 rdzenie HT On Turbo ON pamięć łaczna 1.54 TB (24 gniazda/64 GB/2933 MHz), BIOS: SE5 C620.86B.0X.02.0094.102720191711 (ucode:0x500002c ), CentOS 7.6.1810, jądro 4.19.94, szkolenie DataRobot Gradient Boosted Trees Classifier, wynik=1.0 (znormalizowany czas szkolenia). System z pamięcią trwałą Intel® Optane™: Test Intel na dzień 1 maja 2020 r. 1-węzeł, 2x procesor Intel Xeon Platinum 8260L, 24 rdzenie HT On Turbo ON pamięć łączna DRAM 384 GB (12 gniazd/32 GB/2666 MHz) Pamięć trwała Intel Optane 1,54 TB (12 gniazd/128 GB/2666 MHz), BIOS: SE5C620.86B.0X.02.0094.102720191711 (ucode:0x500002c ), CentOS 7.6.1810, jądro 4.19.94, szkolenie DataRobot Gradient Boosted Trees Classifier, wynik=1.03 (Czas szkolenia względem systemu DRAM).

2

Technologia i rynki, „Wielkość rynku sztucznej inteligencji (AI), udziały i analiza branżowa, 2019-2026.” fortunebusinessinsights.com/industry-reports/artificial-intelligence-market-100114.

3

TalentSeer, „Najważniejsze elementy raportu na temat wykorzystania AI w 2020 r.: obecny krajobraz pracowników i trendy rynkowe na rok 2020”, 22 stycznia 2020 r. talentseer.com/talent-report.

4

Komunikat prasowy Gartnera, „Badanie Gartnera pokazuje, że 37 procent organizacji w jakiejś formie wdrożyło sztuczną inteligencję", 21 stycznia 2019 r. gartner.com/en/newsroom/press-releases/2019-01-21-gartner-survey-shows-37-percent-of-organizations-have.

5

Informacja prasowa o DataRobot, „Firma DataRobot świętuje miliard modeli zbudowanych na jej platformie chmurowej” Libby Botsford, 16 kwietnia 2019 r. datarobot.com/news/press/datarobot-celebrates-one-billion-models-built-on-its-cloud-platform.