Wykonuj kwerendy Databricks w czasie krótszym nawet o 38% i obniżaj koszty nawet o 30%, wybierając maszyny wirtualne Microsoft® Azure® Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji

Databricks:

  • Wykonuj kwerendy wspomagające podejmowanie decyzji w czasie krótszym nawet o 38% w przypadku maszyn wirtualnych E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji w porównaniu z maszynami wirtualnymi L8s_v2 z procesorami AMD EPYC.

  • Skróć czas wykonywania kwerend związanych ze wsparciem procesu decyzyjnego nawet o 30% w porównaniu z maszynami wirtualnymi L8s_v2 z procesorami AMD EPYC, wykorzystując maszyny wirtualne E8ds_V4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji.

author-image

By

Dzięki obsłudze zwektoryzowanego aparatu kwerend Photon te maszyny wirtualne zapewniają większą wydajność obciążeń roboczych związanych ze wspomaganiem procesu decyzyjnego niż zoptymalizowane pod kątem pamięci masowej maszyny wirtualne L8s_v2 z procesorami AMD EPYC™.

Databricks i platforma Databricks Lakehouse przechowują i analizują ogromne ilości ustrukturyzowanych i nieustrukturyzowanych danych gromadzonych przez organizacje. W przypadku uruchamiania tych obciążeń w chmurze można przyspieszyć czas potrzebny do wykonania kwerend, wybierając instancje zbudowane na sprzęcie, który działa dobrze. Szybsze kwerendy oznaczają szybsze wdrażanie dostarczonych informacji.

Aby pomóc firmom w wyborze maszyn wirtualnych w chmurze do hurtowni danych / wspomagania decyzji, przetestowaliśmy dwie serie maszyn wirtualnych Microsoft Azure, które są dobrze przystosowane do takich obciążeń: maszyny wirtualne Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji oraz zoptymalizowane pod kątem pamięci masowej maszyny wirtualne Lsv2 z procesorami AMD EPYC. Testowaliśmy obciążenie robocze dotyczące podejmowania decyzji na klastrach tych dwóch serii maszyn wirtualnych z wykorzystaniem programu Databricks Runtime 9.0. Na obu klastrach włączyliśmy funkcję Photon, wektorowy silnik kwerend zaprojektowany w celu zwiększenia wydajności kwerend SQL.

Maszyny wirtualne Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji uzyskały lepsze wyniki niż maszyny wirtualne Lsv2 zoptymalizowane pod kątem pamięci masowej dzięki szybszemu wykonywaniu kwerend. Ponadto, kiedy obliczyliśmy wskaźnik ceny do wydajności tych dwóch serii na tym obciążeniu, okazało się, że maszyny wirtualne Edsv4 zapewniają lepszą wartość.

Korzystaj z szybszego działania hurtowni danych dzięki maszynom wirtualnym Edsv4

W naszych testach wykorzystaliśmy test porównawczy wspomagania decyzji oparty na TPC-DS, który zapewnia wskaźnik „mniej znaczy lepiej”, odzwierciedlający czas niezbędny do wykonania danego zestawu kwerend. Krótsze czasy nie tylko pozwalają osobom decyzyjnym na szybsze uzyskanie użytecznych informacji, ale także mogą przekładać się na oszczędności dzięki skróceniu czasu pracy maszyn wirtualnych i związanych z tym kosztów. Jak widać na rysunku 1, maszyny wirtualne E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji wykonywały kwerendy na zbiorze danych o pojemności 1 TB w czasie o 38% krótszym niż maszyny wirtualne L8s_v2 z procesorami AMD EPYC. W przypadku zestawu danych 10 TB czas realizacji kwerend w klastrze E8ds_v4 był o 36% krótszy niż w klastrze L8s_v2.

Rysunek 1. Względny czas przetwarzania pełnego zestawu kwerend testu porównawczego na klastrze maszyn wirtualnych ze skalowalnymi procesorami Intel® Xeon® drugiej generacji z włączoną funkcją Photon E8ds_v4 oraz na klastrze L8s_v2 z procesorami AMD EPYC na zbiorach danych o pojemności 1 TB i 10 TB.

Szybszy czas wykonywania kwerend przekłada się na wyższą wartość

Podczas poszukiwania odpowiednich maszyn wirtualnych dla obciążeń Databricks, ważnym czynnikiem może być cena. Aby obliczyć cenę przeprowadzenia scenariuszy testowych, które opisaliśmy na poprzedniej stronie, zaczęliśmy od ceny za godzinę pracy każdej maszyny wirtualnej w momencie przeprowadzania testów. Na podstawie tej stawki i czasów podanych na rysunku 1 określiliśmy cenę za przetworzenie jednego TB dla wszystkich czterech scenariuszy. Jak widać na rys. 2, obciążenia związane ze wspomaganiem decyzji można uruchamiać na maszynach wirtualnych Edsv4 przy niższych kosztach przy danej wydajności. W przypadku zestawu danych 1 TB klaster E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji oferował o 30% niższy stosunek ceny do wydajności niż zoptymalizowany pod kątem pamięci masowej klaster L8s_v2 z procesorami AMD EPYC. W przypadku zestawu danych 10 TB klaster E8ds_v4 zapewnił 22% oszczędności ceny w stosunku do wydajności.

Rysunek 2. Znormalizowany stosunek ceny do wydajności na potrzeby obciążeń roboczych związanych ze wsparciem procesu decyzyjnego w środowisku Databricks na maszynach wirtualnych Azure E8ds_v4 z aparatem Photon w porównaniu z maszynami wirtualnymi L8s_v2 przy użyciu zestawów danych 1 TB i 10 TB.

Podsumowanie

Zbadaliśmy dwie miary: czas wykonania zestawu kwerend Databricks oraz stosunek ceny do wydajności dla dwóch zbiorów danych o różnych rozmiarach na maszynach wirtualnych Microsoft Azure E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji, oraz zoptymalizowanych pod kątem pamięci masowej maszynach wirtualnych L8s_v2 z procesorami AMD EPYC. Maszyny wirtualne E8ds_v4 wykonały zestawy kwerend w czasie nawet o 38% krótszym. W połączeniu z wyceną godzinową te maszyny wirtualne przyniosły oszczędności kosztów sięgające nawet 30%. Wybierając maszyny wirtualne E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji, organizacja może wcześniej uzyskać dostęp do informacji, a jednocześnie wydać mniej pieniędzy.

Więcej informacji

Aby rozpocząć uruchamianie klastrów usługi Databricks na maszynach wirtualnych Microsoft Azure Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji i aparatem Photon, odwiedź stronę https://docs.microsoft.com/pl-pl/azure/virtual-machines/edv4-edsv4-series.

Szczegółowe informacje i wyniki testów prezentujące przewagę maszyn wirtualnych ze skalowalnymi procesorami Intel® Xeon® drugiej generacji nad maszynami wirtualnymi z procesorami poprzedniej generacji dostępne są w raporcie na stronie https://www.intel.pl/content/www/pl/pl/partner/workload/microsoft/enhance-databricks-azure-vms-benchmark.html.