Otrzymaj odpowiedzi na zapytania usługi Databricks w czasie o 31% krótszym i zaoszczędź nawet 30% dzięki maszynom wirtualnym Microsoft Azure Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji.

Databricks

  • Dzięki maszynom wirtualnym E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji uruchamiaj kwerendy związane ze wsparciem procesu decyzyjnego w czasie krótszym nawet o 31% w porównaniu z maszynami wirtualnymi E8sv3 z procesorami AMD EPYC.

  • Skróć czas wykonywania kwerend związanych ze wsparciem procesu decyzyjnego nawet o 30% w porównaniu z maszynami wirtualnymi E8s_v3 z procesorami AMD EPYC, wykorzystując maszyny wirtualne E8ds_V4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji.

author-image

By

Dzięki obsłudze zwektoryzowanego aparatu kwerend Photon, te maszyny wirtualne zapewniają większą wydajność obciążeń roboczych związanych ze wsparciem procesu decyzyjnego, niż maszyny wirtualne Easv4 z procesorami AMD EPYC

Databricks i platforma Databricks Lakehouse umożliwiają przechowywanie i analizę dużych ilości uporządkowanych i nieuporządkowanych danych gromadzonych przez organizacje. Im szybciej zostaną one przeanalizowane, tym szybciej będą one dostępne dla zespołu na potrzeby podejmowania pewnych decyzji biznesowych. Platforma Microsoft Azure oferuje kilka serii maszyn wirtualnych na potrzeby zastosowań firmowych wymagających dużej ilości pamięci: maszyny wirtualne Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji i maszyny wirtualne Easv4 z procesorami AMD EPYC. Aby ułatwić wybór maszyn wirtualnych w chmurze na potrzeby obciążeń roboczych związanych ze wsparciem procesu decyzyjnego, przetestowaliśmy takie obciążenie w 20-węzłowym klastrze E8ds_v4 ze środowiskiem wykonawczym Databricks Runtime 9.0. Następnie przetestowaliśmy to samo obciążenie robocze w 20-węzłowym klastrze E8as_v4, ponownie oceniając czas wykonania kwerend oraz stosunek ceny do wydajności, aby uzyskać szczegółowe informacje. W obu zestawach maszyn wirtualnych włączyliśmy zwektoryzowany aparat kwerend Photon umożliwiający zwiększenie wydajności zapytań SQL.

Ustaliliśmy, że maszyny wirtualne Edsv4 z procesorami Intel® Xeon drugiej generacji oferują większą wydajność usługi Databricks niż maszyny wirtualne Easv4, ograniczając czas wykonywania kwerend i zapewniając lepszą opłacalność.

Zwiększ wydajność magazynu danych z wykorzystaniem maszyn wirtualnych Edsv4

Przeprowadziliśmy testy przy użyciu testu porównawczego wsparcia procesu decyzyjnego z wykorzystaniem TPC-DS, który mierzy wydajność magazynu danych w oparciu o czas potrzebny na wykonanie zestawu kwerend. Krótszy czas oznacza szybsze odpowiedzi, co umożliwia ograniczenie bieżących kosztów działania maszyny wirtualnej. Jak pokazuje rys. 1, maszyny wirtualne E8ds_v4 ze skalowalnymi procesorami Intel® Xeon drugiej zapewniały lepszą wydajność obciążenia roboczego Databricks niż maszyny wirtualne E8as_v4 z procesorami AMD EPYC. Przy użyciu zestawu danych 1 TB kwerenda klastra E8ds_v4 została wykonana w czasie krótszym o 31% w porównaniu z klastrem E8as_v4. Przy użyciu zestawu danych 10 TB kwerenda klastra E8ds_v4 została wykonana w czasie krótszym o 23% w porównaniu z klastrem E8as_v4.

Rysunek 1. Względny czas przetwarzania wymagany do wykonania 99 kwerend wsparcia procesu decyzyjnego w ramach testu porównawczego przez klaster maszyny wirtualnej E8ds_v4 z obsługą aparatu Photon i skalowalnymi procesorami Intel® Xeon drugiej generacji w porównaniu z klastrem E8as_v4 z procesorami AMD EPYC przy użyciu zestawów danych 1 TB i 10 TB.

Lepsza wydajność i lepsza opłacalność

Wydajność nie jest jedynym czynnikiem, który należy wziąć pod uwagę przy wyborze maszyn wirtualnych na potrzeby uruchamiania obciążeń roboczych usługi Databricks. Istotny dla firmy jest również koszt ich uruchamiania. Podczas testu określiliśmy koszt wykonania obciążeń roboczych (cena za godzinę). Konwertowaliśmy łączny czas przetwarzania kwerend z milisekund na godziny, zsumowaliśmy koszty godzinowe instancji i magazynu, a następnie obliczyliśmy cenę za TB dla wszystkich czterech scenariuszy. Jak pokazuje rys. 2, obciążenia robocze związane ze wsparciem procesu decyzyjnego na maszynach wirtualnych Edsv4 są bardziej opłacalne niż w przypadku maszyn wirtualnych Easv4. W przypadku zestawu danych 1 TB, klaster E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji oferował o 30% niższy stosunek ceny do wydajności niż klaster E8as_v4 z procesorami AMD EPYC. Stosunek ceny do wydajności w przypadku zestawu danych 10 TB był podobny, klaster E8ds_v4 zmniejszał ten współczynnik o 22% w porównaniu z klastrem E8as_v4.

Rysunek 2. Znormalizowany stosunek ceny do wydajności na potrzeby obciążeń roboczych związanych ze wsparciem procesu decyzyjnego w środowisku Databricks na maszynach wirtualnych Azure E8ds_v4 z aparatem Photon w porównaniu z maszynami wirtualnymi E8as_v4 przy użyciu zestawów danych 1 TB i 10 TB.

Podsumowanie

Maszyny wirtualne Microsoft Azure E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji ukończyły wykonywanie obciążeń roboczych związanych ze wsparciem procesu decyzyjnego w czasie nawet o 31% krótszym niż maszyny wirtualne E8as_v4 z procesorami AMD EPYC. Taka poprawa wydajności prowadziła do zmniejszenia kosztów nawet o 30%. Wnioski pokazują, że wybór maszyn wirtualnych E8ds_v4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji zapewnia równowagę pomiędzy wydajnością a ceną na potrzeby wykonywania obciążeń roboczych usługi Databricks związanych ze wsparciem procesu decyzyjnego, umożliwiając firmie przetwarzanie większej ilości danych i szybszy dostęp do szczegółowych informacji.

Więcej informacji

Aby rozpocząć uruchamianie klastrów usługi Databricks na maszynach wirtualnych Microsoft Azure Edsv4 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji i aparatem Photon, odwiedź stronę https://docs.microsoft.com/en-us/azure/virtual-machines/edv4-edsv4-series.

Szczegółowe informacje i wyniki testów prezentujące przewagę maszyn wirtualnych ze skalowalnymi procesorami Intel® Xeon® drugiej generacji nad maszynami wirtualnymi z procesorami poprzedniej generacji dostępne są w raporcie na stronie https://www.intel.pl/content/www/pl/pl/partner/workload/microsoft/enhance-databricks-azure-vms-benchmark.html.