Wykonuj zapytania Databricks w krótszym czasie i uzyskaj lepszą wartość dzięki maszynom wirtualnym n2-highmem-8 na platformie Google Cloud, wyposażonym w skalowalne procesory Intel® Xeon® drugiej generacji

Databricks

  • Skróć czas wykonywania obciążeń związanych z obsługą procesu decyzyjnego nawet 3,3 razy dzięki rozwiązaniu Photon i maszynom wirtualnym N2 z procesorami Intel® w porównaniu z maszynami wirtualnymi N2D z procesorami AMD.

  • Uruchomienie baz danych obsługujących proces decyzyjny na maszynach wirtualnych N2D z procesorami AMD kosztuje nawet o 80% więcej niż instancje maszyn wirtualnych N2 z procesorami Intel® i technologią Photon.

author-image

Według

Dzięki włączeniu silnika zapytań Photo te maszyny wirtualne ze skalowalnymi procesorami Intel® Xeon® okazały się lepsze niż maszyny wirtualne n2d-highmem-8 z procesorami AMD EPYC™

Im szybciej zapytania dotyczące analizy danych są wykonywane, tym szybciej można uzyskać odpowiednie dane do podejmowania decyzji o dużym znaczeniu biznesowym. Łącząc funkcje hurtowni danych i jeziora danych, platforma Lakehouse firmy Databricks umożliwia organizacjom przechowywanie i analizowanie ustrukturyzowanych i nieustrukturyzowanych danych. Photon, funkcja platformy Lakehouse, to wektorowy silnik zapytań, który umożliwia przyspieszenie wydajności zapytań SQL. Zgodnie z podsumowaniem firmy Databricks, inne zalety rozwiązania Photon to:

  • „Obsługa SQL i równoważnych operacji DataFrame dotyczących tabeli Delta i Parquet.
  • Spodziewanie przyspieszenie zapytań przetwarzających duże ilości danych (ponad 100 GB) obejmujących agregacje i łączenia.
  • Większa wydajność podczas powtarzalnego dostępu do danych z pamięci podręcznej Delta.
  • Większa wydajność skanowania dotyczącego tabeli z wieloma kolumnami i wieloma małymi plikami.
  • Szybszy zapis Delta i Parquet przy użyciu poleceń UPDATE, DELETE, MERGE INTO, INSERT, i CREATE TABLE AS SELECT, szczególnie w przypadku rozbudowanych tabel (od setek do tysięcy kolumn).
  • Zastępuje łączenia sort-merge łaczeniami hash-join.”1

Przetestowaliśmy dwa typy maszyn wirtualnych platformy Google Cloud (GCP): n2-highmem-8 z procesorami Intel® Xeon® drugiej generacji i technologią Photon oraz n2d-highmem-8 z procesorami AMD EPYC drugiej generacji. Technologia Photon nie była dostępna dla maszyn wirtualnych N2D. Aby zmierzyć wydajność hurtowni danych, przeprowadziliśmy test porównawczy procesu wspomagającego podejmowanie decyzji, który rejestrował czas wykonania określonej liczby zapytań. Wyniki wskazują, że maszyny wirtualne N2 z technologią Photon skróciły czas potrzebny do skompletowania zestawów danych o pojemności 1 TB i 10 TB, co oznacza również, że maszyny wirtualne N2 zapewniły lepszą wartość.

Krótszy czas realizacji zapytań, szybszy czas uzyskania wglądu

Przeprowadziliśmy test porównawczy procesu podejmowania decyzji na maszynach wirtualnych n2-highmem-8 z ośmioma procesorami vCPU na zbiorach danych 1 TB i 10 TB, a następnie taki sam test na maszynach wirtualnych n2d-highmem-8 z ośmioma procesorami vCPU. Jak widać na rysunku 1, klaster maszyn wirtualnych N2 ze skalowalnymi procesorami Intel® Xeon® i technologią Photon wykonywał zapytania 3,1 razy szybciej niż klaster N2D na zbiorze danych 1 TB; na zbiorze danych 10 TB wykonywał zapytania 3,3 razy szybciej niż klaster N2D.

Rysunek 1. Względny czas przetwarzania do zakończenia testu porównawczego procesu zapytań wspomagania decyzji na maszynach wirtualnych GCP n2-highmem-8 i n2d-highmem-8 na zbiorach danych o pojemności 1 TB i 10 TB.

Krótszy czas działania maszyn wirtualnych, większa oszczędność kosztów

Firma może odnieść korzyści z poprawy wydajności obciążeń wspomagających podejmowanie decyzji, ale kolejnym ważnym czynnikiem jest wartość. Korzystając z ceny maszyny wirtualnej za godzinę w czasie testów oraz czasu potrzebnego na ukończenie każdego zestawu danych, obliczyliśmy cenę za TB przebiegu dla każdego klastra w obu zestawach danych. Na rysunku 2 widać, że uruchamianie obciążeń Databricks na maszynach wirtualnych N2 zapewniało większą wartość niż maszyny wirtualne N2D przy obu rozmiarach zbiorów danych. W przypadku zestawu danych 1 TB maszyny wirtualne n2d-highmem-8 z procesorami AMD EPYC kosztują o 70% więcej niż maszyny wirtualne n2-highmem-8 ze skalowalnymi procesorami Intel® Xeon®. Podobnie maszyny wirtualne n2d-highmem-8 kosztują o 80% więcej niż maszyny wirtualne n2-highmem-8 w przypadku ukończenia procesu dla zbioru danych 10 TB.

Rysunek 2. Znormalizowane wartości cena/wydajność uruchomienia obciążenia wspomagającego proces decyzyjny w środowisku Databricks na maszynach wirtualnych GCP n2-highmem-8 i n2d-highmem-8 z zestawami danych 1 TB i 10 TB.

Podsumowanie

Maszyny wirtualne GCP n2-highmem-8 z procesorami Intel® Xeon® drugiej generacji i silnikiem zapytań Photon wykonywały obciążenia związane ze wspomaganiem decyzji do 3,3 razy szybciej niż maszyny wirtualne n2d-highmem-8. Nie tylko poprawiły wydajność, ale zapewniają również lepszą wartość, ponieważ ukończenie zapytań dla zestawu danych na maszynach wirtualnych n2d-highmem-8 kosztuje nawet o 80% więcej. Aby zapewnić firmie oszczędność kosztów i szybki wgląd, który jest potrzebny do podejmowania świadomych decyzji, wybierz maszyny wirtualne n2-highmem-8 wyposażone w skalowalne procesory Intel® Xeon® drugiej generacji i technologię Photon.

Więcej informacji

Aby rozpocząć uruchamianie klastrów Databricks wykorzystujących aparat Photon na maszynach wirtualnych GCP N2 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji, przejdź pod adres https://cloud.google.com/compute/docs/general-purpose-machines.

Testy przeprowadzone przez firmę Intel w marcu 2021 r. w przypadku testów maszyn wirtualnych firmy Intel oraz w marcu 2022 r. w przypadku testów maszyn wirtualnych firmy AMD; oba testy na platformie GCP us-central1 (Iowa). Wszystkie konfiguracje: 21 instancji (20 podrzędnych + 1 nadrzędna) 8 vCPU, 128 GB
RAM, 25 Gb/s, zdalny dysk SSD 500 GB + lokalny dysk SSD 0,75 TB, 240-1200/240-1200 (zapis/odczyt zdalnego dysku SSD) 9360/4680 (zapis/odczyt lokalnego dysku SSD) Ubuntu 20.04.3 LTS jądro 5.4.170+, Databricks 10.3. Konfiguracja Spark:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: procesor Intel® Cascade Lake. N2d-highmem-8: procesor AMD Rome. Całkowity koszt klastra na przebieg z marca 2022 r.: z technologią Photon 1 TB
Intel®: 6,44 USD; z technologią Photon 10 TB Intel® 33,11 USD; bez technologii Photon 1 TB AMD: 11,17 USD; bez technologii Photon 10 TB AMD: 61,53 USD.

Informacje o produktach i wydajności

1Databricks, „Photon”, dostęp 12 kwietnia 2022 r., https://docs.databricks.com/runtime/photon.html.