Dzięki włączeniu silnika zapytań Photo te maszyny wirtualne ze skalowalnymi procesorami Intel® Xeon® okazały się lepsze niż maszyny wirtualne n2d-highmem-8 z procesorami AMD EPYC™
Im szybciej zapytania dotyczące analizy danych są wykonywane, tym szybciej można uzyskać odpowiednie dane do podejmowania decyzji o dużym znaczeniu biznesowym. Łącząc funkcje hurtowni danych i jeziora danych, platforma Lakehouse firmy Databricks umożliwia organizacjom przechowywanie i analizowanie ustrukturyzowanych i nieustrukturyzowanych danych. Photon, funkcja platformy Lakehouse, to wektorowy silnik zapytań, który umożliwia przyspieszenie wydajności zapytań SQL. Zgodnie z podsumowaniem firmy Databricks, inne zalety rozwiązania Photon to:
- „Obsługa SQL i równoważnych operacji DataFrame dotyczących tabeli Delta i Parquet.
- Spodziewanie przyspieszenie zapytań przetwarzających duże ilości danych (ponad 100 GB) obejmujących agregacje i łączenia.
- Większa wydajność podczas powtarzalnego dostępu do danych z pamięci podręcznej Delta.
- Większa wydajność skanowania dotyczącego tabeli z wieloma kolumnami i wieloma małymi plikami.
- Szybszy zapis Delta i Parquet przy użyciu poleceń UPDATE, DELETE, MERGE INTO, INSERT, i CREATE TABLE AS SELECT, szczególnie w przypadku rozbudowanych tabel (od setek do tysięcy kolumn).
- Zastępuje łączenia sort-merge łaczeniami hash-join.”1
Przetestowaliśmy dwa typy maszyn wirtualnych platformy Google Cloud (GCP): n2-highmem-8 z procesorami Intel® Xeon® drugiej generacji i technologią Photon oraz n2d-highmem-8 z procesorami AMD EPYC drugiej generacji. Technologia Photon nie była dostępna dla maszyn wirtualnych N2D. Aby zmierzyć wydajność hurtowni danych, przeprowadziliśmy test porównawczy procesu wspomagającego podejmowanie decyzji, który rejestrował czas wykonania określonej liczby zapytań. Wyniki wskazują, że maszyny wirtualne N2 z technologią Photon skróciły czas potrzebny do skompletowania zestawów danych o pojemności 1 TB i 10 TB, co oznacza również, że maszyny wirtualne N2 zapewniły lepszą wartość.
Krótszy czas realizacji zapytań, szybszy czas uzyskania wglądu
Przeprowadziliśmy test porównawczy procesu podejmowania decyzji na maszynach wirtualnych n2-highmem-8 z ośmioma procesorami vCPU na zbiorach danych 1 TB i 10 TB, a następnie taki sam test na maszynach wirtualnych n2d-highmem-8 z ośmioma procesorami vCPU. Jak widać na rysunku 1, klaster maszyn wirtualnych N2 ze skalowalnymi procesorami Intel® Xeon® i technologią Photon wykonywał zapytania 3,1 razy szybciej niż klaster N2D na zbiorze danych 1 TB; na zbiorze danych 10 TB wykonywał zapytania 3,3 razy szybciej niż klaster N2D.
Krótszy czas działania maszyn wirtualnych, większa oszczędność kosztów
Firma może odnieść korzyści z poprawy wydajności obciążeń wspomagających podejmowanie decyzji, ale kolejnym ważnym czynnikiem jest wartość. Korzystając z ceny maszyny wirtualnej za godzinę w czasie testów oraz czasu potrzebnego na ukończenie każdego zestawu danych, obliczyliśmy cenę za TB przebiegu dla każdego klastra w obu zestawach danych. Na rysunku 2 widać, że uruchamianie obciążeń Databricks na maszynach wirtualnych N2 zapewniało większą wartość niż maszyny wirtualne N2D przy obu rozmiarach zbiorów danych. W przypadku zestawu danych 1 TB maszyny wirtualne n2d-highmem-8 z procesorami AMD EPYC kosztują o 70% więcej niż maszyny wirtualne n2-highmem-8 ze skalowalnymi procesorami Intel® Xeon®. Podobnie maszyny wirtualne n2d-highmem-8 kosztują o 80% więcej niż maszyny wirtualne n2-highmem-8 w przypadku ukończenia procesu dla zbioru danych 10 TB.
Podsumowanie
Maszyny wirtualne GCP n2-highmem-8 z procesorami Intel® Xeon® drugiej generacji i silnikiem zapytań Photon wykonywały obciążenia związane ze wspomaganiem decyzji do 3,3 razy szybciej niż maszyny wirtualne n2d-highmem-8. Nie tylko poprawiły wydajność, ale zapewniają również lepszą wartość, ponieważ ukończenie zapytań dla zestawu danych na maszynach wirtualnych n2d-highmem-8 kosztuje nawet o 80% więcej. Aby zapewnić firmie oszczędność kosztów i szybki wgląd, który jest potrzebny do podejmowania świadomych decyzji, wybierz maszyny wirtualne n2-highmem-8 wyposażone w skalowalne procesory Intel® Xeon® drugiej generacji i technologię Photon.
Więcej informacji
Aby rozpocząć uruchamianie klastrów Databricks wykorzystujących aparat Photon na maszynach wirtualnych GCP N2 ze skalowalnymi procesorami Intel® Xeon® drugiej generacji, przejdź pod adres https://cloud.google.com/compute/docs/general-purpose-machines.
Testy przeprowadzone przez firmę Intel w marcu 2021 r. w przypadku testów maszyn wirtualnych firmy Intel oraz w marcu 2022 r. w przypadku testów maszyn wirtualnych firmy AMD; oba testy na platformie GCP us-central1 (Iowa). Wszystkie konfiguracje: 21 instancji (20 podrzędnych + 1 nadrzędna) 8 vCPU, 128 GB
RAM, 25 Gb/s, zdalny dysk SSD 500 GB + lokalny dysk SSD 0,75 TB, 240-1200/240-1200 (zapis/odczyt zdalnego dysku SSD) 9360/4680 (zapis/odczyt lokalnego dysku SSD) Ubuntu 20.04.3 LTS jądro 5.4.170+, Databricks 10.3. Konfiguracja Spark:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: procesor Intel® Cascade Lake. N2d-highmem-8: procesor AMD Rome. Całkowity koszt klastra na przebieg z marca 2022 r.: z technologią Photon 1 TB
Intel®: 6,44 USD; z technologią Photon 10 TB Intel® 33,11 USD; bez technologii Photon 1 TB AMD: 11,17 USD; bez technologii Photon 10 TB AMD: 61,53 USD.