Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

Zastrzeżenia i uwagi prawne

Cechy i zalety technologii Intel® zależą od konfiguracji systemu i mogą wymagać obsługującego je sprzętu, oprogramowania lub aktywacji usług. Wydajność może różnić się od podanej w zależności od konfiguracji systemu. Całkowite zabezpieczenie systemu komputerowego jest niemożliwe. Więcej informacji można uzyskać od sprzedawcy lub producenta systemu albo na stronie https://www.intel.pl. // Oprogramowanie i obciążenia wykorzystane w testach wydajności mogły zostać zoptymalizowane do wydajnego działania tylko na mikroprocesorach Intel®. Testy wydajności, takie jak SYSmark i MobileMark, mierzą wydajność określonych systemów komputerowych, komponentów, oprogramowania, operacji i funkcji. Jakakolwiek zmiana wyżej wymienionych czynników może spowodować uzyskanie innych wyników. Aby wszechstronnie ocenić planowany zakup, w tym wydajność danego produktu w porównaniu z konkurencyjnymi, należy zapoznać się z informacjami z innych źródeł oraz innymi testami wydajności. Dokładniejsze informacje można znaleźć na stronie http://www.intel.pl/benchmarks. // Wyniki wydajności są oparte na testach z dnia wskazanego w konfiguracjach i mogą nie uwzględniać wszystkich publicznie dostępnych aktualizacji zabezpieczeń. Więcej informacji zawiera zastrzeżenie dotyczące konfiguracji. Żaden produkt ani komponent nie jest całkowicie bezpieczny. // Opisane scenariusze obniżenia kosztów mają stanowić przykłady na to, jak dany produkt oparty na technologiach Intel® może w określonych warunkach i konfiguracjach wpłynąć na generowanie kosztów oraz zapewnić oszczędności. Warunki mogą ulec zmianie. Firma Intel nie gwarantuje żadnych poziomów kosztów ani ich obniżenia. // Firma Intel nie sprawdza i nie weryfikuje danych referencyjnych podawanych przez strony trzecie lub dostępnych na stronach internetowych wymienianych w niniejszym dokumencie. Aby potwierdzić dokładność tych danych, należy odwiedzić strony internetowe, do których się odnoszą. // W niektórych scenariuszach testowych wyniki otrzymano na podstawie szacunków lub symulacji przeprowadzonych w oparciu o wewnętrzne procesy analizy, symulacji architektury lub modelowania, przeprowadzone przez firmę Intel i dostarczone wyłącznie w celach informacyjnych. Jakiekolwiek różnice w sprzęcie, oprogramowaniu lub konfiguracji mogą wpłynąć na rzeczywistą wydajność.

Informacje o produktach i wydajności

1

Punkt odniesienia: jednogniazdowy procesor Intel® Xeon® E3-1230 v6 (4-rdzeniowy); pamięć RAM od 32 do 64 GB; 1 x dysk HDD o pojemności 1 TB lub 2 TB; dysk rozruchowy Intel S4500 240 GB; Ethernet od 1 GbE do 10 GbE E; bez buforowania. Test: jednogniazdowy procesor Intel® Xeon® Gold 6262 (24-rdzeniowy); pamieć RAM 192 GB; dysk rozruchowy Intel S4500 240 GB; 8 x dysk HDD o pojemności 6 TB; 1 x dysk Intel® SSD DC P4610 6,4 TB; Ethernet 25 GbE; buforowanie przy użyciu oprogramowania Intel® Cache Acceleration Software (Intel® CAS). System operacyjny: Twitter CentOS* 6 Derivative, Kernel Version 2.6.74-t1.el6.x86_64 (based on upstream 4.14.12 Kernel), BIOS Wersja: D3WWM11, Wersja mikrokodu: 0xb000021.

2

Backblaze, wrzesień 2018 r.: „Dysk twardy (HDD) kontra dysk półprzewodnikowy (SSD) – jaka jest różnica?” https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Punkt odniesienia: dwugniazdowy procesor Intel® Xeon® E5-2630 v4 @ 2,2 GHz (10 rdzeni/20 wątków na gniazdo); pamięć RAM 128 GB; 12 x dysk HDD SATA 6 TB 7200 RPM; 1 x dysk rozruchowy SSD SATA; Ethernet 25 GbE; 102 węzły rozmieszczone na 6 szafach serwerowych. Użyte testy porównawcze: Gridmix* i Terasort*. Wynik Gridmix: 3309 sekund; wynik Terasort: 5504 sekund. Zestaw testowy: dwugniazdowy procesor Intel® Xeon® E5-2630 v4 @ 2,2 GHz (10 rdzeni/20 wątków na gniazdo); pamięć RAM 128 GB; 12 x dysk HDD SATA 6 TB 7200 RPM; 1 x dysk rozruchowy SSD SATA; 1 x pamięć Intel® Optane™ DC P4800X NVMe* 750 GB – oparta na dysku SSD; Ethernet 25 GbE; 102 węzły rozmieszczone na 6 szafach serwerowych. Użyte testy porównawcze: Gridmix i Terasort. Wynik Gridmix: 2396 sekund; wynik Terasort: 2640 sekund; System operacyjny: Twitter CentOS*, dystrybucja 6, kernel.