Twitter zwiększa wydajność platformy Hadoop*

Dowiedz się, jak firmom Intel i Twitter udało się zwiększyć wydajność klastrów platformy Hadoop w serwisie Twitter poprzez optymalizację pamięci masowej. Usunięcie wąskich gardeł pamięci masowej umożliwiło serwisowi Twitter zwiększenie wydajności i zmniejszenie powierzchni zajmowanej przez centrum przetwarzania danych, co przełożyło się na niższe całkowite koszty utrzymania.

Analiza danych

Osiągnięcie kolejnego poziomu innowacji wymaga przyspieszenia procesu pozyskiwania wiedzy. Z pomocą produktów i technologii Intel® możesz pomyślnie rozpocząć podejmowanie niezbędnych działań.

Więcej informacji

Transkrypcja:

Każdego dnia powstaje setki milionów tweetów, które zamieniają się w ponad 1 bilion wydarzeń do przetworzenia przez centrum danych Twittera, dlatego serwis ten jest jednym z największych użytkowników platformy Hadoop* na świecie.

Hadoop pomaga w przechowywaniu wydarzeń i przeprowadzaniu analizy tych danych. Typowy klaster Hadoop* w serwisie Twitter może mieć stale w użyciu ponad 100 000 dysków twardych, ale nie zapewniały one wystarczającej liczby operacji wejścia/wyjścia na sekundę (IOPS), aby aplikacje mogły uzyskać szybki dostęp do danych. Dane HDFS (z ang. Hadoop Distributed File System) oraz dane tymczasowe zarządzane przez platformę YARN często przepływają w tym samym czasie, co powoduje wąskie gardło wydajności. Coś musiało się zmienić.

Z pomocą firmy Intel Twitter opracował nowe rozwiązanie Hadoop* wykorzystujące oprogramowanie Intel® Cache Acceleration (Intel® CAS) do selektywnego buforowania tymczasowych plików YARN na szybkim dysku SSD.

Te dwa strumienie danych nie konkurowały już ze sobą, więc zmalało wykorzystanie dysku twardego, a Hadoop* mógł szybciej obsługiwać dane.

Usunięcie wąskiego gardła wejście/wyjście pamięci masowej umożliwiło serwisowi Twitter zredukowanie całkowitej liczby szaf w klastrze, zmniejszając tym samym przestrzeń zajmowaną przez centrum danych. Użycie mniejszej liczby, ale większych dysków twardych zmniejszyło o 75% liczbę dysków twardych w klastrze, bez negatywnego wpływu na wydajność.

Twitter mógł teraz skorzystać z większej mocy procesora, przechodząc z procesorów 4-rdzeniowych na 24-rdzeniowe. Mniej systemów, dysków twardych i szaf w klastrach Hadoop* oznaczało zmniejszenie kosztów utrzymania oraz mniej energii potrzebnej do uzyskania tych samych rezultatów.

Optymalizacja wydajności pamięci masowej spowodowała znacznie szybsze czasy uruchamiania i niższy całkowity koszt utrzymania (TCO). Dzięki temu klaster Hadoop* w serwisie Twitter może nadal skalować się wraz ze wzrostem ilości danych, a jednocześnie zapewniać wspaniałe wrażenia, których oczekują użytkownicy serwisu.