Intel® Data Center Diagnostic Tool dla procesorów Intel® Xeon®

Dokumentacja

Konserwacja i wydajność

000058107

15-09-2021

Wprowadzenie

Intel® Data Center Diagnostic Tool to narzędzie do diagnostyki oprogramowania, które można obsługiwać na platformach centrów przetwarzania danych, w celu:

  • Sprawdź funkcjonalność wszystkich rdzeni w ramach procesora Intel® Xeon®.
  • Należy stosować w ramach regularnego programu konserwacji systemu.

Wysoka niezawodność i dostępność w centrum przetwarzania danych wymagają odpowiednich narzędzi oraz zaangażowania w konserwację. Firma Intel uważa, że najlepszą praktyką w branży jest wykorzystywanie takich narzędzi konserwacyjnych zarówno do wstępnego wdrażania, jak i okresowych testów, aby zapewnić najlepsze doświadczenia systemowe.

Wymagania systemowe

Intel Data Center Diagnostic Tool to aplikacja linux*, którą można zainstalować i uruchomić w wielu bieżących dystrybucjach Linuxa. Nie ma wersji tego narzędzia dla systemu Windows*.

W celu uzyskania najlepszego zasięgu uruchom aplikację w systemie głównym serwera. Możliwe jest uruchomienie go w kontenerze lub maszynie wirtualnej, ale pamiętaj, że niektóre funkcje mogą zostać wyłączone.

Obsługiwane procesory:

  • Skalowalne procesory Intel® Xeon® trzeciej generacji (wcześniej Ice Lake i Cooper Lake)
  • Skalowalne procesory Intel® Xeon® drugiej generacji (wcześniej Cascade Lake)
  • Skalowalne procesory Intel® Xeon® drugiej generacji (wcześniej Skylake)
  • Rodzina procesorów Intel® Xeon® E5 v4 (wcześniej Broadwell)
  • Rodzina procesorów Intel® Xeon® E7 v4 (wcześniej Broadwell)

Instalacji

Notatki
  • Dodatkowe szczegóły są dostępne w pliku /usr/share/doc/dcdiag/README.rst zawartym w instalacji.
  • Zalecamy skorzystanie z czynności podanych w poniższych sekcjach, aby połączyć się z repozytorium, co gwarantuje, że otrzymasz najnowszą wersję Intel® Data Center Diagnostic Tool. Jeśli jednak potrzebujesz pliku binarnego do pobrania, użyj pliku RPM lub pliku DEB.

 

Chyłka Napięcie*/Ubuntu*

W celu zainstalowania pakietów oprogramowania Intel® Data Center Diagnostic Tool w dystrybucji opartej na programie Firmy Chrzęby,, dodaj repozytorium pakietów Intel software i zainstaluj odpowiednie pakiety.

Przed kopiowaniem+wklejaniem do konsoli warto uruchomić e-program i wprowadzić hasło, aby zapobiec konsumowaniu poleceń za pomocą wiersza hasła.

Skonfiguruj klucz do weryfikacji pakietów pakietów pakietowych

curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

Skonfiguruj repozytorium

sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

Zainstaluj pakiet

sudo apt-get update
sudo apt-get install dcdiag

Fedora*/CentOS*/RHEL*

Aby zainstalować pakiety oprogramowania Intel Data Center Diagnostic Tool w dystrybucji opartej na Fedorze, dodaj repozytorium pakietów Intel software i zainstaluj pakiet.

Po pierwszej instalacji, WIOŚ lub DNF poprosi Cię o zaakceptowanie klucza podpisywania. Sprawdź, czy odcisk palca jest następujący, a następnie zaakceptuj go:
Userid: "CN=Release Key"
Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

Przed kopiowaniem+wklejaniem do konsoli warto uruchomić e-program i wprowadzić hasło, aby zapobiec konsumowaniu poleceń za pomocą wiersza hasła.

Zainstaluj plik repozytorium

sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

Zainstaluj pakiet

sudo yum install dcdiag

OpenSUSE*/SUSE Linux Enterprise*:

Zainstaluj plik repozytorium

sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

Zainstaluj pakiet

sudo zypper install dcdiag

Pojawi się komunikat, że respond.xml nie jest podpisany. Odpowiedz tak, aby kontynuować. Otrzymasz kolejną szansę na weryfikację pakietu pakietów. Sprawdź, czy odcisk palca jest następujący, a następnie zaakceptuj go:

Repository: dcdiag
Key Name: CN=Release Key
Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
Key Created: Tue 24 Nov 2020 01:47:38 PM PST
Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

 

Jak przetestować procesor Intel Xeon?

Po zainstalowaniu Intel Data Center Diagnostic Tool jest automatycznie włączona do wykonywania w tle. Możesz sprawdzić, czy jest to skuteczne, za pomocą następującego polecenia:

# systemctl status dcdiag
● dcdiag.service - Intel® Data Center Diagnostic Tool
Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
Docs: file:///usr/share/doc/dcdiag/README.rst
Main PID: 8777 (dcdiag)
CGroup: /system.slice/dcdiag.service
└─8777 /usr/bin/dcdiag --service

Jeśli wykryte zostaną jakiekolwiek błędy, narzędzie zaloguje je do dziennika systemu. Narzędzie może również sprawdzać, czy w tle wykryto jakiekolwiek błędy za pomocą argumentu --query.

# dcdiag --query
Intel® Data Center Diagnostic Tool Version 506
Test completed successfully. No issues detected.

To narzędzie można również uruchomić ręcznie na pierwszym planie poprzez wykonanie w wierszu poleceń Linux:

# dcdiag

Test ręczny trwa około 45 minut i ma wysokie wykorzystanie procesora.

Po ukończeniu diagnostyki system zwraca jeden z następujących komunikatów:

  • Test został ukończony pomyślnie. Nie wykryto żadnych problemów.
     
  • Test został ukończony pomyślnie. Wystąpił co najmniej jeden błąd w kontroli maszyn. Sprawdź dzienniki systemowe.
     
  • Ten procesor nie jest obsługiwany przez tę wersję narzędzia.

    Sprawdź model i wersję procesora systemu. Ten komunikat wyświetla się, jeśli Intel Data Center Diagnostic Tool nie wykryje wersji produkcyjnej obsługiwanych procesorów. To narzędzie nie obsługuje próbek inżynieryjnych.

    Znajdź pomoc w identyfikacji procesora.
     
  • Test został ukończony. Wyniki są niejednoznaczne ze względu na przestarzałą wersję mikrokodu.

    Najnowsza wersja mikrokodu rozwiązuje znane problemy. Zaktualizuj. Aktualizacje mikrokodów są zazwyczaj dostarczane przez dostawcę dystrybucji Linuxa wraz z poprawkami zabezpieczeń i innymi aktualizacjami oprogramowania sprzętowego dla różnych komponentów. Jeśli Twój system nie obsługuje tych aktualizacji, zalecamy ich włączenie. Mikrokod jest automatycznie ładowany przez jądro Linux na każdym rozruchu i może zostać przeładowany w czasie wykonywania za pomocą następującego polecenia jako głównego:

    echo 1 > /sys/devices/system/cpu/microcode
     
  • Test został ukończony. Wyniki są niejednoznaczne ze względu na system przekraczający ograniczenia temperatury

    Może to być spowodowane szeregiem problemów z systemem, który nie zapewnia wystarczającego chłodzenia procesora do działania w wymaganych ograniczeniach temperatury. Zalecamy sprawdzenie systemu pod kątem prawidłowego działania wymaganego chłodzenia. Może to być wadliwe wentylatory, nieprawidłowy przepływ powietrza lub inne problemy związane z ochroną środowiska.
     
  • Test został ukończony. Wyniki są niejednoznaczne, wystąpił co najmniej jeden błąd w kontroli maszynowej.

    Sprawdź dzienniki systemowe.
     
  • Test nie powiodł się. Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.

    Jeśli wyniki testów nie powiodły się, sprawdź, czy procesory Twojego węzła serwerowego są nadal objęte gwarancją:

    • Jeśli procesor pudełkowany Intel® Xeon® jest nadal objęty trzyletnią gwarancją, skontaktuj się z działem obsługi klienta firmy Intel w celu uzyskania pomocy.
    • Jeśli masz procesor paletowany, skontaktuj się ze swoim systemem, dostawcą procesora lub miejscem zakupu, aby sprawdzić, czy procesor jest nadal objęty gwarancją.
      UwagaProcesory paletowane sprzedawane są bezpośrednio producentom systemów lub autoryzowanym dystrybutorom firmy Intel. Firma Intel nie zapewnia użytkownikom końcowym bezpośredniej gwarancji na procesory paletowane, chyba że zostaną one fabrycznie zainstalowane w systemach serwerowych Produkty Intel® Data Center Block (Produkty Intel® DCB) (Intel® DCB). Z wyjątkiem systemów Intel DCB gwarancja na procesor paletowany udzielana jest od dostawcy lub miejsca zakupu procesora lub systemu, jeśli procesor był wstępnie zainstalowany. Firma Intel zaleca zakup u autoryzowanych dystrybutorów Intel®, autoryzowanych dostawców Intel® oraz sprzedawców produktów Intel®.
    • Pamiętaj, że firma Intel nie ma programu wymiany poza gwarancją.
       
  • Test nie powiodł się.

    Test został zakończony i wykryto błąd w procesorze fizycznym zawierającym /sys/devices/system/cpu/cpuXX.

    Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.

  • Test nie powiodł się.

    Test nie jest w stanie określić, który procesor fizyczny był przyczyną awarii.

    Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.
     

Historia wersji

DataWersjaOpis
7 lipca 2021 r.540Wersja początkowa