Intel® Data Center Diagnostic Tool dla procesorów Intel® Xeon®

Dokumentacja

Konserwacja i wydajność

000058107

23-06-2022

Wprowadzenie

Intel® Data Center Diagnostic Tool to narzędzie do diagnostyki oprogramowania, które można obsługiwać na platformach centrów przetwarzania danych, w celu:

  • Sprawdź funkcjonalność wszystkich rdzeni w ramach procesora Intel® Xeon®.
  • Należy stosować w ramach regularnego programu konserwacji systemu.

Wysoka niezawodność i dostępność w centrum przetwarzania danych wymagają odpowiednich narzędzi oraz zaangażowania w konserwację. Firma Intel uważa, że najlepszą praktyką w branży jest wykorzystywanie takich narzędzi konserwacyjnych zarówno do wstępnego wdrażania, jak i okresowych testów, aby zapewnić najlepsze doświadczenia systemowe.

    UwagaNowoczesna infrastruktura obliczeniowa zapewnia stale rosnące zapotrzebowanie na moc obliczeniową w połączeniu z oczekiwaniami biznesowymi dotyczącymi jakości usługi i wysokiej dostępności (oraz ogólnie gwarancji na podstawie umów serwisowych [SLA]). Te oczekiwania wskazują na potrzebę wydajnych narzędzi programowych, które umożliwiają przewidywanie, identyfikację i minimalizację nieoczekiwanych usterek systemu, które mogą narazić na szwank jakość usługi lub uptime. Przeczytaj artykuł firmy IDC , który obejmuje potrzebę narzędzi diagnostycznych, w tym Intel® Data Center Diagnostic Tool.

    Wymagania systemowe

    Intel Data Center Diagnostic Tool to aplikacja linux*, którą można zainstalować i uruchomić w wielu bieżących dystrybucjach Linuxa. Nie ma wersji tego narzędzia dla systemu Windows*.

    W celu uzyskania najlepszego zasięgu uruchom aplikację w systemie głównym serwera. Możliwe jest uruchomienie go w kontenerze lub maszynie wirtualnej, ale pamiętaj, że niektóre funkcje mogą zostać wyłączone.

    Obsługiwane procesory:

    • Skalowalne procesory Intel® Xeon® trzeciej generacji (wcześniej Ice Lake i Cooper Lake)
    • Skalowalne procesory Intel® Xeon® drugiej generacji (wcześniej Cascade Lake)
    • Skalowalne procesory Intel® Xeon® jedenastej generacji (wcześniej Skylake)
    • Rodzina procesorów Intel® Xeon® E5 v4 (wcześniej Broadwell)
    • Rodzina procesorów Intel® Xeon® E7 v4 (wcześniej Broadwell)
    Uwaga
    • Dla programistów: firma Intel rozpoczęła projekt Open Data Center Diagnostic Project, który otwiera strukturę diagnostyki centrów przetwarzania danych firmy Intel i przeprowadza wybrane testy. Zapewnia to programistom spójną strukturę rozwoju testów, która zachęca społeczność Open-Source do usprawnienia zarządzania flotą w chmurze poprzez stworzenie unikalnych ekranów testowych i innych innowacyjnych rozwiązań. Aby uzyskać więcej informacji i uzyskać dostęp do tego frameworku i testów

    Instalacji

    Notatki
    • Dodatkowe szczegóły są dostępne w pliku /usr/share/doc/dcdiag/README.rst zawartym w instalacji.
    • Zalecamy skorzystanie z czynności podanych w poniższych sekcjach, aby połączyć się z repozytorium, co gwarantuje, że otrzymasz najnowszą wersję Intel® Data Center Diagnostic Tool. Jeśli jednak potrzebujesz pliku binarnego do pobrania, użyj pliku RPM lub pliku DEB.

     

    Chyłka na wyduchy*/Ubuntu*

    W celu instalacji pakietów oprogramowania Intel® Data Center Diagnostic Tool w dystrybucjach opartych na programie Polecamy, dodaj repozytorium pakietów Intel software i zainstaluj odpowiednie pakiety.

    Przed kopiowaniem+wklejaniem do konsoli warto uruchomić e-oprogramowanie i wprowadzić hasło, aby zapobiec konsumowaniu poleceń za pomocą wiersza hasła.

    Skonfiguruj klucz do weryfikacji pakietów pakietowych

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Skonfiguruj repozytorium

    sudo apt-add-repository 'deb [arch=amd64] https://repositories.intel.com/dcdt/debian stable main'

    Zainstaluj pakiet

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Aby zainstalować pakiety oprogramowania Intel Data Center Diagnostic Tool w dystrybucji opartej na Fedorze, dodaj repozytorium pakietów Intel software i zainstaluj pakiet.

    Po pierwszej instalacji, WIOŚ lub DNF poprosi Cię o zaakceptowanie klucza podpisywania. Sprawdź, czy odcisk palca jest następujący, a następnie zaakceptuj go:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Przed kopiowaniem+wklejaniem do konsoli warto uruchomić e-oprogramowanie i wprowadzić hasło, aby zapobiec konsumowaniu poleceń za pomocą wiersza hasła.

    Zainstaluj plik repozytorium

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Zainstaluj pakiet

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    Zainstaluj plik repozytorium

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Zainstaluj pakiet

    sudo zypper install dcdiag

    Nastąpi przesuw, że respond.xml nie jest podpisany. Odpowiedz tak, aby kontynuować. Otrzymasz kolejną szansę na weryfikację pakietu pakietów. Sprawdź, czy odcisk palca jest następujący, a następnie zaakceptuj go:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Jak przetestować procesor Intel® Xeon®?

    Po zainstalowaniu Intel Data Center Diagnostic Tool jest automatycznie włączona do wykonywania w tle. Możesz sprawdzić, czy jest to skuteczne, za pomocą następującego polecenia:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Uwaga

    Jeśli chcesz wyłączyć wykonanie tła Intel Data Center Diagnostic Tool, uruchom:

    systemctl disable --now dcdiag

    Więcej informacji na temat korzystania z polecenia systemctl(1) można znaleźć na stronie obsługi systemu Linux*.

    Jeśli wykryte zostaną jakiekolwiek błędy podczas wykonywania Intel Data Center Diagnostic Tool w tle, narzędzie zaloguje je do dziennika systemu. Narzędzie może również sprawdzać, czy w tle wykryto jakiekolwiek błędy za pomocą argumentu --query.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    To narzędzie można również uruchomić ręcznie na pierwszym planie poprzez wykonanie w wierszu poleceń Linux:

    # dcdiag

    Test ręczny trwa około 45 minut i ma wysokie wykorzystanie procesora.

    Po ukończeniu diagnostyki system zwraca jeden z następujących komunikatów:

    • Test został ukończony pomyślnie. Nie wykryto żadnych problemów.
       
    • Test został ukończony pomyślnie. Wystąpił co najmniej jeden błąd w kontroli maszyn. Sprawdź dzienniki systemowe.
       
    • Ten procesor nie jest obsługiwany przez tę wersję narzędzia.

      Sprawdź model i wersję procesora systemu. Ten komunikat wyświetla się, jeśli Intel Data Center Diagnostic Tool nie wykryje wersji produkcyjnej obsługiwanych procesorów. To narzędzie nie obsługuje próbek inżynieryjnych.

      Znajdź pomoc w identyfikacji procesora.
       
    • Test został ukończony. Wyniki są niejednoznaczne ze względu na przestarzałą wersję mikrokodu.

      Najnowsza wersja mikrokodu rozwiązuje znane problemy. Zaktualizuj. Aktualizacje mikrokodów są zazwyczaj dostarczane przez dostawcę dystrybucji Linuxa wraz z poprawkami zabezpieczeń i innymi aktualizacjami oprogramowania sprzętowego dla różnych komponentów. Jeśli Twój system nie obsługuje tych aktualizacji, zalecamy ich włączenie. Mikrokod jest automatycznie ładowany przez jądro Linux na każdym rozruchu i może zostać przeładowany w czasie wykonywania za pomocą następującego polecenia jako głównego:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Test został ukończony. Wyniki są niejednoznaczne ze względu na system przekraczający ograniczenia temperatury

      Może to być spowodowane szeregiem problemów z systemem, który nie zapewnia wystarczającego chłodzenia procesora do działania w wymaganych ograniczeniach temperatury. Zalecamy sprawdzenie systemu pod kątem prawidłowego działania wymaganego chłodzenia. Może to być wadliwe wentylatory, nieprawidłowy przepływ powietrza lub inne problemy związane z ochroną środowiska.
       
    • Test został ukończony. Wyniki są niejednoznaczne, wystąpił co najmniej jeden błąd w kontroli maszynowej.

      Sprawdź dzienniki systemowe.
       
    • Test nie powiodł się. Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.

      Jeśli wyniki testów nie powiodły się, sprawdź, czy procesory Twojego węzła serwerowego są nadal objęte gwarancją:

      • Jeśli procesor pudełkowany Intel® Xeon® nadal jest objęty 3-letnią gwarancją, skontaktuj się z działem obsługi klienta firmy Intel w celu uzyskania pomocy.
      • Jeśli masz procesor paletowany, skontaktuj się ze swoim systemem, dostawcą procesora lub miejscem zakupu, aby sprawdzić, czy procesor jest nadal objęty gwarancją.
        UwagaProcesory paletowane sprzedawane są bezpośrednio producentom systemów lub autoryzowanym dystrybutorom firmy Intel. Firma Intel nie zapewnia użytkownikom końcowym bezpośredniej gwarancji na procesory paletowane, chyba że zostaną one fabrycznie zainstalowane w systemach serwerowych Produkty Intel® Data Center Block (Produkty Intel® DCB) (Intel® DCB). Z wyjątkiem systemów Intel DCB gwarancja na procesor paletowany udzielana jest od dostawcy lub miejsca zakupu procesora lub systemu, jeśli procesor był wstępnie zainstalowany. Firma Intel zaleca zakup u autoryzowanych dystrybutorów Intel®, autoryzowanych dostawców Intel® i sprzedawców produktów Intel®.
      • Pamiętaj, że firma Intel nie ma programu wymiany poza gwarancją.
         
    • Test nie powiodł się.

      Test został zakończony i wykryto błąd w procesorze fizycznym zawierającym /sys/devices/system/cpu/cpuXX.

      Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.

    • Test nie powiodł się.

      Test nie jest w stanie określić, który procesor fizyczny był przyczyną awarii.

      Skontaktuj się z producentem systemu lub dostawcą procesora, aby uzyskać pomoc techniczną.
       

    Historia wersji

    DataWersjaOpis
    7 lipca 2021 r.540Wersja początkowa

     

    Powiązane tematy
    Strona główna pomocy technicznej Intel® Xeon®
    Przewodnik gwarancyjny dla procesorów Intel®