مانیتورینگ سرورهای HP در لینوکس
چکیده
در این مستند به معرفی ابزارهایی پرداخته می شود که به سبب آن می توان قسمتهای سخت افزاری سرورهای HP را نظارت نمود .
1- مقدمه
جهت بررسی نمودن وضعیت سخت افزار سرور های HP، ابزارهای متعددی طراحی شده است که هر کدام از آنها جهت تحقق هدفی ایجاد گردیده است.در این بین، ابزارهایی وجود دارند که در محیط Command line مورد استفاده قرار میگیرند.در این مستند به بررسی ابزارهای نظارتی سرورHP در محیط متنی پرداخته شده است.همچنین کنترل سختافزار های سرور از طریق پورت iLO نیز مورد بررسی قرار می گیرد.
2- hplog
2.1 معرفی
hplog ابزاری است که اجازه میدهد تا به قسمتهایی از سرورهای hp نظارت گردد.این ابزار اطلاعات خود را از طریق IML دریافت میکند.
IML ابزاری است که تمام سوابق مربوط به رویداد های اتفاق افتاده بر روی سرور را نگهداری می کند.
رویدادهای ذخیره شده در IML به سه دسته تقسیمبندی میشوند،که این دسته بندی بر اساس نوع رویدادی است که در سرور اتفاق افتاده است .
این چهار دسته عبارتند از:
۱-CAUTION :اخطارها (warning)
۲-CRITICAL :خطاها (error)
۳-INFO :پیغام ها (information)
۴-REPAIRED اطلاع از رفع شدن خرابی توسط خود سرور.
2.2 پارامترهای ابزار hplog
-
پارامتر t
نمایش اطلاعات حرارتی مربوط به تمام سنسورهای سرور، که این اطلاعات شامل نوع ،وضعیت، موقعیت،درجه حرارت فعلی و آستانه حرارتی سنسورها می باشد.
تصویر 1: خروجی دستور hplog با پارامتر t
-
پارامتر f
نمایش اطلاعات جاری فن های سرور که این اطلاعات شامل نوع ،وضعیت،سرعت و موقعیت فن ها میباشد.
-
پارامتر p
نمایش اطلاعات جاری منابع تغذیه سرور شامل نوع،وضعیت و موقعیت منبع تغذیه می باشد.
-
پارامتر s
از این پارامتر جهت مشاهده محتوای IML بر اساس نوع رویدادی که در سرور اتفاق افتاده،استفاده می شود
تصویر 3: خروجی دستور hplog با پارامتر a
3- hpacucli
3.1 معرفی hpacucli
hpacucli برگرفته از جمله HP Array Configuration Utility CLI می باشد.
ابزار hpacucli جهت ساخت، حذف و تعمیر درایوهای فیزیکی و منطقی بر روی کنترلر های RAID در سرور های HP مورد استفاده قرار میگیرد.به عبارتی بر تنظیمات مربوط به RAID تمرکز دارد.
تصویر 4: خروجی دستور hpacucli
3.2 پارامتر های ابزار hpacucli
این ابزار شامل پارامتر های زیادی می باشد که برای ساخت،حذف و نظارت برروی کنترلر هایRAID به کار می رود.
-
پارامتر help
این پارامتر یک راهنمای کامل در مورد نحوه استفاده از ابزار hpacucli را ارائه می دهد.
تصویر 5: خروجی دستور hpacucli با پارامتر help
-
پارامتر show
جهت نظارت بر قسمتهای مختلف کنترلرRAID از پارامتر show به همراه دیگر پارامتر ها استفاده می گردد .
-
پارامتر ctrl
از (ctrl (controller جهت بررسی و نظارت بر کنترلر های RAID استفاده میشود.
-
پارامتر all
جهت نمایش اطلاعات مربوط به تمام بخش های کنترلر RAID بر روی سرور به کار برده می شود.
-
پارامتر slot
جهت بررسی نمودن وضعیت یکslot در کنترلر RAID به کار برده می شود . Slot جایگزین پارامتر all میشود.
تصویر 6 :خروجی دستور hpacucli با پارامتر slot
-
پارامتر pd
از این پارامتر(pd(physical drive جهت مشاهده مشخصات درایو های فیزیکی استفاده می گردد.
درایو فیزیکی به هر یک از هارددیسک های نصب شده بر روی کنترلر RAID اطلاق می شود.با استفاده از این پارامتر از وضعیت و میزان حجم هر هارددیسک ،نوع هارد دیسک ها و موقعیت آنها بر روی کنترلر RAID میتوان آگاهی یافت.
تصویر 7: خروجی دستور hpacucli با پارامتر pd
-
پارامتر ld
از پارامتر ( ld( logical drive جهت مشاهده مشخصات درایوهای منطقی به کار برده می شود.
درایو منطقی اشاره به تقسیمات منطقی RAID دارد.و مشخص کننده نوع RAID ای میباشد که بر روی کنترلر RAID تعریف گردیده است .در تصویر 8 مشخص است که دو درایو منطقی از نوع RAID5 بر روی کنترلرRAIDتعریف گردیده است.
تصویر 8: خروجی دستور hpacucli با پارامتر ld
-
پارامتر config
از این پارامتر جهت مشاهده تنظیمات صورت گرفته بر روی کنترلر RAID استفاده می گردد.
تصویر 9: خروجی دستورhpacucli با پارامتر config
-
پارامتر detail
جهت بدست آوردن اطلاعات کاملتر در مورد قسمتهای مختلف کنترلر RAID از این پارامتر همراه با پارامتر های دیگر استفاده می شود.
تصویر 10: خروجی دستور hpacucli با پارامتر detail
-
پارامتر config detail
از ترکیب دو پارامتر config و detail برای بدست آوردن اطلاعات کامل از تمام تنظیمات و مشخصات مربوط به کنترلر RAID استفاده می شود.
تصویر 11: خروجی دستورhpacucli با پارامترهای config detail
-
پارامتر status
جهت بررسی وضعیت کلی کنترلرRAID استفاده می گردد.
4 ابزار hpasmcli
hpasmcli برگرفته از جمله HP Server Management Application and Agents Command Line
می باشد.
از این ابزار جهت نمایش تنظیمات سیستم ،BIOS سیستم و وضعیت سخت افزارها در سرور های HP مورد استفاده قرار می گیرد.
4.1 پارامتر های hpasmcli جهت بررسی وضعیت سیستم
-
پارامتر help
نمایش لیستی از پارامتر هایی که با این دستور به کار برده می شوند.
تصویر 12: خروجی دستور hpasmcli با پارامتر help
-
پارامتر show
برای نمایش وضعیت قسمتهای مختلف سرور از این پارامتر استفاده می شود.
زمانی که از پارامتر show به تنهایی استفاده گردد تمام پارامترهایی که می توان همراه با آن به کار برده شود را نمایش می دهد .
تصویر 13: خروجی دستور hpasmcli با پارامتر show
-
پارامتر server
نمایش مشخصات سرور از جمله نوع سرور ،تعداد CPUهاو مدل آنها ،تعداد کارت های شبکه و… .
تصویر 14: خروجی دستور hpasmcli با پارامتر server
-
پارامتر temp
از این پارامتر جهت نمایش وضعیت سنسورهای سرور استفاده می گردد.
-
پارامتر dimm
این پارامتر اطلاعات RAMهایی که بر روی سرور نصب شدهاند را نمایش می دهد.
تصویر 15: خروجی دستور hpasmcli با پارامتر dimm
-
پارامتر fans
جهت نمایش اطلاعات مربوط به فن های نصب شده بر روی سرور به کار برده می شود.
-
پارامتر boot
نمایش لیستی از device های سرور بر اساس اولویت بوت شدن آنها.
-
پارامتر ht
از این پارامتر جهت نمایش وضعیت Hyper-Threading یا همان فراریسمانی سرور استفاده می شود .
فراریسمانی یک فناوری اختصاصی شرکت اینتل است که برای بهبود « رایانش موازی یا پردازش موازی» (انجام چند دستورالعمل به طور همزمان) در پردازنده به کار رفته است.با این فناوری، برای هر هسته پردازشی (هستههای واقعی)سیستم عامل دو هستهٔ مجازی ادرس دهی میکند و در هنگامی که امکان داشته باشد حجم کار را بین آنها تقسیم میکند.برای این فناوری نه تنها لازم است که سیستم عامل از چند پردازنده پشتیبانی کند بلکه باید برای آن بهینه سازی شده باشد؛ و شرکت اینتل توصیه میکند که در صورتی که از سیستم عاملی استفاده میکنید که هایپرتردینگ را پشتیبانی نمیکند، این فناوری را غیر فعال کنید.
تصویر 16: خروجی دستور hpasmcli با پارامتر های boot , ht
-
پارامتر iml
با استفاده از این پارامتر می توان مجموعه ای از اتفاقاتی که روی سرور رخ داده است را نمایش داد.این پارامتر محتوای IML سیستم را نمایش می دهد.
تصویر 17: خروجی دستور hpasmcli با پارامتر iml
-
پارامتر ipl
لیستی از انواعdevice های نصب شده بر روی سرور را نمایش می دهد.
-
پارامتر powersupply
جهت نمایش اطلاعات مربوط به وضعیت منبع تغذیه های نصب شده بر روی سرور به کار برده می شود.
تصویر 18: خروجی دستور hpasmcli با پارامتر های ipl , powersupply
-
پارامتر uid
جهت نمایش وضعیت led مربوط به uid سرور به کار برده می شود.
تصویر 19: LED مربوط uid سرور hp
-
پارامتر wol
جهت نمایش فعال یا غیر فعال بودن سیستم wake-on-lan بر روی سرور های hp به کار برده می شود.
Wake on lan یک سیستم استاندارد شبکه است که اجازه روشن یا همان بیدار شدن را با یک پیغام شبکه به سرور میدهد. این پیغام معمولاً توسط یک برنامه ساده بر روی سیستمی دیگر روی همان شبکه محلی ارسال میشود. بیدار شدن از شبکه یا همان Wake-on-LAN را به اختصار WOL نیز مینامند.
تصویر 20: خروجی دستور hpasmcli با پارامتر های uid , wol
5 ابزار dmidecode
ابزار dmidecode ،جدول DMI (بعضی ها به اسم SMBIOS آن را می شناسند) را می خواند و اطلاعات کاملی در مورد سختافزار سرور , BIOS ،CPU وRAMها را نمایش می دهد.
DMI تمام اطلاعات سخت افزاری سیستم را در خود نگهداری می نماید.
5.1 پارامتر های دستور dmidecode
در صورتی که دستورdmidecode به تنهایی استفاده گردد تمام اطلاعات مربوط به سخت افزارهای شناسایی شده سرور را نمایش می دهد.
-
پارامتر t یا type
برای اینکه بتوان از پارامتر های مختلف سخت افزاری به صورت keyword (یا نام سختافزاری) استفاده کرد،از این پارامتر استفاده می گردد.در غیر این صورت بایستی از id های از پیش تعریف شده برای هر نوع سختافزار استفاده شود.
-
پارامتر Memory
اطلاعات مربوط به RAM های سیستم و اسلات های حافظه را به نمایش می دهد.
تصویر 21: خروجی دستور dmidecode باپارامتر memory
-
پارامترBios
جهت نمایش اطلاعات مربوط به BIOS سیستم به کار برده می شود.
-
پارامترSystem
جهت نمایش اطلاعات مربوط به مدل ، Serial number وسازنده سیستم استفاده می شود.
تصویر 22: خروجی دستور dmidecode با پارامتر system
-
پارامترProcessor
این پارامتر اطلاعات کاملی از نوع پردازشگرها ، تعداد آنها ، سرعت و مدل آنها را به نمایش میگذارد.
تصویر 23: خروجی دستور dmidecode با پارامترprocessor
-
پارامترCache
جهت نمایش اطلاعات مربوط به cache پردازشگر سیستم استفاده می شود.
تصویر 24: خروجی دستور dmidecode با پارامتر cache
-
پارامترConnector
جهت نمایش اطلاعات مربوط به تمام پورت های سیستم از این پارامتر استفاده می گردد.
تصویر 25: خروجی دستور dmidecode با پارامترconnector
-
پارامترSlot
جهت نمایش مشخصات مربوط به تمام slot های سیستم استفاده می گردد.
تصویر 26: خروجی دستور dmidecode با پارامتر slot
6 بررسی لاگ های iLO جهت مشخص شدن مشکلات سخت افزاری
6.1 معرفی پورت iLO
Integrated Lights-Out Management یا iLO نام تکنولوژی مورد استفاده شرکت HP در تجهیزات سرور تولید شده توسط این شرکت میباشد.
iLO در زمانی به کار میرود که شما به هر دلیلی و از راه دور نیازمند به دسترسی سطح پایین ( Out-Band Management ) به سرور خود میباشید.
این امکان در عموم سرور های سری 300 به بالای این شرکت ( به عنوان مثال DL380-G5 یا ML370 ) به صورت پیش فرض وجود دارد.
کانکتور مورد استفاده در این تکنولوژی یک عدد کارت شبکه 100Mbps میباشد که در کنار بقیه کانکتور های شبکه سرور و با برچسب iLO قابل شناسایی میباشد.
تصویر 27: iLO Port
6.2 بررسی وضعیت سرور توسط iLO
با استفاده از اینترفیس تحت وب مخصوص iLO میتوان وضعیت تمام قسمتهای سخت افزاری سرور های hp را کنترل نمود.جهت استفاده از این اینترفیس در پنجره مرورگر ، IP تنظیم شده برای پورت iLO را وارد نموده تا به صفحه login برسید.برای این منظور بعد از ورود نام کاربری و رمز عبور تعریف شده برای پورت iLO در قسمت مربوطه که در تصویر 31 نیز قابل ملاحظه است وارد صفحه اصلی میشوید(تصویر 32). در این صفحه در قسمت System Information اطلاعات مربوط بهقسمتهای مختلف سخت افزاری به صورت سربرگ های جدا گانه دسته بندی شدهاند که جهت بررسی وضعیت هر قسمت سختافزاری به سربرگ مربوط به آن وارد شده و اطلاعات مربوط به آن را مشاهده نمایید.
تصویر 28: پنجره login مربوط به iLO
تصویر 29: قسمت system information مربوط به iLO
6.3 بررسی خطاهای سخت افزاری سرور در iLO
تمام خطاهای سخت افزاری که در سرور رخ میدهد در قسمت Integrated Management Log به ثبت می رسد.و با بررسی این قسمت از iLO میتوان تمام خطاهای فعلی و قبلی مربوط به سرور را مشاهده نمود.در قسمت description از این صفحه میتوان پی برد که خطاهای اتفاق افتاده مربوط به چه قسمتی از سرورمیباشد.
Integrated Management Log اطلاعاتش را از IML سرور میگیرد.که تمام لاگ های مربوط به سرور در آن ذخیره می شود.
تصویر 30: پنجره IML مربوط به iLO
7 بررسی سلامت سیستم
-
چگونه میتوان وضعیت کنترلر RAID را چک نمود؟
با استفاده از دستور زیر میتوان تمام اطلاعات مربوط به کنترلر RAID را بررسی نمود.
hpacucli controller all show config detail
2) چگونه میتوان وضعیت Cache , Battery کنترلر RAID را چک نمود؟
Cache یک قطعه سخت افزاری مهم در کنترلر RAID می باشد که بایستی مورد توجه قرار گیرد. به این دلیل که جهت بالا بردن سرعت ذخیره سازی اطلاعات، قبل ازآنکه اطلاعات بر روی هارددیسک ذخیره شود ،ابتدا درون Cache قرار میگیرد.وزمانی که Cache مربوط به کنترلر RAID در وضعیت مناسبی نباشد سرعت ذخیره سازی اطلاعات نیز پایین می آید.
Battery نیز قسمتی از کنترلرRAID می باشد.که وظیفه تأمین انرژی لازم جهت روشن نگه داشتن کنترلر RAID را برعهده دارد. زمانی که برق سرور به هر دلیل قطع شود باتری مخصوص کنترلر RAID انرژی مصرفی مورد نیاز کنترلرRAID را تأمین می نماید تا اطلاعات موجود در Cache کنترلر RAID درون هارددیسک ها ذخیره شود.زمانی که باتری در وضعیت مناسبی نباشد و سرور خاموش شود اطلاعاتی که درCache مخصوص کنترلر RAID قرار دارد از بین میرود.
تصویر 31: Cache and Battery RAID
برای مشاهده وضعیت دو قسمت مهم کنترلر یعنی Battery , Cache میتوان از دستور زیر استفاده نمود.
hpacucli ctrl all show detail
-
چگونه میتوان وضعیت هارددیسک های سرور را چک نمود؟
با استفاده از دستور زیر میتوان وضعیت هارددیسک های سرور را چک نمود :
hpacucli ctrl all show config
در نتیجه دستور قبل، لیستی از تمام هاردیسک های سرور همراه با وضعیت هر کدام نمایش می دهد.
روش دیگر اینکه توسط iLO سرور در قسمت System Informaion در سربرگstorage وضعیت تمام هارد دیسک ها مشخص شده است.
4)چگونه میتوان از تعداد،حجم و وضعیت RAM های سرور با خبر شد؟
با مراجعه بهiLO سرور در قسمت System Informaion در سربرگ memory اطلاعات کاملی از تمام RAM های سرور وجود دارد.
روش دیگر با استفاده از دستور زیر اطلاعات کاملی از RAM های سرور قابل مشاهده است:
dmidecode -t memory
-
چگونه میتوان درصد استفاده از CPU , RAM را مشاهده نمود؟
با استفاده از دستور top، تمام اطلاعات مربوط به میزان استفاده از RAM , CPU قابل مشاهده می باشد.