VROPS ile Sanal Sunucu ve Infrastructure Hakkında Bilgi Veren Bazı Metrikler

Posted by

8.2 ile gelen dashboardların incelemesi kapsamında;

Contention kısmında inceleme; infrastructure kısmında sorun var mı

Utilization kısmında inceleme; sanal makinemizde sorun var makine doğru kaynaklarla mı çalışıyor şeklinde yorum yapmamıza yardımcı olur.

İlk olarak 2 numaralı bölüm olan Contention kısmına bakacağız; Burada datacenter seçtiğiniz zaman o datacenter’daki  vm’leri aşağıda sıralıyor.

Vm performans tabında bu datacenterdaki vm’lerin KPI Breanched kısmında kaç defa pik yaptığı ve hangi özellik için bunu yaptığını görebiliyoruz.  Örneğin ly…… için Cpu ready değeri treshhold değerini üstünde ve bunun uyarsını görebiliyoruz.

İnceleme sırasında tresholdların bizlere fikir vermesi açısından ilgili tabloyu paylaşabiliriz ancak şu unutulmamalıdır ki bu treshold’lar uygulamadan uygulamaya ve vm’e göre değişebilir.

Şimdi tekrar bir vm üzerinden metrikleri incelemeye başlayalım. Ele alacağımız vm vw……

Cpu Ready metriği incelendiği zaman; %8.31’e çıktığı görülmüş öncelikle bu metric için kabul edilebilir rakam 0 ile 2.5arasında.

Peki Nedir Cpu Ready?

VMware CPU Ready metriği, sanal makinenin hazır olduğu, ancak fiziksel CPU’da çalışmak üzere programlanamadığı zamanın yüzdesini görmek için kullanılır. CPU’ya hazır olma süresi, ana bilgisayardaki sanal makinelerin sayısına ve CPU yüklerine bağlıdır..

CPU ready % 10’dan daha büyük olduğunda, ana bilgisayarın aşırı yüklenmiş olup olmadığını veya VM’nin kendisine tahsis edilen tüm kaynaklara gerçekten ihtiyaç duyup duymadığını kontrol etmelisiniz.

Daha sonra Cpu Overlap ve Cpu Co-Stop metriklerini inceleyelim.

Cpu Overlap

Sanal Makinenin, söz konusu VM veya diğer VM’ler adına sistem hizmetlerini gerçekleştirmek için kesintiye uğradığı zamandır. Performans problemlerine sebep olan bu metrik için belirlene treshold değeri  0-1000 ms arasıdır. Bu metric CPU Contention’ı da etkileyebilir.

Cpu Co-Stop

Sanal makinenin çalışmaya hazır olduğu ancak birlikte programlama kısıtlamaları nedeniyle yapamadığı zaman yüzdesidir.Bu metrik için belirlenen treshold %0-2.5. Eğer metrik yüksek ise makine üzerinde snaphot olup olmadığına bakabiliriz.

 Şimdi ise CPU Run Queue ve Disk Queue Length metriklerini inceleyelim.

CPU Run Queue

Bu metrik için belirlenen değer 0-5 arasında eğer 5’den büyük ise Guest tarafında sorun olduğunun habercisidir.

Disk Queue Length

Bu metrik için 100’den fazla olması durumunda işletim sistemi sahiplerine bildirilmeli.

CPU IO ve CPU Swap Wait metrikleri;

CP IO Wait:

Yüzde IO  Beklemeyi ifade eder. Network tarafında CPU’nun bir IO Bekleyip beklemediğini anlatan metriktir.

CPU Swap Wait metrikleri:

CPU için yüzde değiş tokuş beklemesi için geçen süre. Bu metrik 0 olmalı eğer değil ise vm üzerinde yavaşlık problemi var demektir.

Cpu Contex Switch

Context switching, virtualization dünyasında işletim sisteminin snapshot’ını almaya benzer şekilde o anki tüm register, memory vb değerlerinin kaydedilmesi kavramına denilmektedir. Bu durum thread kavramı geldiğinde benzer nedenlerden dolayı thread’leri de ilgilendiren bir kavram olmuştur. Process’ler arasında işlemcinin geçiş yapmasıdır. Bir thread/process’in çalışmasına ara verilip diğer bir thread/process’in kalınan yerden çalışmaya devam ettirilmesi sürecine context switch denilmektedir.

Belirlenen threshold değeri 25K üzerinde ise sıkıntı var demektir, böyle durumlarda uygulama tüne edilmelidir. İlave olarak Custom uygulamanızda sorun var, uygulamanızı incelemenizi öneririz, contex yaptıran uygulamanız var denebilir.

İkinci olarak 2 numaralı bölüm olan Utilization kısmına bakacağız; Burada datacenter seçtiğiniz zaman o datacenter’daki  vm’leri aşağıda yine sıralıyor.

VMs Peak Utilization kısmı bize hangi vm’lerin hangi parametrelerde pik yaptığını gösterir. İlgili vm’i çektiğimiz zaman onunla ilgili kapsamlı grafikleri görebiliriz. Örnek olarak op….. makinesini ele alalım.

İlk bakışta CPU Usage’ın  en az bir kere %100 olduğunu ve Free Memory’de azalma olduğunu görebiliyoruz daha detaylı incelemek için zman aralığı belirleyip ilgili vm’in sağındaki metrikleri dashboard’lar üzerinden analiz edebiliriz.

CPU Usage

Bu metrik, sanal makineye ayrılan tüm CPU’dan kullanılan CPU yüzdesini gösterir. CPU kullanımı, VM’nin ne zaman düşük ne zaman yüksek olduğunu gösterebilir. Belirlenen treshold değeri %85 olarak kabul edilmiştir yukarıdaki tabloya göre. Bu değeri geçtikten sonra uyarılar almaya başlarız.

Memory

Sunucu Memory kullanımı gösterir  ilave olarak bu tabda ne kadar free memory kaldığını gösterir.Buradan vm’in memory’e ihtiyacı olup olmadığı teyit edilir.

Memory Guest OS Paging Rate

Memory Paging, bir bilgisayarın veya sanal makinenin (VM’ler) bellek kaynaklarının nasıl paylaşıldığını kontrol etmeye yönelik bir bellek yönetimi tekniğidir.

Bir bilgisayar, sistemde fiziksel olarak yüklü miktarın ötesinde bir belleğe adres verebilir. Sanal bellek olarak adlandırılan bu fiziksel olmayan bellek, aslında bilgisayarın RAM’ini taklit etmek için ayarlanmış bir sabit diskin bir bölümüdür.

Sanal bellek kavramı, bir bilgisayara yüklenen RAM miktarı olan fiziksel belleğin son derece pahalı olduğu bir zamandan gelir. Sabit diskin fiziksel bellek görevi gören kısmına page file denir.

Bir bilgisayarın RAM’i bittiğinde, işletim sistemi (OS) diğer işlemler için RAM’i boşaltmak üzere bellek sayfalarını bilgisayarın sabit diskine taşır.

Bu, işletim sisteminin hafızasının asla bitmemesini ve çökmemesini sağlar. Bellek sayfalamaya çok fazla güvenilmesi performansı olumsuz etkileyebilir, çünkü rasgele erişim belleği disk belleğinden çok daha hızlı çalışır.

Bu, işletim sisteminin her sayfa değiştirildiğinde diskin yakalanmasını beklemesi gerektiği anlamına gelir; bir iş yükü swap dosyalarına ne kadar dayanırsa, performansı o kadar olumsuz etkiler.

Sanallaştırılmış bir ortamda, hypervisor fiziksel belleği yönetir. Bunun nedeni, guest işletim sisteminin sanallaştırma katmanının farkında olmamasıdır – ana donanımın tamamen kendisine ait olduğuna inanmaktadır. Sanal ortamda bellek sayfalamaya yönelik yaklaşımlar şunları içerir:

  • Smart Paging – yalnızca kullanılabilir bellek olmadığında ve hiçbiri geri alınamadığında sanal makinenin yeniden başlatılması sırasında kullanılır.
  • Hypervisor swapping- belirli bir miktarda bellek ıslahı için uzun vadeli sayfa değiştirme desteği sağlar. Hipervizörlerin genel olarak VM belleğine dair bir kavrayışı olmadığı için, bununla birlikte, değiştirilen verilerin rutin olarak geri alınması gerekebilir ve bu da performansı düşürebilir.
  • Memory ballooning- sanal makinenin konuk işletim sistemini (OS) hangi bellek sayfalarının daha az önemli olduğuna karar vermeye ve bunları diske değiştirmeye zorlar.

Disk IOPs

Toplama aralığı boyunca saniyede verilen ortalama komut sayısıdır.

Read IOPs: Toplama aralığı sırasında saniyede verilen ortalama okuma komutu sayısı.

Write IOPs: Toplama aralığı sırasında saniyede verilen ortalama yazma komutu sayısı.

Tüm metriklerin olduğu bir link de paylaşıyorum;

https://docs.vmware.com/en/vRealize-Operations-Manager/7.0/com.vmware.vcom.metrics.doc/GUID-1322F5A4-DA1D-481F-BBEA-99B228E96AF2.html

Teşekkürler:)

Leave a Reply

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir