Yazı

Performanstan Ödün Vermeden Enerji Verimli Şirket İçi Yapay Zeka Sistemleri Tasarlamak

On-Premises AI · Energy Efficiency · Cost Management · AI Architecture · Best Practices

Donanım seçiminden çıkarım optimizasyonuna kadar, şirket içi yapay zeka dağıtımlarının enerji ayak izini azaltmak için pratik stratejiler.

Yeşil aydınlatma ve optimize edilmiş soğutma sistemleriyle modern enerji verimli sunucu odası

Şirket İçi Yapay Zekanın Gizli Maliyeti

Kuruluşlar şirket içi yapay zeka çalıştırmanın maliyetini hesaplarken genellikle donanım, yazılım lisansları ve personeli hesaba katarlar. Sıklıkla hafife alınan şey ise enerji tüketimidir — GPU'ları günün her saati çalıştırmak için gereken elektrik ve bunları çalışır durumda tutmak için gereken soğutma altyapısı.

NVIDIA H100 gibi tek bir üst düzey GPU, tam yük altında 700W'a kadar çekebilir. Sekiz adet bu tür GPU'ya sahip mütevazı bir şirket içi yapay zeka kümesi, yalnızca hesaplama için 5,6 kW'ın üzerinde tüketir — soğutma, ağ ve depolama hariç. Bir yıl boyunca bu, önemli operasyonel maliyetlere ve ciddi bir karbon ayak izine dönüşür.

İyi haber: anlamlı performans ödünleri vermeden enerji tüketimini önemli ölçüde azaltabilirsiniz. Bu, donanım, yazılım ve operasyonel pratikler genelinde bilinçli tasarım gerektirir.

Donanım Düzeyinde Verimlilik

Enerji verimliliği donanım seçimi ve yapılandırmasıyla başlar:

GPU Filonuzu Doğru Boyutlandırma

Her iş yükü en son amiral gemisi GPU'yu gerektirmez. Birçok çıkarım görevi, orta sınıf hızlandırıcılarda veya hatta optimize edilmiş CPU dağıtımlarında verimli şekilde çalışır:

  • Çıkarım için optimize edilmiş GPU'lar: NVIDIA L4 veya AMD Instinct MI210 gibi kartlar, eğitim odaklı GPU'ların güç çekiminin çok küçük bir kısmıyla güçlü çıkarım performansı sunar.

  • CPU çıkarımı: 7B parametrenin altındaki modeller için, optimize edilmiş CPU çıkarımı (AVX-512 ile llama.cpp gibi çerçeveler kullanarak) toplam sistem güç tasarruflarını hesaba kattığınızda şaşırtıcı derecede rekabetçi olabilir.

  • Karma filolar: Farklı GPU katmanlarının farklı iş yükü sınıflarını karşıladığı heterojen bir filo dağıtın. Basit görevleri düşük güçlü donanıma yönlendirin ve üst düzey GPU'ları zorlu iş yükleri için ayırın.

Güç Yönetimi ve Sınırlama

Modern GPU'lar yazılım kontrollü güç sınırlarını destekler. Bir GPU'nun güç sınırını maksimumunun %80'ine ayarlamak, performansı yalnızca %5-8 düşürürken enerji tüketimini genellikle %20 azaltır. Bu, mevcut en yüksek etkili ve en düşük eforlu optimizasyonlardan biridir:

  • NVIDIA GPU'larda güç sınırlarını ayarlamak için nvidia-smi -pl <watt> kullanın.

  • Belirli iş yükleriniz için güç-performans eğrisini izleyin ve optimum çalışma noktasını bulun.

  • Mevcut talebe göre sınırları ayarlayan dinamik güç sınırlama uygulayın — yoğun saatlerde tam güç, yoğun olmayan saatlerde düşük.

Model Düzeyinde Optimizasyonlar

Modelin kendisi genellikle enerji verimliliği için en büyük kaldıraçtır. Daha küçük, optimize edilmiş modeller çıkarım başına daha az enerji tüketirken genellikle kabul edilebilir kaliteyi korur:

Kuantalama

Kuantalama, model hassasiyetini 32-bit veya 16-bit kayan noktadan 8-bit tamsayılara (INT8) veya hatta 4-bit temsillere düşürür. Etkisi önemlidir:

  • Bellek azaltma: 7B parametreli bir model FP16'da ~14GB'dan 4-bit'te ~3,5GB'a düşer, daha ucuz donanımda dağıtıma olanak tanır.

  • Hız iyileştirme: Düşük hassasiyetli aritmetik daha hızlı çalışır, GPU'ların yük altında geçirdiği süreyi azaltır.

  • Kalite ödünü: Modern kuantalama teknikleri (GPTQ, AWQ, GGUF) çoğu görev için orijinal model kalitesinin %95-99'unu korur.

Model Damıtma

Belirli kullanım durumlarınız için daha büyük bir "öğretmen" modeli taklit edecek daha küçük bir "öğrenci" modeli eğitin. Alanınıza özel damıtılmış bir model, ilgili görevlerde öğretmenin performansını eşleyebilirken enerjinin çok küçük bir kısmını tüketir. Bu yaklaşım, kullanım durumlarınız iyi tanımlanmış ve sınırlı olduğunda özellikle iyi çalışır.

Spekülatif Kod Çözme

Aday tokenler üretmek için küçük bir taslak model kullanın, ardından bunları daha büyük modelle toplu olarak doğrulayın. Bu teknik, büyük model ileri geçişlerinin sayısını %40-60 oranında azaltabilir ve herhangi bir kalite kaybı olmadan doğrudan enerji tasarrufuna dönüşür.

Altyapı ve Zamanlama

Altyapınızı nasıl işlettiğiniz, hangi donanımı çalıştırdığınız kadar önemlidir:

İş Yükü Zamanlaması

Tüm yapay zeka iş yükleri zamana duyarlı değildir. Toplu işleme, model yeniden eğitimi ve değerlendirme işleri, elektrik tarifelerinin daha düşük olduğu (varsa) ve soğutmanın daha verimli olduğu (gece ortam sıcaklıkları) yoğun olmayan saatlerde zamanlanabilir:

  • Öncelik seviyeleriyle iş kuyrukları uygulayın. Gerçek zamanlı çıkarım anında GPU erişimi alır; toplu işler optimum zamanlama pencerelerini bekler.

  • Toplu işlerin etkileşimli iş yüklerini aç bırakmasını önlemek için Kubernetes kaynak kotalarını veya özel zamanlamayı kullanın.

Boşta Kaynak Yönetimi

Boştayken güç tüketen GPU'lar saf israftır. Agresif boşta yönetimi uygulayın:

  • Otomatik ölçek küçültme: İstek oranları eşiklerin altına düştüğünde model sunucu replikalarını kapatın.

  • GPU paylaşımı: NVIDIA MPS (Multi-Process Service) veya zaman dilimleme gibi çerçeveler kullanarak tek bir GPU'da birden fazla küçük model çalıştırın.

  • RAM'e askıya alma: Aralıklı iş yüklerini karşılayan GPU'lar için, GPU'yu tamamen çalışır durumda tutmak yerine askıya alınmış durumdan hızlıca devam edebilen çözümler düşünün.

Soğutma Optimizasyonu

Soğutma genellikle toplam veri merkezi enerji tüketiminin %30-40'ını oluşturur. Şirket içi tesisler bunu şu yollarla optimize edebilir:

  • Hava karışımını önlemek için sıcak/soğuk koridor muhafazası.

  • Ortam sıcaklıklarının izin verdiği durumlarda dış hava kullanarak serbest soğutma.

  • Yüksek yoğunluklu GPU rafları için sıvı soğutma — modern yapay zeka hızlandırıcıları için hava soğutmadan önemli ölçüde daha verimlidir.

Önemli Olanı Ölçmek

Ölçmediğinizi optimize edemezsiniz. Birden fazla seviyede enerji izleme uygulayın:

  • GPU başına güç çekimi: nvidia-smi veya DCGM (Data Center GPU Manager) aracılığıyla kullanılabilir. Bunu çıkarım metrikleriyle birlikte kaydedin.

  • Watt başına performans: Saniyede-token-başına-watt veya joule-başına-çıkarım hesaplayın. Bu, gerçek verimlilik metriğinizdir — hem hızı hem de enerji maliyetini yakalar.

  • Güç Kullanım Etkinliği (PUE): Toplam tesis gücünün BT ekipman gücüne oranı. 1,2 PUE, enerjinizin %20'sinin hesaplama dışı genel giderlere gittiği anlamına gelir. En iyi şirket içi tesisler 1,1-1,2 değerine ulaşır.

Bu metrikleri zaman içinde izleyen gösterge panelleri oluşturun. Enerji verimliliği tek seferlik bir başarı değildir — iş yükleri evrilip donanım eskidikçe sürekli dikkat gerektirir.

Verimliliğin İş Gerekçesi

Enerji verimli yapay zeka sadece çevresel sorumlulukla ilgili değildir — ki bu da önemlidir. Doğrudan bir finansal avantajdır:

  • Daha düşük işletme maliyetleri: Yapay zeka altyapınız genelinde %30'luk bir enerji tüketimi azalması, önemli yıllık tasarruflara dönüşür.

  • Uzatılmış donanım ömrü: Daha düşük sıcaklık ve güç seviyelerinde çalışan GPU'lar daha yavaş bozulur ve kullanım ömürlerini uzatır.

  • Artırılmış kapasite: Her model verimlilik için optimize edildiğinde aynı güç bütçesi daha fazla modeli ve daha yüksek verimi destekler.

  • Düzenleyici hazırlık: Veri merkezleri için enerji raporlama gereksinimleri küresel olarak genişlemektedir. Ölçüm yeteneklerini şimdi oluşturmak sizi gelecekteki zorunluluklara hazırlar.

Şirket içi yapay zekada liderlik edecek kuruluşlar, enerji verimliliğini sonradan düşünülen bir şey olarak değil, birinci sınıf bir tasarım kısıtlaması olarak ele alanlardır.

Yapay zeka altyapınızın enerji verimliliğini denetlemek konusunda yardım ister misiniz? Kurulumunuza özel optimizasyon stratejilerini görüşmek için danışmanlık ekibimizle iletişime geçin.

Fotoğraf: Sergej Karpow, Unsplash

SysArt AI

Bu YZ konusuna devam edin

Aynı karar alanını destekleyen ticari sayfalara ve konu arşivine geçmek için bu bağlantıları kullanın.