Neden Tek Bir Model Yeterli Değildir?

Şirket içi yapay zeka çalıştıran kuruluşlar genellikle birden fazla model kullanır: karmaşık analizler için büyük bir akıl yürütme modeli, hızlı sınıflandırmalar için daha küçük bir model ve belki de alana özgü görevler için uzmanlaşmış bir model. Zorluk, modellere sahip olmak değildir — asıl zorluk, hangi isteğin hangi model tarafından karşılanması gerektiğine karar vermektir.

Yönlendirme katmanı olmadan ekipler genellikle her sorguyu en yetenekli (ve en maliyetli) modellerine gönderme eğilimindedir. Bu, basit görevlerde GPU döngülerini boşa harcar ve karmaşık istekler basit olanların arkasında kuyrukta beklerken darboğazlar oluşturur. Akıllı model yönlendirme, yapay zeka altyapınız için bir trafik kontrolörü görevi görerek bu sorunu çözer.

Model Yönlendirme Nedir?

Model yönlendirme, gelen bir isteği analiz ederek önceden belirlenmiş kriterlere göre en uygun modele yönlendirme pratiğidir. Bunu zeki bir yük dengeleyici olarak düşünün — trafiği eşit dağıtmakla kalmaz, her isteğin doğasını anlar ve onu en uygun modele eşleştirir.

İyi tasarlanmış bir yönlendirme sistemi birden fazla faktörü göz önünde bulundurur:

Sorgu karmaşıklığı: Basit bilgi aramaları hafif modellere gider; çok adımlı akıl yürütme gerektiren sorgular büyük modellere yönlendirilir.
Gecikme gereksinimleri: Gerçek zamanlı kullanıcıya dönük istekler hızlı modeller gerektirir; toplu işleme daha yavaş ama daha doğru modelleri tolere edebilir.
Çıkarım başına maliyet: Şirket içi ortamda GPU saatleri sınırlıdır. Basit sorguları küçük modellere yönlendirmek, gerçekten ihtiyaç duyan görevler için kapasite serbest bırakır.
Alan uzmanlığı: İnce ayarlanmış bir hukuk modeli, sözleşme analizinde genel amaçlı bir modelden üstün performans gösterir — genel model daha büyük olsa bile.

Yaygın Yönlendirme Mimarileri

Şirket içi model yönlendirmeyi uygulamak için üç temel yaklaşım vardır ve her birinin farklı avantaj ve dezavantajları bulunur:

Kural Tabanlı Yönlendirme

En basit yaklaşım el ile oluşturulmuş kurallar kullanır. Örneğin: bir sorgu 20 tokenden azsa küçük modele yönlendir; belirli bir alana referans veriyorsa ince ayarlı uzmana yönlendir. Kural tabanlı yönlendirme şeffaf ve öngörülebilirdir, ancak belirsiz sorgularda zorlanır ve sürekli manuel ayarlama gerektirir.

Sınıflandırıcı Tabanlı Yönlendirme

Hafif bir sınıflandırıcı model (genellikle küçük bir BERT varyantı veya hatta lojistik regresyon modeli) gelen sorguları analiz eder ve hangi arka uç modelin en iyi performansı göstereceğini tahmin eder. Bu yaklaşım minimal gecikme ekler — tipik olarak 10 milisaniyenin altında — ve statik kurallara göre önemli ölçüde daha iyi yönlendirme doğruluğu sağlar. Sınıflandırıcının kendisi, performans verisi topladıkça periyodik olarak yeniden eğitilebilir.

Kademeli (Yedek) Yönlendirme

Kademeli mimaride her sorgu önce en küçük ve en hızlı modele gider. Modelin güven puanı belirli bir eşiğin altına düşerse, sorgu bir sonraki büyük modele yükseltilir. Bu yaklaşım varsayılan olarak maliyet için optimize eder ve pahalı modelleri yalnızca gerektiğinde devreye sokar. Dezavantajı, birden fazla modelden geçmesi gereken karmaşık sorgular için eklenen gecikme süresidir.

Yönlendirme Katmanı Oluşturma: Temel Bileşenler

Hangi mimariyi seçerseniz seçin, şirket içi etkili bir yönlendirme katmanı şu bileşenleri gerektirir:

İstek analizörü: Gelen sorgudan özellikler çıkarır — uzunluk, algılanan dil, alan anahtar kelimeleri, aciliyet bayrakları — ve bunları yönlendirme karar motoruna iletir.
Karar motoru: Yönlendirme mantığını (kurallar, sınıflandırıcı veya kademeli) uygular ve hedef modeli seçer. Bu bileşen hızlı olmalıdır; 20ms'nin üzerinde herhangi bir şey fark edilir gecikme ekler.
Model kayıt defteri: Mevcut modeller hakkında meta verileri tutar — yetenekleri, mevcut yükü, ortalama gecikme süresi ve sağlık durumu. Yönlendirici, kararlar vermeden önce bu kayıt defterini sorgular.
Geri bildirim döngüsü: Yanıt kalitesi sinyallerini (kullanıcı değerlendirmeleri, aşağı akış görev başarısı, güven puanları) yakalar ve yönlendirme kararlarını zaman içinde iyileştirmek için geri besler.

Tipik bir uygulama, model sunum altyapınızın önünde bir ters proxy veya API ağ geçidi olarak konumlanır. LiteLLM, OpenRouter (kendi sunucunuzda barındırılan) veya özel FastAPI servisleri temel olarak kullanılabilir.

Yönlendirme Etkinliğini Ölçme

Yönlendirmenizin çalışıp çalışmadığını nasıl anlarsınız? Şu metrikleri izleyin:

Yönlendirme doğruluğu: Optimum modele gönderilen sorguların yüzdesi (yönlendirilmiş sonuçların en iyi modelin üreteceği sonuçlarla karşılaştırılmasıyla ölçülür).
Maliyet tasarrufu: Yönlendirme ile kullanılan toplam GPU saatlerini, her şeyi en büyük modelinize gönderme taban çizgisiyle karşılaştırın.
Gecikme dağılımı: P50, P95 ve P99 gecikme sürelerini izleyin. İyi yönlendirme, medyan gecikmeyi azaltırken kuyruk gecikmesini kabul edilebilir seviyede tutmalıdır.
Yedek oranı: Kademeli mimarilerde yüksek yedek oranı, küçük modelinizin yeterince eğitilmediğini veya güven eşiğinin çok agresif olduğunu gösterir.

Bu metrikleri gerçek zamanlı olarak görselleştiren bir gösterge paneli oluşturmanızı öneriyoruz. Bu, ekibinizin yönlendirme sapmasını erken fark etmesini ve kullanıcılar bozulmayı fark etmeden önce eşikleri ayarlamasını sağlar.

Başlarken

Şirket içinde birden fazla model çalıştırıyor ve her şeyi tek bir uç noktaya yönlendiriyorsanız, performans ve maliyet verimliliğini kaçırıyorsunuz demektir. Basit bir kural tabanlı yönlendirici ile başlayın, etkisini ölçün ve verileriniz büyüdükçe sınıflandırıcı tabanlı yönlendirmeye geçin.

Amaç en sofistike yönlendiriciyi inşa etmek değildir — amaç her sorguyu en iyi hizmet verecek modelle eşleştirmek ve pahalı donanımınızı gerçekten gerektiren işler için serbest bırakmaktır.

Altyapınıza özel bir model yönlendirme stratejisi tasarlamak için yardıma ihtiyacınız varsa, yapay zeka danışmanlık ekibimizle iletişime geçin.

Fotoğraf: Avi Waxman, Unsplash

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

Akıllı Model Yönlendirme: Şirket İçi Yapay Zekada Sorguları Doğru Modele Nasıl Yönlendirirsiniz?