Mohamed bin Zayed Yapay Zeka Üniversitesi (MBZUAI) ile işbirliği içinde bir G42 şirketi olan Inception, Arapça Büyük Dil Modellerinin (LLM’LER) değerlendirmesini yeniden tanımlamak için tasarlanmış bir çerçeve olan AraGen Leaderboard’un lansmanını duyurdu.
AraGen Liderlik Tablosu, modelleri altı temel boyutta değerlendiren dahili olarak geliştirilmiş bir metrik olan 3c3h’yi sunar: doğruluk, eksiksizlik, özlülük, yardımseverlik, dürüstlük ve zararsızlık. Yapay zeka modellerini karşılaştıran, olgusal doğruluğu kullanılabilirlikle dengeleyen ve Arapça Doğal dil işleme (NLP) için yeni bir standart belirleyen açık bir platform sunmayı hedefliyoruz. Kuruluşlar ve işletmeler içinde yapay zeka özellikli ürünlerin hızlandırılmış bir şekilde benimsenmesine geçerken, yapay zeka modellerinin kalitesini ölçmek ve kıyaslamak için ilgili ve amaca uygun bir yönteme sahip olmak giderek daha önemli hale geliyor. Bu ihtiyacı fark ettik ve çabaya katkıda bulunmak istedik.
“Jaı’lerin ve diğer yetersiz hizmet alan büyük dil modellerinin (llm’ler) geliştirilmesi üzerine inşa edilen MBZUAI ile uzun süredir devam eden ortaklığımız, her zaman yetersiz hizmet alan topluluklar için yapay zeka çözümleri oluşturmaya odaklanmıştır. Bu işbirliği, Arapça llm’leri değerlendirmek için çığır açan bir çerçeve olan AraGen Leaderboard’un oluşturulmasıyla genişledi ”dedi.
Jackkson, AraGen lider panosunun BAE ve ötesindeki yapay zeka ekosistemini güçlendirmeye yönelik bir başka adım olduğunu ve araştırmacıları, geliştiricileri ve kuruluşları bölgeyle kültürel ve dilsel olarak ilgili yapay zeka çözümleri oluşturmaları için güçlendirdiğini söyledi.
Bir röportajdan alıntılar
Aragen’in ele aldığı Arapça Büyük Dil Modellerini (llm’ler) değerlendirmedeki zorlukları detaylandırabilir misiniz?
Değerlendirme, iki ana yaklaşımla doğası gereği karmaşıktır: otomatik ölçütler ve tercihe dayalı ölçütler. Otomatik ölçütler verimli olsa da, genellikle gerçek dünyadaki çıktıları değerlendirmede başarısız olurlar ve kasıtlı veya kasıtsız olarak kolayca manipüle edilebilirler. Tercihe dayalı ölçütler ise, herhangi bir bilimsel sürecin önemli bir yönü olan tekrarlanabilirlik zorluklarıyla karşı karşıyadır ve ister kitle kaynaklı insanlara ister yapay zeka tercihlerine dayalı olsun, önyargılara eğilimlidir.
Arapça değerlendirme, dilin kendine özgü dilsel ve kültürel nüansları nedeniyle ek bir karmaşıklık katmanı sunar. Arapça LLM olan jaı’leri geliştirirken bu zorluklara maruz kaldık ve yapay zeka modellerini eğitirken Arapça ile ingilizce arasındaki doğal farklılıkları biliyoruz. Bu zorluklar, genellikle statik, ingilizce merkezli kullanım durumları için tasarlanan ve diğer diller için gereken temel özellikleri gözden kaçıran geleneksel değerlendirme ölçümlerinin sınırlamalarını artırmaktadır.
AraGen Liderlik Tablosu, kıyaslama sızıntısını önleyen, tekrarlanabilirliği sağlayan ve bütünsel bir metrik kümesini bütünleştiren sağlam bir çerçeve sunarak bu zorlukları ele alır. Arapça LLM geliştirmede inovasyonun sınırlarını zorlayarak hem temel bilgileri hem de pratik faydayı değerlendirir.
Aragen’in dinamik yapısı kıyaslama sızıntısını nasıl önler ve sonuçların tekrarlanabilirliğini nasıl sağlar?
Yapay zeka değerlendirmesinde şeffaflık, açıklık ve katkılarınızı korumak arasında bir denge kurmak önemli bir zorluktur. Kriterler genellikle kasıtlı olarak veya veri toplamanın bir sonucu olarak eğitim veri kümelerine girerler. Bu zorluklar, kıyaslama sonuçlarını önyargılı veya geçersiz kılar.
Bunu ele almak için model yetenekleriyle gelişen dinamik bir çerçeve uyguladık. Topluluk doğrulaması ve tekrarlanabilirlik için eski test setlerini yayınlayarak kıyaslama setini periyodik olarak güncelleyeceğiz. Bu yaklaşım, şeffaflığı teşvik ederken çerçevenin güvenilir kalmasını sağlar.
Dahası, aragen’in dinamik yapısı, kıyaslama korsanlığı veya kontaminasyonun neden olduğu model performans doygunluğu gibi sorunları azaltır. AraGen, gelişen ekosisteme uyum sağlayarak yalnızca modelleri etkili bir şekilde değerlendirmekle kalmaz, aynı zamanda geliştiricileri zaman içinde daha sağlam ve optimize edilmiş çözümler üretmeye teşvik eder. Adaleti korumaya ve yeniliği teşvik etmeye yönelik bu ikili odaklanma, aragen’in Arapça nlp’deki ilerleme için bir katalizör ve diğer diller ve görevler için potansiyel olarak diğer liderlik tabloları olmaya devam etmesini sağlar.
Bu çaba, Başlangıçtaki misyonumuz ve Sorumlu Yapay zekaya odaklanan G42 ile uyumludur. Kapsayıcılığı teşvik eden ve dil çeşitliliğini koruyan bu önemli konunun sorumlusu olmaktan gurur duyuyoruz.
Gelecekte Aragen’in az temsil edilen diğer dillere yaklaşımını genişletme planları var mı?
Yapay zekanın yalnızca küresel nüfusun belirli bir kesimine değil, tüm topluluklara hizmet etmesini sağlamaya kendimizi adadık. Bu taahhüt, kapsayıcılığı ve sorumlu yapay zeka gelişimini vurgulayan Grubumuzun “İstihbarat Ağı” yol haritasıyla uyumludur.
AraGen Arapçaya odaklanırken, temel çerçevesi çok yönlüdür ve diğer dillere veya görevlere uyarlanabilir. Çerçeveyi dilsel ve kültürel ihtiyaçlarına göre uyarlayarak farklı bölgelerden geliştiricilerle işbirliği yapmayı planlıyoruz. Bununla birlikte, bu tür çerçevelerin uygulanması önemli kaynaklar gerektirir, bu nedenle küresel olarak nadir kalırlar.
Sürdürülebilirliği ve anlamlı etkiyi sağlamak için, işbirliklerimizi, bu toplulukların dillerinin ekosistemini sürdürme ve destekleme konusundaki kanıtlanmış, uzun vadeli bir taahhüdü üzerine şartlandırıyoruz. Bu ortak özveri, kendi dilsel ve kültürel manzaralarının ihtiyaçları doğrultusunda gelişen sağlam, dinamik çerçeveler oluşturmak için gereklidir.
Çabalarımız, kendilerine özgü dil zorluklarını sorumlu bir şekilde ele alarak yetersiz hizmet alan toplulukları güçlendirmeyi amaçlamaktadır. AraGen, JAİS ve son Hintçe llm’miz olan “Nanda” nın başarısına dayanarak, çeşitli dilleri ve kültürleri destekleyen küresel, kapsayıcı bir AI ekosistemini geliştirmeyi öngörüyoruz.
AraGen Leaderboard’undan en çok yararlanacak potansiyel kullanım örnekleri veya sektör örneklerini paylaşabilir misiniz?
AraGen Leaderboard, belirli endüstrilere veya kullanım durumlarına bağlı olmayan çok yönlü bir değerlendirme çerçevesi olarak tasarlanmıştır. Geliştiricilere, uygulamalarının ihtiyaçları ve kaynakları ile uyumlu modeller seçmeleri için rehberlik eder. Örneğin, bir geliştirici dürüstlüğü özlülüğe göre önceliklendirirse, bu boyut için en iyi performans gösteren modeli belirleyebilir, halüsinasyonları en aza indirebilir ve çıktı güvenilirliğini artırabilir.
Ek olarak AraGen, model boyutu ve kesinlik gibi filtreler sağlayarak geliştiricilerin seçimlerini kaynak kısıtlamaları ve dağıtım hedefleriyle uyumlu hale getirmelerine yardımcı olur. Lider tablosunun göreve özgü öngörüleri, kuruluşların güvenlik veya konuşma amaçlı yapay zeka gibi hedef uygulamaları için optimize edilmiş modelleri tanımlamasına olanak tanır.
AraGen, değerlendirme çabalarını merkezileştirerek, bireysel kuruluşların kaynak yoğun değerlendirme süreçleri üstlenme ihtiyacını ortadan kaldırır. Bu, işbirliğini teşvik eder ve Arapça konuşulan dünya için etkili, kültürel olarak uyumlu yapay zeka çözümleri oluşturma konusundaki ilerlemeyi hızlandırır.