A/B Testi: Daha iyi bir kullanıcı deneyimine giden en pratik yol
Her test, ürünün gelişimi için bir öğrenim sunar ve ne kadar çok test yapılırsa kullanıcı deneyimi açısından mükemmeliyete o kadar yaklaşılır. A/B testi de bu mükemmeliyete giden en pratik yollardan biridir. Peki test öncesi, esnası ve sonrasında nelere dikkat etmeli, nasıl bir yol izlenmeli?
Her ne kadar ürün geliştirme kararları için var olan kullanıcı deneyimi (UX) metrikleri incelenerek analizler yapılsa da, bu rasyonel veriyi araştırmalarla desteklemek “ne” sorusunun yanında “neden?” sorusuna da cevap bulmayı kolaylaştıracaktır. Bunun için önemli metotlardan biri A/B testleridir.
A/B testi nedir?
Bir ürüne ya da ürünün bir özelliğine ait iki farklı versiyondan (A ve B) hangisinin daha iyi performans göstereceğine dair yapılan testlere A/B testi adı verilir. A versiyonu genel olarak ürünün mevcut halini, B versiyonu ise yeni geliştirilen halini temsil eder. A/B testlerini oluşturmak için başarıyı tanımlayan bir metriğe ve testlerin sağlıklı sonuç verebilmesi için versiyonların aynı anda yayında olmasına ihtiyaç duyulur. Başarının tam olarak hangi farklı özellik sayesinde geldiğini gözlemleyebilmek için her seferinde versiyonların yalnızca bir özellik ile ayrışması önemlidir. Versiyonlar arasında birden fazla farklılık olduğunda, hangi farklılıktan ötürü testin başarılı olduğunu söylemek mümkün olmayacaktır.
Bir ürün ya da özellik için iki farklı versiyon yaratabilmek için ise hipotez yazmak gerekir. Temelde A/B testi, yazılan hipotezin belirli ürün kullanım metrikleri bağlamında sağlamasının yapılması ya da reddedilmesi yoluyla; ürün geliştirme kararı alınmasını ya da bu karardan vazgeçilmesini sağlar. Başarılı olan versiyonun test aracından çıkarılıp tüm ziyaretçilerin görebileceği şekilde yayına alınmasıyla test süreci son bulur ve ürün geliştirme kararı uygulanmış olur.
Hipotez nasıl geliştirilir?
Hipotez geliştirme sayesinde, ürün geliştirme ekipleri daha odaklı hareket edebilir. Çünkü bir fikir, hipotez olarak ifade edildiğinde, ayakları daha fazla yere basar hale gelir; söz konusu hipotezin neleri değiştirerek sağlaması yapılacağı netleştirildiğinde ve hangi metrikler yoluyla ölçümlenmesi gerektiği ortaya koyulduğunda o hipotez için ortaya atılan fikir, “hayal” ya da “keyfi istek” olmaktan çıkar, rasyonalize olur. Birden fazla hipotezin bir arada, bu metotla listelendiği ve değerlendirildiği dokümana ise hipotez havuzu adı verilir.
Bu içerik ücretsiz!
Okumaya devam etmek ve SHERPA Blog okuru olmak için aşağıdakilerden birini seç. Her hafta yenileri eklenen yüzlerce içeriğe ücretsiz ve sınırsız eriş.
Yukarıdaki örnekte de görülen hipotez havuzu şablonuna göre, öncelikle fikri hipotez formülasyonu ile ifade etmek gerekir. Bir örnek üzerinden ilerlemek gerekirse; “Bence kayıt formunu değiştirmeliyiz.” diyen bir kişiye “Neden?” diye sorulduğunda “Çünkü kayıt formunu değiştirirsek daha çok üye başvurusu alabiliriz” cevabı alabiliriz. Bununla birlikte, “Nasıl değiştirelim?” sorusuna “Formu kısaltalım” cevabının alındığı varsayılırsa bu fikrin bir hipotez olarak doğru ifade ediliş şekli “Kayıt formundaki giriş alanlarından bazıları azaltılarak form kısaltılırsa daha fazla üye başvurusu alınacaktır.” olmalıdır. Burada bir diğer varsayım, üye sayısındaki artışın ana başarı kriterlerinden ve dolayısıyla takip edilmesi gereken kilit metriklerden biri olduğudur. Sonunda ortaya çıkan hipotez cümlesi, sübjektif bir fikrin sağlamasını yapmaya yarayacak rasyonel bir formüle bürünmektedir.
Şablondaki diğer önemli kolonlardan biri, bu hipotezin kategorisinin belirlendiği kolondur. Dave McClure tarafından geliştirilen ve telaffuz edilirken çıkarılan seslerden ötürü “Korsan Metrikleri” olarak da isimlendirilen AARRR! metrikleri, hipotezleri kategorize etmeye yarar. Açılımı, Acquisition (Edinme) – Activation (Etkileşim) – Retention (Bağlılık) – Referral (Tavsiye) – Revenue (Gelir) olan bu şablona göre hipotezleri kategorilendirmek, tüm hipotez havuzu oluştuğunda pazarlama departmanının ana hedeflerine hitap eden homojen dağılımlı bir listeye sahip olmaktır.
Bir hipotezin test edilebilir olabilmesi için takip edilmesi gereken metriğin de belirlenmesi gerekir. Yukarıdaki kayıt formu örneği üzerinden devam edildiğinde, formu başarıyla tamamlayıp üye olanların sayısının, form sayfasının tekil ziyaret sayısına bölünmesiyle bulunacak form dönüşüm oranı takip edilmesi gereken ana metrik olmalıdır. Fakat bu metriği takip edebilmek için mevcut durumdaki baz değerine bakılmalı ve yapılacak değişimden sonra ne kadarlık bir artış beklendiği de not edilmelidir.
Teste başlamadan önce, bu testin gerçekleştirilmesi öncesinde, sırasında ve sonrasında harcanacak eforun ve kaynağın göz önünde bulundurulması; testin gerçekleşme ihtimaline dair öngörüde bulunulması ve bunun listelenen tüm hipotezler için yapılması sayesinde, hipotezler arasında karşılaştırma ve önceliklendirme yapmak mümkün olur. Bu çalışmayı yapmaktaki ana amaç, ürünün temel başarı kriterlerini destekleyen, kolay uygulanabilir ve yüksek performans artışı yakalanabilecek hipotezlere odaklanmaktır.
A/B testi sürecinin adımları nelerdir?
Hipotezlerin listelendiği hipotez havuzu dokümanı doldurulduktan sonra sırasıyla aşağıdaki adımlar izlenerek A/B testleri gerçekleştirilir (McCloskey, 2015):
Ürünün ya da ürünün bir özelliğinin, hipotezi karşılayan versiyonunu geliştirmek
Kullanıcıları rastgele iki gruba bölmek
Her bir gruba aynı anda farklı versiyonu göstermek
Kullanıcıların davranışlarını takip etmek
Versiyonların performanslarını değerlendirmek
Kazanan versiyonu seçmek ve tüm kullanıcılara gösterecek şekilde yayına almak
İhtiyaç halinde testi tekrar etmek
Testlerin ne kadar süreyle yayında tutulacağı web sitesinin trafiğiyle de ilgilidir ancak genelde testlerin çok uzun süre yayında olmaması, ortalama iki haftalık bir süre ile gerçekleştirilmesi önerilir. A/B test süresi sona erdiğinde, istatistiksel anlamlılığın sağlanıp sağlanmadığına bakılarak testler analiz edilir.
A/B testleri nasıl değerlendirilir?
Pek çok test aracı A/B testlerin sonucunda iki dönüşüm oranı verir; biri kontrol grubu için, diğeri de varyasyonu gören kullanıcılar içindir. Dönüşüm oranı, tıklamaları ya da kullanıcılar tarafından alınan diğer aksiyonlar ölçebilir.
Raporda görülmesi muhtemel “Kontrol grubu %15 (+/- %2,1), Varyasyon grubu %18 (+/%-2,3).” sonucunun anlamı, %2,1’lik bir hata payıyla kullanıcıların %18’inin yeni varyasyonu tercih ettiğidir. Burada dönüşüm oranının, %15,7 ile %20,3 arasında olduğunu düşünmek çok doğru değildir; bundan emin olabilmek için aynı testi birden fazla kez tekrarlamak gereklidir çünkü test en başından %5’lik bir istatistiki hata payıyla kurgulanmıştır.
Bu noktada, Kolombiya Üniversitesi, Uygulamalı Analiz bölümü kurucusu Kaiser Fung, %18’lik dönüşüm oranı garanti olmadığını ve bu kısımda testi gerçekleştiren kişilerin sağduyusunun devreye girdiğini belirtmektedir. Ancak %18’lik bir dönüşüm oranı, tüm hata payları dikkate alındığında dahi iyi bir orandır; bu durumda varyasyondaki tasarımı yayına almak iyi bir karar olabilir. Bu kararı alırken elbette yeni tasarımı uygulamanın yarattığı işgücü maliyetini de değerlendirmek gerekir (Gallo, 2017). Bu yüzden hipotez havuzu dokümanları oluşturarak testleri uygulamaya almadan önce bu kararları vermek, zamandan tasarruf sağlayacak ve hiç uygulanmayacak bir test için efor harcanmasının önüne geçecektir.
A/B testi ipuçları
Bugün Microsoft, Amazon, Booking.com, Facebook ve Google da dahil olmak üzere önde gelen pek çok şirket, her biri milyonlarca kullanıcının ilgisini çeken birçok test ile her yıl 10.000’i aşkın online kontrollü deney gerçekleştiriyor. Walmart, Hertz ve Singapore Havayolları gibi dijital kökenli olmayan şirketler de daha küçük ölçekte bile olsa düzenli olarak A/B testleri yürütüyor. Örneğin: Bing, her ay onlarca kez yaptığı gelirle alakalı değişiklikleri (arama başına geliri her yıl %10 ila %25 arttırması beklenen değişiklikleri) belirlemek için A/B testlerinden yararlanıyor (Kohavi, Thomke, 2017).
İşte bu gibi şirketlerin gerçekleştirdiği testlerle birlikte çok daha fazla örnekten yola çıkarak ortaya çıkan birkaç A/B testi ipucu:
A/B testi yaparken belki de en önemli kural, test edilecek özelliklerin aynı anda, simultane bir biçimde test edilmesidir. Örneğin, eğer bir versiyon bir hafta, diğer versiyon ise ondan sonraki hafta test edilirse, farklı zaman aralıklarında farklı değişkenler de işin içine gireceği için testin güvenirliği zedelenir; gerçek kazanan versiyon hiçbir zaman bilinemez.
A/B testlerinin sonuçları için karara çok erken varılmamalıdır. İstatistiki anlamlılık adı verilen konsepte göre test sonuçlarının geçerli olup olmadığı hakkında fikir sahibi olunabilmektedir. Bu oran genelde %80 ve üstüdür ancak genel kabul standardı %95’tir. Sonuçları yorumlamadan önce testin ne kadar süre ile yayında kalıp ne kadarlık bir ziyaret sonucunda anlamlı hale geleceğini öğrenmek için mutlaka bir hesaplayıcı kullanmak gereklidir. Testin sonunda eğer sadece birkaç dönüşüm ya da ziyaret görünüyorsa sonuçlar, gerçekçi olmayacak çok yüksek oranlara sahip olacağı için testin geçerli bir sonucu olmayacaktır.
Eğer çok majör bir konuda değişiklik test edilmek isteniyorsa mevcut kullanıcılardan ziyade yeni kullanıcıların hedeflenmesi daha doğru bir yaklaşımdır. Böylece, testin başarısız olma ihtimali göz önünde bulundurularak, uygulanmayacak bir değişikliği mevcut kullanıcılara gösterip onları mutsuz etmenin önüne geçilmiş olunur.
A/B testinin tüm web sitesinde tutarlı olması oldukça önemlidir. Örneğin, “Kayıt Ol” butonu test ediliyorsa ve bu buton birden fazla sayfada yer alıyorsa, bir kullanıcının her sayfada farklı bir buton örneği ile karşılaşması kullanıcı deneyimini olumsuz etkileyecektir.
A/B testlerinin üç sonucu vardır; hiç sonuç alamamak (istatistiki anlamlılık sebebiyle), negatif sonuç ya da pozitif sonuç. Yapılan her testte her zaman olumlu sonuçla karşılaşmak çok düşük bir ihtimaldir. Bu nedenle önemli olan yapılan testlerin sonuçlarından ders çıkararak yeni testleri uygulamaya koymaya devam etmektir. Ne kadar çok test gerçekleştirilirse, sonuçları küçük değişimler bile getirse kümülatif olarak bakıldığında en optimum ürüne ulaşılacaktır (Chopra, 2010).
Testlerin süreleri her ne kadar web sitesinin trafiğine göre değişkenlik gösterse de, minimum olan süre bir haftadır. Bunun sebebi ise haftanın farklı günlerinde kullanıcı davranışlarının değişkenlik gösterebilmesidir. Bu nedenle, testler en az bir hafta süre ile yayında kalmalıdır.
Benzer şekilde özel günleri hesaba katmadan sonuçları yorumlamak da yanlıştır. Örneğin, hediyelik ürünler satan bir e-ticaret sitesi yılbaşı öncesinde aldığı dönüşümleri, o sırada yayında olan testin başarısı olarak düşünmemek gereklidir.
Her fikrin test edilmesi her ne kadar çekici gelse de A/B testleri bilimsel yöntemle yapılmalıdır. Yapılacak tüm testlerin verilere dayanan birer hipotezle betimlenmesi için, hipotez havuzunun oluşturulması gerekmektedir. Bir butonun rengi, ancak sezgisel analiz çerçevesinde ve web sitesinin tasarımsal bağlamı içinde değerlendirilmelidir. “Doğru renk” değil, “doğru görsel hiyerarşi” amaçlanmalıdır. Ancak, sezgisel analiz ya da kullanıcı testi ya da kullanıcı gözlemleri sonucunda söz konusu butonda bir problem olduğuna dair bir kanıt var ise, eldeki kanıta bağlı olarak, butonun rengi, boyutu, üzerindeki yazı, yazı tipi ya da onlarca muhtemel parametreden bir başkası teste tabi tutulabilir (Gökalp, 2015, SHERPA Blog).
A/B testlerinin gerçekleştirilebilmesi için mutlaka çok büyük değişikliklerin uygulanması gerekmemektedir. Rengin tonundaki değişiklik gibi küçük sayılabilecek değişikliklerin sürpriz sonuçları olabilmektedir. Arama motoru Bing, başlıklarda biraz daha koyu mavi ve yeşil tonları, açıklamalarda ise biraz daha açık tonda siyah renkler test etmiş ve başarılı olmuştur (Şekil 2). Yayına alınan bu değişikliklerle birlikte yıllık 10 milyonun üzerinde gelir artışı elde edilmiştir (Kohavi, Thomke, 2017).
Hadi başlayalım!
A/B testleri, ürün geliştirme kararları alabilmek için rasyonel bir zemin sunar. Ürün üzerinde yapılan küçük değişiklikler ana hedefleri destekleyen metriklerde gözle görünür fark yaratabilir. Fakat her şeyden önce ölçümleme altyapısının doğru çalışması, kullanıcı verilerinin düzenli analiz edilmesi ve hipotezleştirilen fikirlerin hangi metriklerde iyileştirme beklendiği bilgisiyle birlikte teste alınması gereklidir.
Testler olumlu ya da olumsuz sonuç verebilir ve hatta istatistiki anlamlılığın yeterli olmadığı durumlarda hiç sonuç vermeyebilir. Bu durumun ürün geliştirme ekiplerinin motivasyonlarını düşürmemesi gereklidir çünkü her test, ürünün gelişimi için bir öğrenim sunar ve ne kadar çok test yapılırsa ürün kullanıcı deneyimi açısından mükemmeliyete o kadar yaklaşır. Testlerin sonuçları analiz edilirken ilk bakışta olumlu görünen her testin olumlu olmayabileceği; olumsuz görünen testin ise daha detaylı analiz edilerek birkaç küçük düzeltmeyle olumlu sonuca ulaşabileceği gözden kaçırılmamalıdır.
Bu makale, yazarın “Ürün Geliştirme Kararlarında Kullanıcı Deneyiminin Önemi Üzerine Bir Uygulama” isimli yüksek lisans tezinden yararlanılarak hazırlanmıştır.