Hızır idi Yunus idi: A/B testi nasıl yapılmaz?

Hızır idi Yunus idi: A/B testi nasıl yapılmaz?

Bir e-ticaret siteniz var. SEO, reklam ve içerik pazarlama yöntemleriyle kabul edilebilir bir ziyaretçi hacmine ulaşmayı başardınız ve makul bir eforla bu seviyeyi koruyabiliyorsunuz. Ticaretin doğası gereği cironuzu artırmak istiyorsunuz ancak web sitenizin ziyaret volümünü artırmak için harcamanız gereken zaman ve paranın sağladığı marjinal fayda 0’a yaklaşmaya başladı. Bu durumda eforunuzu kanalize edebileceğiniz iki anlamlı hedef kaldığını farkettiniz: Dönüşüm oranı ve ortalama sepet değeri.

Aklınıza bazı fikirler geliyor. Konu üzerine ekibiniz ya da meslektaşlarınızla yaptığınız sohbet ve görüşmelerden de harika fikirler çıkıyor ancak uygulama konusunda çekimsersiniz, zira Dimyat’a pirince giderken evdeki bulgurdan olmak istemiyorsunuz. Bu senaryo tanıdık geldiyse, siz de A/B testi yöntemiyle dönüşüm optimizasyonu uygulamalarına başlamış olmalısınız. Eğer bu yöntem, performans göstergeleriniz üzerinde beklediğiniz etkiyi yaratmıyorsa, yaptığınız testler anlamlı sonuçlar vermiyorsa ya da test sonuçları gerçek göstergelere yansımıyorsa yazıyı okumaya devam edin, az sonra sıralayacağımız hatalardan en az birini yapıyor olabilirsiniz.

A/B testi, bilimsel yaklaşımın gözbebeği olan “deney”in, özellikle sosyal bilimlerde sıklıkla kullanılan bir çeşidi. Sonuçlarımızın anlamlı ve tutarlı olabilmesi için yaptığımız her A/B testinin birer deney olduğunu aklımızın bir köşesinde tutup, testlerin üretim ve uygulamasında gereken titizliği göstermek zorundayız. İzlediğimiz bindelik oranlardaki değişimi gözlemleyip anlamlandırabilmemiz ancak bu şekilde mümkün olabilir.

Yapmamız gereken, görünüşte son derece basit, ancak doğruları pratiğe dökmek her zaman göründüğü kadar basit olmuyor. Biz de bu konuyu musibet – nasihat denklemi çerçevesinde ele aldık ve sizlere A/B testi planlama ve uygulama aşamalarında en çok yapılan hatalardan güzel bir seçki hazırladık:

Sorun sende değil, bende.

Web sitenizin harika, sunduğunuz hizmetin de mükemmel olduğuna dair bir şüphe yok. Ancak, ziyaretçileriniz sizin sunduğunuz hizmetle ilgilenmiyor olabilir. Daha da kötüsü, pazarda sunduğunuz hizmetin talebi olmayabilir. Alfabenin tüm harfleri kadar varyasyon oluştursanız da (oluşturmayın, nedenine birazdan değineceğiz) hiçbirinin hedeflerinizin gerçekleşme oranını artırmadığını görebilirsiniz. Bu durumda, zamanınızı kampanya hedeflemelerinizi, bulunduğunuz pazarı ve iş modelinizi yeniden gözden geçirmeye ayırmak en doğru yatırım olacaktır.

Daha karpuz kesecektik?

Günümüz dünyasında, hız ve atiklik, bir şirketin sahip olabileceği en değerli özellikler olabilir. Faydası kanıtlanan fikirleri en kısa sürede uygulamaya alma refleksi de, hız ile ticari avantaj elde etme amacından ileri gelir. Test ettiğiniz bir varyasyon, daha ikinci gününde mevcut tasarımdan %10 daha iyi performans gösteriyor diye hemen uygulamaya alırsanız, birkaç hafta sonra durumun hiç de öyle olmadığını görebilirsiniz. Bu durumda, uyguladığınız yöntemin hatalı olduğu çıkarımına gidebilirsiniz ancak burada hatanın yöntemde değil, uygulama biçiminde olduğunu söylemeliyiz.

İstatistiksel bir testten aldığınız sonuçların geçerli kabul edilebilmesi için, örneklem boyutunuzun gözlemlenen oransal değişimin rastgele olmadığını (en az %95 ihtimalle) kanıtlayacak kadar büyük olması gerekir. Testinizi istatistiksel geçerliliğe ulaşmadan bitirmek, 4 kez yazı-tura atıp 3 kez tura gelince, tura gelme ihtimalinin %75 olduğunu kabul etmekle eşdeğerdir. Bir örnek daha vermek gerekirse; test ettiğiniz varyasyonun %2.5 olan dönüşüm oranınızı %20 artırdığını söyleyebilmek için, varyasyon başına en az 8217 oturum gözlemlemiş olmanız gerekir. Örnekleminiz bu ölçeğe ulaşmadan testinizin bir sonuç verdiğini kabul ederseniz, az önceki yazı-tura örneğindeki adamdan (istatistiksel olarak) farkınız kalmaz. Bu hataya düşmemek için buradaki örneklem boyutu hesaplama aracından faydalanabilirsiniz (hatta faydalanmalısınız). Örneklem boyutlarının varyasyon başına hesaplanıyor olmasından anlayacağınız üzere, eş zamanlı test ettiğiniz alternatif varyasyonların sayısı ne kadar fazlaysa toplam örneklem boyutunuz, yani teste tabi tutulan trafiğiniz, o kadar büyük olmalı. Eğer trafik volümünüz çok yüksek değilse, tüm muhtemel alternatiflerinizi eş zamanlı test etmek yerine planınızı 1 ya da 2 alternatif içeren ardışık test uygulamalarına göre yapmalısınız.

Salı sallanır.

Şaka şaka, sallanmaz. Peki ya sallanırsa? O zaman sonuçlarınızın bundan etkilenmemesi için, test sürecinizi mutlaka en az 7 günlük aralıklar halinde planlamalısınız. Ortalama dönüşüm oranınızın gün bazlı kırılımına baktığınızda (Google Analytics kullanıyorsanız hemen bakabilirsiniz) günden güne – en azından hafta içi/ hafta sonu – değişim gösterdiğini göreceksiniz. Bu değişimin test sonuçlarınıza yansımaması için, testinizde haftanın her gününün eşit sayıda temsil ediliyor olması gerekir. Aynı sebepten dolayı, trafiğinizi muhtemel varyasyonlarınıza eş zamanlı olarak göndermek yerine “iki hafta A’yı deneyelim, sonra B’ye geçelim” gibi ardışık şekilde planlamak da, sezonsal etkilerin test sonuçlarınıza yanıltıcı şekilde yansımasına sebep olabilir.

Rüyamda gördüm; çok para kazanıyorduk, buton maviydi.

Öyleyse hemen test edelim mi? Etmeyelim! Bilimsel yöntemi izleyeceğimizi hatırlayalım. Yapacağımız tüm testleri verilere dayanan birer hipotezle betimlemek zorundayız. Bir butonun rengi, ancak sezgisel analiz çerçevesinde, web sitesinin tasarımsal bağlamı içinde değerlendirilebilir. “Doğru renk” yoktur, “doğru görsel hiyerarşi” vardır. Ancak, sezgisel analiz ya da fokus grup testi ya da ziyaret gözlemleri sonucunda söz konusu butonda bir sorun olduğuna dair bir kanıt varsa, eldeki kanıta bağlı olarak, butonun rengi, boyutu, üzerindeki yazı, yazı tipi ya da onlarca muhtemel parametreden bir başkası teste tabi tutulabilir.

Ona da bakalım?

Elinizde  –  örneğin Optimizely gibi – pratik bir A/B testi aracı varsa, karar vermekte zorlandığınız her konuyu test etmek isteyebilirsiniz. Hatta ekibinizde, toplantılarda girilen tartışmaları “Tamam o zaman, hodri meydan! Test edelim, bakalım kim haklıymış?” şeklinde sonlandırma eğilimi baş gösterebilir.

Bunu yapmanızı, birkaç sebepten dolayı, asla önermiyoruz. Yukarıda da bahsettiğimiz gibi, test sonuçlarınızın anlamlı olabilmesi için, örneklem boyutunuzun yeterli olması gerekir. Yani trafiğinizin anlamsız bir teste yönleniyor olması, yapabileceğiniz anlamlı testlerin örneklem boyutundan feragat etmek anlamına gelir. Daha da kötüsü, örnekleminiz yaptığınız farklı bir testle kesişirse, iki testten de anlamlı bir sonuç alamazsınız. İki durumda da kendinize gereksiz bir fırsat maliyeti yaratmış olursunuz.

Testler işe yaramıyor.

Test, doğası gereği kendi başına çok işe yarar bir kavram değil. Test ettiğiniz varyasyonların dönüşüm oranınızı ikiye katlamıyor olması da son derece doğal. Hipotezleri kurgularken birincil olarak, performans göstergelerimizdeki artışları hedefliyoruz, ancak tamamlanmış olan testlerin sonuçlarını değerlendirirken, ziyaretçi kitleniz hakkında çok fazla şey öğrenmek mümkün. Test genelinde beklediğiniz performansı göstermemiş olan bir varyasyonunuz kullanıcı segmentlerinizin bazılarında, gözle görülür farklar yaratmış olabilir. Örneğin, alternatif varyasyonunuz yeni ziyaretçiler için işe yararken, mevcut tasarıma alışkın olan ziyaretçileriniz için aynı şeyi söylemek mümkün olmayabilir. Test sonuçlarınızı, edinim yolu, ziyaretçi tipi gibi boyutlar üzerinden ayrıştırarak ziyaretçileriniz ile ilgili çok değerli verilere ulaşabilirsiniz. Hatta edindiğiniz bilgileri, gelecek testlerin hedeflemesinde kullanarak ziyaretçi davranışlarınızla ilgili bilgilerinizi artırabilir ve farklı ziyaretçi segmentlerinin tepki verdikleri içerikleri saptayabilirsiniz. Bu sayede, optimizasyon çalışmalarınız sonucunda web sitenizin optimum performans göstermesi için mutlaka yapmanız gerekecek olan ziyaretçi bazlı özelleştirme uygulamalarında yol gösterecek değerli çıkarımlarda bulunabilirsiniz. Bu derin analizleri yapabilmek için de, tüm testlerinizi mutlaka kullandığınız analytics çözümü ile entegre olarak kurgulamanızı öneriyoruz.

Kullanıcı testleri mi yapmak istiyorsunuz? Bu A/B testi hesaplayıcıları size yardımcı olabilir.

Umuyoruz ki, bu küçük listede kendi uygulamalarınızda işinize yarayacak birkaç püf noktasından söz edebilmişizdir. Anlatılanlarla ilgili sorularınız ya da eklemek istedikleriniz olması halinde, hemen aşağıdaki yorum alanında görüşmek üzere…

Bugün ilk makalen bizdendi.

Daha fazlası için SHERPA Blog okuru olmalısın.
Giriş Yap Ücretsiz kaydol

Benzer Yazılar

Gizle