AB TESTING - CÁCH KIỂM TRA ĐỘ CHÍNH XÁC

Khởi Nghiệp · 27/8/17

Chào mọi người, mình là Đỗ Khang

Thành thật xin lỗi vì mình đã trễ hẹn đăng phần 2 của series AB Testing, đợt này mình dính nhiều deadline đầu tháng với event 2/9 sắp tới quá.

Các bạn click xem lại các bài trước ở link sau nhé:

Tối Ưu Tệp Khách Hàng

Phần 1 - Giới thiệu A/B Testing

Warning: Các bạn kiên nhẫn test liên tục đủ ít nhất 50 lần, có lẽ sẽ mất vài tháng đến vài năm nhưng sẽ đáng công. Còn tùy trường hợp nhưng nếu giả sử sau mỗi lần test thành công chất lượng Ad và doanh thu của bạn được cải thiện 2% từ 100 triệu lên 102 triệu, thì sau 99 lần sẽ thế nào? 99 x 2 = 198?
Kết quả chính xác là 1.02^99x100 = 710 triệu (gấp 7 lần)
Tất nhiên đó là lí thuyết còn thực tế càng về sau càng khó cải thiện chất lượng Ad hơn. Nhưng thôi chúng ta cứ hi vọng =)))))

Bài lần này dài + nhiều chỗ hơi khó giải thích vì không có hình ảnh nên chỗ nào chưa rõ thì bạn comment bên dưới để mình giải thích lại. Mình có đăng bài dạng note ở facebook cá nhân (bit.ly/2w4pwLX) có kèm theo hình ảnh bạn nào đọc ở đây không rõ thì click vào xem thử.

Nếu bạn thấy nội dung hữu ích thì tương tác like/comment để ủng hộ mình nhé.

---
---

BƯỚC 1: XÁC ĐỊNH 2 PHIÊN BẢN CHO MỖI YẾU TỐ CẦN TEST

AB Testing có nhiều biến thể tùy theo mục đích của người dùng. Ở series này chúng ta sẽ dùng MUTUALLY EXCLUSIVE AB TESTING.
Tức chúng ta sẽ test cùng lúc 2 hoặc 3 yếu tố để tiết kiệm thời gian và ngân sách. VD:
- Age: 20-29 vs 30-39
- Interest: Exclude Zara vs Include Zara
- Device: Android vs iOS

Mình thường bắt đầu bằng Include A vs Exclude A vì như vậy đảm bảo 2 tệp test không bị trùng lặp khách hàng
Sau đó giả sử Include A là winner thì tiếp tục test tệp (Include A, must also Include B) vs (Include A, exclude B)

Bạn cũng có thể chọn test trực tiếp A vs B, chỉ cần bạn chắc chắn A là tốt không cần test Include vs Exclude, ngoài ra thì A với B không quá trùng lặp.

Nếu bạn mới bắt đầu dùng Facebook Ad và có nhiều thời gian thì mình đề nghị test tất cả khả năng vì nhiều lúc thực tế không như mình nghĩ. VD: Lúc mình lần đầu set campaign cho shop thời trang nữ (giá đắt ngang Zara), khảo sát bằng giấy tại shop thì nhiều khách hàng đánh giá đồ Zara cao nhất trong list các thương hiệu và đã từng mua bên đó. Nhưng khi tạo campaign mình vẫn quyết định test thử Include Zara vs Exclude Zara, kết quả là nhóm Exclude Zara lại có doanh thu cao hơn đến 30%. Mình test lại lần 2 và lần 3 kết quả vẫn như vậy nên đến nay mình vẫn áp dụng Exclude Zara (tất nhiên cần kiểm tra lại mỗi 4-6 tháng)

LƯU Ý:

- Với Mutually Exclusive AB Testing, Audience của mỗi nhóm test sẽ tách biệt hoàn toàn với các nhóm còn lại, không có trùng lặp giữa các nhóm vì vậy size của Audience mỗi nhóm phải đủ lớn. VD không nên test Interest Yoga cùng lúc với Meditation vì chắc chắn sẽ có hơn 80-90% khách hàng trùng lặp, lượng khách còn lại rất nhỏ.
- Nếu bạn test các yếu tố liên quan đến Interest thì nhớ bỏ chọn ô Expand interest when it may increase conversion... để tránh nhiễu thông tin. Và nếu test nhiều hơn 1 interest cùng lúc thì nhớ dùng Must Also để không bị trùng khách nhé.
- Vậy trường hợp chúng ta cần test nhưng biết trước sẽ bị trùng lặp khách hàng thì sao? VD như test Platform Desktop vs Mobile (Khách có thể thấy Ad ở Laptop sau đó lại thấy lần 2 ở điện thoại)
➡Chúng ta sẽ loại bỏ các khách hàng đã tương tác với Ad trong vòng X ngày. Xem ảnh dưới:

Các bạn vào Audience ➡ Create Audience ➡ Custom Audience ➡Engagement ➡ Facebook Page ➡ People who engaged with any Post or Advert ➡ điền số ngày bạn muốn vào.

- Thiết lập mỗi nhóm test là 1 Ad Set riêng để đảm bảo tất cả đều chạy ngân sách bằng nhau trong cùng 1 khoảng thời gian. Nếu bạn set 2 nhóm test vào cùng 1 Ad Set thì Facebook sẽ ưu tiên dồn ngân sách vào nhóm test có kết quả tốt hơn vào lúc ban đầu (dù có thể nhóm đó là loser).

---
---

BƯỚC 2: PHÂN BỔ NGÂN SÁCH

Cách 1: Trích 1 phần ngân sách (30-50%) để test sau đó chọn phiên bản tốt hơn để chạy nốt phần ngân sách còn lại. Qua chu kỳ ngân sách mới lại tiếp tục như thế.
Lưu ý là ngân sách test đủ lớn để có kết quả chính xác trong thời gian không quá dài nhé. Còn làm thế nào để kiểm tra độ chính xác của kết quả thì mình sẽ hướng dẫn bên dưới.

Cách 2 : Sử dụng toàn bộ ngân sách để test liên tục không nghỉ (hiện mình làm cách này)
VD: Sau lần đầu test có kết quả Include A là winner, tiếp tục test 2 phiên bản khác dựa trên kết quả lần 1 vd như (Include A, Include B) vs (Include A, Exclude B)
Quan điểm của mình là không có phiên bản nào hoàn hảo, luôn luôn có thể cải thiện thêm vì thị trường luôn thay đổi trong khi ngân sách có giới hạn nên mình phải tận dụng toàn bộ ngân sách để test liên tục.
Về đấu thầu thì các bạn chọn Manual hay Auto đều được nhưng nhớ đảm bảo tất cả phiên bản đều có ngân sách bằng nhau nhé.

---
---

BƯỚC 3: FILE DỮ LIỆU

Mình gửi các bạn 1 file quản lý mẫu dùng Google Spreadsheet, toàn bộ chỉ dùng +-x/ và IF thôi, rất đơn giản ai cũng có thể dùng. Các bạn download về theo định dạng .xlsx để dùng hoặc copy ra Sheet mới để dùng nhé.
Link file Google Spreadsheet : bit.ly/2w3WFXP

Mình sẽ giải thích sơ nhưng chỗ nào chưa rõ thì bạn comment bên dưới nhé:

CỘT A : Mã test – dùng để đặt tên cho dễ quản lý và search nhanh Ad Set trong Adverts Manager. Mình điền sẵn từ số 001-099, các bạn kiên nhẫn test đủ ít nhất 50 lần thì chắc chắn sẽ có cải thiện.

CỘT B & C : Ngày bắt đầu và ngày kết thúc test, cột B bạn điền trước khi bắt đầu chạy test, cột C thì có thể điền sau khi có kết quả cũng được vì nhiều trường hợp phải chạy test lâu hơn dự tính

CỘT D : Điền yếu tố mà bạn muốn test vào. Sau 1 thời gian chúng ta có thể lọc nhanh yếu tố để biết đã từng test những phiên bản nào

CỘT E & F : Điền 2 phiên bản của yếu tố mà bạn muốn test vào

CỘT G : Điền tên phiên bản thắng vào, nếu không có phiên bản thắng thì điền 0

CỘT H : Điền kết quả Significance Test, mình sẽ hướng dẫn bên dưới. Kết quả càng cao thì càng chính xác, nhưng cũng tốn thời gian và ngân sách hơn, nên tốt nhất bạn chỉ cần canh >90% là được.

CỘT I : Ghi chú vì có những lúc AB Test không cho ra kết quả rõ ràng hoặc cần test thêm

CỘT J đến N : Đây là các cột mà các bạn dùng điền công thức vào để check nhanh các KPI quan trọng. Mình đã điền sẵn vài công thức mẫu rất đơn giản, các bạn thay đổi lại hoặc thêm cột cho phù hợp với mục đích nhé. Hoặc nếu không cần thì các bạn bỏ trống cũng được.

CỘT O-S tương tự CỘT T-X : Dùng để điền các thông số cơ bản để tính KPI. Các dữ liệu này lấy từ Adverts Manager

CỘT Y : Dùng để check nhanh thông số điền đã đúng chưa, vì chúng ta đang dùng Mutually Exclusive AB Testing nên tổng thông số của 2 phiên bản của các yếu tố test (trong cùng 1 lần test) sẽ bằng nhau: 1A + 1B = 2A +2B = 3A + 3B… Nếu lệch thì chắc chắn có chỗ điền sai.

LƯU Ý:
- Hãy chọn 1 phiên bản mà bạn cho rằng sẽ chiến thắng và đặt nó bên NHÓM B để sau này kiểm tra lại dự đoán của bạn đúng được bao nhiêu lần nhé. Có thể bạn sẽ bất ngờ đấy.
- Các cột trên chỉ là mẫu thôi, các bạn thêm bớt hoặc đổi tên cột, công thức lại cho phù hợp

---
---

BƯỚC 4 : TẠO AD & ĐẶT TÊN

LƯU Ý:
• Bên dưới là cách mình đặt tên cho dễ quản lý và search kết quả lúc chạy nhiều campaign thôi. Bạn nào có cách khác tiện hơn thì cứ dùng nhé không ảnh hưởng gì.
• Nếu bạn test các yếu tố liên quan đến Ad (tiêu đề, hình ảnh, …) thì mỗi Ad Set chỉ nên tạo 1 Ad thôi nhé để tất cả Ad đều chạy ngân sách bằng nhau, vì như nãy mình nói Facebook sẽ ưu tiên Ad chạy tốt lúc ban đầu dù có thể mẫu Ad đó là Loser.
• Nếu bạn test 1 yếu tố thì sẽ cần tạo 2 Ad Set, test 2 yếu tố thì cần tạo 4 Ad Set, test 3 thì cần tạo 8 Ad Set, test 4 thì cần 16 Ad Set. Cứ số mũ lên như thế, nhưng nếu ngân sách hàng tháng không lớn hơn 100 triệu thì mình nghĩ 3 yếu tố là đủ rồi.

Quay lại VD 3 yếu tố ban nãy

• Nhóm 1A tuổi 20-29 vs nhóm 1B tuổi 30-39
• Nhóm 2A Exclude Zara vs nhóm 2B Include Zara
• Nhóm 3A Device Android vs Nhóm 3B dùng iOS

- Đầu tiên chúng ta tạo 1 Ad Set với tên 001A – 002A – 003A và Ad hoàn chỉnh
- Chỉnh thông số tương ứng: Tuổi 20-29 – Exclude Zara – Device Android
- Duplicate Ad Set đó (bao gồm cả Ad)
- Chỉnh lại độ tuổi thành 30-39 và đổi tên Ad thành 001B – 002A – 003A
- Duplicate cùng lúc cả 2 Ad Set vừa tạo
- Chọn 2 Ad Set mới và sửa (cùng lúc) phần Interest thành Include Zara
- Sửa tên 2 Ad Set đó lại cho đúng: 001A – 002B – 003A và 001B – 002B – 003A
- Tiếp tục Duplicate cả 4 Ad Set vừa tạo
- Chọn 4 Ad Set mới và sửa (cùng lúc) phần Device thành iOS
- Sửa tên 4 Ad Set lại cho đúng: 001A – 002A – 003B, 001B – 002A – 003B, 001A – 002B – 003B, 001B – 002B – 003B

Như vậy chúng ta sẽ có tổng cộng 8 Ad Set khác nhau, các bạn chia đều ngân sách vào 8 Ad Set (các bạn có thể thêm ghi chú đằng sau mỗi tên để dễ hiểu hơn):
001A – 002A – 003A
001B – 002A – 003A
001A – 002B – 003A
001B – 002B – 003A
001A – 002A – 003B
001B – 002A – 003B
001A – 002B – 003B
001B – 002B – 003B

TIẾN HÀNH TEST VÀ CHỜ KẾT QUẢ THÔI !!!

---
---

BƯỚC 5: SIGNIFICANCE TEST

Như mình đã nói ở phần trước, độ chính xác của AB Testing bị ảnh hưởng mạnh khi quy mô test quá nhỏ (Thời gian, ngân sách, lượng người truy cập, v.v), đây là lí do lớn nhất khiến nhiều bạn sử dụng AB Testing thời gian dài nhưng kết quả vẫn không được cải thiện.
Chúng ta cần 1 công cụ xác nhận lại độ chính xác của kết quả. Công cụ mà mình chọn là SIGNIFICANCE TEST, rất dễ sử dụng:

- Sau khi đã có kết quả đủ lớn, chúng ta điền dữ liệu vào file
- Cách lấy dữ liệu rất đơn giản vì chúng ta đã đặt sẵn tên ở bước 4 rồi. Các bạn vào Adverts Manager  Search (góc trên bên phải)  Advert Set Name  Contains  Nhập 001A hoặc 001B vào
- Các bạn search google SIGNIFICANCE TEST CALCULATOR sẽ ra rất nhiều trang, mình thường dùng Getdatadriven.com/ab-significance-test
- Ở bài trước trước các bạn đã chọn sẵn đơn vị để so sánh. VD lần này mình sẽ chọn so sánh xem lượt chuyển đổi từ Click sang Comment của 2 phiên bản
- Nếu lượt comment quá ít các bạn có thể lấy tổng Comment + Share, nhưng không nên lấy lượt Like vì giá trị rất nhỏ so với Comment
- Trong file mình có để sẵn ví dụ phiên bản 001A có 1423 Click chuyển đổi sang được 35 Comment & Share, 001B có 1295 Click chuyển đổi được 34 Comment & Share
- Các bạn điền các thông số tương ứng trên vào link mình đã đưa nhé. Lượt Click thì điền vào ô THE NUMBER OF VISITORS, lượt Comment & Share thì điền vào ô THE NUMBER OF OVERALL CONVERSIONS
- Nếu kết quả (cột ngoài cùng bên phải) trả về là: Test "B" converted 7% better than Test "A." We are 61% certain that… giống như ảnh dưới đây thì bạn đã làm đúng rồi.
- Kết quả đó có nghĩa là gì? 001B có tỉ lệ chuyển đổi tốt hơn 7% so với 001A, nhưng mức độ đáng tin của lần test này rất thấp, chỉ vào khoảng 61% (Test 100 lần thì chỉ 61 lần 001B thắng, còn lại là 001A thắng)

---
---

BƯỚC 6 : QUYẾT ĐỊNH BƯỚC TIẾP THEO

Ở bài trước bạn cũng đã chọn sẵn chỉ tiêu Winner/Loser rồi. Nếu kết quả thỏa chỉ tiêu thì cứ thế mà áp dụng, tất nhiên sẽ có 1 vài trường hợp ngoại lệ vd như:

1. Mức độ tin tưởng thấp : ở ví dụ trên thì 61% là quá thấp. Có nhiều lí do dẫn đến việc này như quy mô test quá nhỏ, tỉ lệ chuyển đổi quá thấp, hoặc tỉ lệ chuyển đổi của 2 phiên bản quá sát nhau, v.v Các bạn nên đợi thêm 1 thời gian hoặc tăng ngân sách lên, hoặc test lại lần 2 (sau đó cộng dữ liệu comment/share của cả 2 lần) để có kết quả chính xác hơn. Thông thường thì nên >90%

2. Mức độ tin tưởng cao, nhưng tỉ lệ chuyển đổi chênh lệch ít: VD độ tin tưởng lên >90% nhưng tỉ lệ chuyển đổi chỉ cải thiện được 5-10%. Như mình đã nói ở phần trước, nếu bạn xác định 1 nhóm khách là Loser thì bạn sẽ loại hẳn nhóm đó, tức là mất 1 phần lớn tệp khách hàng. Giả sử tổng 2 nhóm A+B gồm 1 triệu người nhưng nhóm A (Loser) chiếm đến 45%, đồng nghĩa với việc bạn sẽ hi sinh 45% tệp khách để tăng chất lượng quảng cáo lên 5-10%. Như thế có đáng hay không thì còn tùy vào nhiều yếu tố như ngành nghề, mục tiêu hoặc ngân sách của bạn (Chẳng hạn nếu bạn có có ngân sách nhỏ và nhóm B đã là quá lớn so với bạn thì ok, loại A)

3. Mức độ tin tưởng cao, tỉ lệ chuyển đổi chênh lệch lớn nhưng doanh thu nhóm Loser lại cao hơn. VD: Gần đây mình làm AB Testing với mục tiêu là tăng doanh thu đơn hàng online đặt trong website. Sau khi có kết quả thì rõ ràng nhóm B rất tốt, giá mỗi Add to Cart lẫn giá mỗi Purchase thấp hơn 2-3 lần nhóm A. Nhưng tổng doanh thu nhóm A lại cao hơn 30%. Việc này có nhiều lí do tác động như: Audience nhóm A ít mua hơn nhưng giá trị mỗi đơn hàng lại cao hơn, hoặc Audience nhóm A dễ quay lại mua lần 2-3, hoặc lần test đó có vài khách VIP trong nhóm A, hoặc do ngẫu nhiên trong thời gian test có sự kiện gì đó chỉ tác động đến nhóm A (VD bán thời trang, nhóm A interest du lịch trong khi nhóm B là exclude thì vào mùa cao điểm du lịch sẽ ảnh hưởng kết quả)…

LƯU Ý:

- Nếu có điều kiện, bạn nên test mỗi yếu tố 3-5 lần. Như mình đã nói ở trên sẽ có nhiều yếu tố khách quan xảy ra trong thời gian test ảnh hưởng đến kết quả nên chúng ta cần test nhiều lần để chắc chắn đã chọn đúng Winner.

- Vậy chúng ta nên test 1 lần với ngân sách lớn hay chia ra test 3 lần nhỏ? Theo mình thì nên chia ra 3 lần (tất nhiên mỗi lần test vẫn phải đủ lớn để đáp ứng độ tin tưởng >90%). Nếu bạn chỉ setup test 1 lần với ngân sách lớn thì sau một thời gian các Ad sẽ không còn độ Fresh và chất lượng sẽ giảm. Cá nhân mình thấy nếu nhóm Winner đều thắng tuyệt đối ở cả 3 lần test nhỏ thì sẽ chính xác hơn là chỉ thắng 1 lần khi test lớn.

- Nếu sau 3 lần mà kết quả Winner thắng 2 hoặc cả 3 lần, kết quả có độ tin tưởng cao, tỉ lệ chuyển đổi cải thiện nhiều và doanh thu tốt thì loại nhóm Loser và tiếp tục chia tách nhóm Winner để thu gọn hơn nữa. Cho đến khi nhóm Winner quá nhỏ để có thể khai thác hoặc bị khai thác quá nhiều thì bạn nên áp dụng Lookalike để mở rộng tệp ra. Có thời gian mình sẽ viết thêm về việc này.

- Nếu sau 3 lần mà kết quả không xê xích nhiều, không cần test yếu tố đó nữa vì không đáng để hi sinh nhóm khách hàng. Chuyển qua yếu tố khác.

- Và quan trọng nhất, các bạn cần kiểm tra lại mỗi 4-6 tháng vì kết quả test sẽ bị ảnh hưởng bới nhiều yếu tố ngoại cảnh như mức độ khai thác, chất lượng sản phẩm, thời vụ v.v. VD như khi bán thời trang nữ, nhóm Áo có thể thắng nhóm Đầm trong suốt 3 lần test. Nhưng sau 4-6 tháng khi bắt đầu vào mùa cưới, bạn cần test lại thì nhóm Đầm có thể sẽ có doanh thu tốt hơn trong dịp này.

---
---

Cám ơn mọi người đã đọc đến đây, cũng như lần trước:

- Mình viết hơi dài dòng chỗ nào chưa rõ thì bạn comment mình sẽ giải thích lại. Nếu bạn thấy nội dung hữu ích thì tương tác like/comment để ủng hộ mình nhé.

- Các bạn đừng dùng nick ảo để nhắn tin hay add friend mình nhé, mình sẽ không phản hồi nick ảo.

- Khoảng 2-3 tuần nữa mình sẽ viết nốt Phần 3 của Series này bao gồm các điểm hạn chế của AB Testing và cách khắc phục.

- Các bạn đang quan tâm vấn đề nào nhất: Retargeting, Lookalike, Customer Segmentation, Customer Buying Process,...? Comment bên dưới để mình biết chọn chủ đề cho series tiếp theo nhé.

Thank mọi người.

Đăng nhập

AB TESTING - CÁCH KIỂM TRA ĐỘ CHÍNH XÁC

Khởi Nghiệp Member

Các file đính kèm:

a_b_testing.jpg

Chia sẻ SEO tới mọi người

Nội Dung Nổi Bật