A/B 測試的觸發 Trigger 技巧 | AI 產品怎麼評估都不夠? | 績效評估 NotebookLM 幫我寫


好豪的每週雜談

又到了季末寫績效考核的時候
ˊ_>ˋ

這大概是兩年前我在公司發生的故事。

我曾經沒搞懂的 A/B 測試問題 😵

谷歌有知名的「20% 專案」,讓員工總工時的 20% 自由發展有興趣的主題,據說 Gmail 跟 AdSense 產品都是這樣誕生的。

我在公司內看到某行銷團隊的 20% 專案在徵求新血加入數據分析任務,我好奇地與該團隊的主管約了一次會議,他告訴我他們需要解決的問題是這樣的:

團隊寄出新產品的行銷 Email,希望顧客到網站註冊並留下聯絡資料。
他們運用 A/B 測試,想知道行銷 Email 之中的
超連結,導引到網站 A 與網站 B,註冊轉化率有多大的不同?

聽起來很單純?當然沒那麼簡單。困難點是:該團隊過去數據顯示,開信後,會點進超連結的顧客比例不到 10%,更別說點進去之後真的成功註冊的人不到四成,因此,從開信到註冊的比例會低於 4%。根據統計公式,需要超過十萬樣本數才能完成 A/B 測試。而他們還是個新起步產品,使用者不多、樣本數蒐集十分困難,完成單一項實驗所需時間真的太久了。

該團隊想徵求分析高手參與 20% 專案、幫他們解決這項問題。

我就菜:超天真回答

那次會議中,我當下聽完這個問題,很傻很天真地就拿 A/B 測試樣本數計算機起來按一按,然後回答他:

即使註冊轉換率只有 4%,還是可以做 A/B 測試,沒問題的!
需要十幾萬的樣本數,我們耐心等等就好。

這個回覆,在統計理論上是對的,但完全沒有解答到該團隊的關鍵實務挑戰:需要樣本數太多、實驗迭代太慢

想當然耳,該團隊主管在那次會議之後就跟我謝謝再聯絡,搞不清楚狀況的我,沒拿到那個挑戰 20% 專案的機會。

我後來研究之後才發現,解決這個低轉化率挑戰的關鍵字是:Trigger

💡 A/B 測試的觸發(Trigger)

在 A/B 測試領域,觸發(Trigger)指的是只分析那些真正有機會體驗到實驗差異的使用者,以解決數據被稀釋(例如轉化率低到只有 4%)的問題。

在上述 Email 註冊轉化案例,實驗內容是超連結點進去之後的不同網站,顧客必須要點擊超連結才有可能感覺到A與B兩組實質差異。

案例情境中:

  • 打開 Email 後,點進超連結的顧客比例 = 10%
  • 點進超連結後成功註冊的比例 = 40%
  • 從打開 Email 到成功註冊的比例 = 10% * 40% = 4%

典型的 A/B 測試,會把所有打開 Email 的顧客隨機分成兩組,但其中 90% 的顧客根本沒點開超連結,即使他們被分配在實驗中,也根本不可能感受到A或B組的差異,也就是說,這 90% 的樣本數完全只是在浪費樣本資源!

若我們改做觸發分析,只聚焦在有可能會被實驗實質影響的顧客,也就是在顧客開信並點擊超連結之後才「觸發」A/B 測試、開始分A與B兩組,我們要關注的註冊轉化率就從 4% 變成了 40%,再拿上面截圖的 計算機 重算一次,所需樣本數從 15 萬下降到只需要 9 萬!對每個流量都很珍貴的新創期產品來說,Trigger 可以大大加速實驗。


觸發 Trigger 的詳細計算方法,還有更多 A/B 測試觸發機制的實際案例,我都整理在部落格文章:

A/B 測試的觸發(Trigger)

精準定位受影響使用者,減少實驗所需樣本數

評估 AI 產品顯然不夠
上線監控才有真相 🔍

Raindrop.ai 的技術長 Ben Hylak 在 部落格文章 中反駁 Braintrust 「評估(Eval)是 AI 產品的未來」論點,他認為評估只是在發布之前測試,而監控才能顯示產品在真實世界的表現。

他批評,評估往往只能對抗已知問題、無法發現未知問題。換句話說,AI 模型的訓練過程終究需要「對答案」,儘管開發者可以持續調整答案來引導 AI 的訓練方向,但是,現今的 AI 代理(Agent)實在太過複雜、 AI 應用也因為個人化而超級多元,不管怎麼設計與調整答案,都不可能涵蓋所有使用者需求。就如作者在文中質問:

難道,你打算手寫出一千萬種 AI 評估方式?

作者相信,AI 系統的不可預測性更需要的是監控,也就是 A/B 測試。當新 AI 模型(例如 GPT-5)發布時,可立即將 1% 用戶導向新模型,並即時看到對於挫折感、使用率等數據信號的影響。

相較之下,評估(Eval)需要調整舊有的準則、並發掘所有尚未建立評估的新問題,也就是說,你就算前面真的絞盡腦汁寫了一千萬種評估方式,當新 AI 開發出來,你需要重新審閱那一千萬種是否合理、還要考慮需不需要增加另外一千萬種評估方式,沒完沒了!而 A/B 測試在實際應用中快多了,新 AI 產品一問世,通常只要花幾分鐘部署實驗、幾天之內可以得到答案。


這篇文章 引起我思考自己作為資料科學家在 AI 時代的技能發展。

在 Google 內部,AI 模型評估以及 A/B 測試兩者都是各產品團隊資料科學家傾大量資源投注的顯學,即使文章作者各種批評前者,我感覺兩者更像是保守派與進步派之爭:

  • 保守派希望 AI 的線下評估越完整越好,盡力避免上線之後意外傷害使用者滿意度
  • 進步派認為,趕快上線讓使用者透過 A/B 實驗直接回饋他們喜不喜歡產品才是王道,花太多力氣線下評估會拖慢產品開發

這兩者當然不是二則一的選擇題,而是權衡。因此,我身為單純的社畜,只能線下評估跟線上測試都持續鑽研,之後不管團隊領導層優先重視哪一個,兩者都會一點才能在職場生存下去。

(ー ー;)

九月的尾聲,又是敝司績效考核的時候啦。我最近一年寫績效回顧的流程已經離不開 NotebookLM 了!過程中我會請 NotebookLM 幫我分析的內容包括:

  • 經過 Google 硬碟的「修改日期」篩選,最近三個月經手的所有報告、文件、簡報
  • 組織部門的年度戰略目標(OKR)文檔
  • 引用我分析報告的其他專案
  • Power Verb 列表(讓 AI 英文用詞更專業)

這些資訊都整理好之後,不需要太複雜的 Prompt,NotebookLM 就會輕鬆幫我寫好績效考核的文件讓我跟主管討論了。

關於績效考核 NotebookLM 用法示範、或是更多職場 AI 生產力技巧,推薦你繼續閱讀這篇文章:

上班族生產力倍增:
7 個 NotebookLM 實戰案例

職場專業人士必備 AI 技能!

這是一份由資料科學家撰寫的每週免費電子報,分享我的任何碎碎念,開始寫電子報的契機寫在 ​這裡​。

你想看我寫什麼?想跟我討論什麼?請務必回信讓我知道!也請填寫以下這個 15 秒就能完成的 Google 表單告訴我你想學習與閱讀的主題:

表單連結:​好豪的電子報—主題募集中!

好豪筆記HaoSquare.com

取消訂閱電子報:Unsubscribe;管理訂閱資訊:Preferences

好豪

我是好豪,Google 資料科學家,以部落格寫作記錄自己的知識焦慮,記下我看過的書、寫過的程式碼、以及數據分析工作的見聞。

Read more from 好豪

好豪的每週雜談 雨終於稍微停了!(´;ω;`) 我有位小姪女明天剛要滿一歲,她爸媽(我的表姐 & 姐夫)包下了一間小餐館、要給她辦盛大的滿周歲趴踢,真是個幸福的小孩啊! (雖然她長大後大概不會記得這個) 我前幾天也跟家人找時間去挑滿周歲禮物、讓她在當天玩抓周,抓周的傳統是在預測寶寶未來可能會從事的職業,其實包含了很多家人們對他/她的期許,要是你來挑禮物讓家中的寶寶去抓周,你會挑什麼給他抓呢? 你要是想到算盤 🧮 什麼的,那你很老派欸 (˚∀˚) 我個人在街上看到、很想挑的抓周禮物是這個,望她成鳳啦: 幾週前到 清大 DTDA 社團 分享資料科學知識,其中錄了幾段短影音訪談,近期上架了 這一部,這期電子報也延伸裡面提到的內容: Google 資料科學家的兩條不同道路:Product vs Research 在 Google,同樣頂著「資料科學家」名號的職位,其實做的事情差別還不小。主要會分成兩種角色,職位名稱長得很像: Data Scientist, Product Data Scientist, Research 你現在點開 Google 的官方職缺網頁,就會看到 Product...

好豪的每週雜談 桃園的雨沒停過!!!(ー ー;) 這週的雨真的下爆,如果你這幾天是冒雨上班或上課的,真的辛苦了,也恭喜你撐到連假到來了! ヽ(;▽;)ノ 前幾天在某 podcast 聽到清洗冷氣的業配,它也提醒到我:天氣轉涼、或許是請專家來幫忙洗冷氣 ❄️ 的好時機?畢竟,大熱天或超寒冬的時候,冷暖氣師傅都超忙、很難約時間啊! 你沒習慣洗冷氣的話,我一定要來勸世:請專家來清洗冷氣的錢不能省! 我前兩個月也有請師傅來幫忙洗冷氣,那次,我家冷氣拆下來洗才發現,機體內不只累積了大片黴菌,還有 ... 一些不該屬於那裡的「住戶 🐜」。我真的很努力在打掃房間了,牠們還是會從管路跟裝潢的縫隙跑進去,我崩潰 (´Д` ) (有點驚悚的洗冷氣照片:在此,請審慎點閱 ...) 各位兄弟姐妹,冷氣機這種看不到的地方,也要注意清潔啊。 前幾次電子報提到 Spotify 跟 Netflix 都會用 Sequential A/B Testing 這個特別的實驗方法,正式介紹它之前,這期電子報先跟各位分享這個酷方法要解決的問題:「偷看」實驗結果。我們要先認識問題、才知道為什麼要費心學酷方法。 A/B...

好豪的每週雜談 Macbook Pro M5 版來了! 換換病復發 (´・ω・`) 昨天蘋果突然發佈了 M5 晶片版本的 Macbook Pro,號稱 AI 運算效能比 M1 版本快 6 倍,雖然搞不清楚是怎麼比較的,總之本蘋果粉覺得聽起來有點厲害。明明我的 M1 電腦還頭好壯壯,都有點心動想花錢了。 但重點不是要跟你推銷電腦,我是要推銷以下這個充滿嘲諷的 The Verge 媒體貼文: 來源:The Verge 以防你沒看懂梗:這塊尊爵不凡擦拭布官方定價 $590 台幣 (˚∀˚) 這要是被我阿嬤聽到應該會罵我:這種布她去菜市場買鍋子跟老闆都能免費要到三條 上次到清大 DTDA 演講,同時和社團幹部一起錄了短影音(連結),i 人覺得上鏡頭真的好恐怖 (・_・; 這部訪談的問題很有趣,我想在電子報多說一點: 大學財金系的訓練對於成為資料科學家有幫助嗎? 我當了八年資料科學家,大學念的是台大財金系。這些年來,這是很常被問到的問題。 財金系的訓練確實有幫助!...