A/B 測試中的「偷看問題」 | Claude Skills 讓 AI 既是通才、又是專家!


好豪的每週雜談

桃園的雨沒停過!!!
(ー ー;)

這週的雨真的下爆,如果你這幾天是冒雨上班或上課的,真的辛苦了,也恭喜你撐到連假到來了!

ヽ(;▽;)ノ

前幾天在某 podcast 聽到清洗冷氣的業配,它也提醒到我:天氣轉涼、或許是請專家來幫忙洗冷氣 ❄️ 的好時機?畢竟,大熱天或超寒冬的時候,冷暖氣師傅都超忙、很難約時間啊!

你沒習慣洗冷氣的話,我一定要來勸世:請專家來清洗冷氣的錢不能省

我前兩個月也有請師傅來幫忙洗冷氣,那次,我家冷氣拆下來洗才發現,機體內不只累積了大片黴菌,還有 ... 一些不該屬於那裡的「住戶 🐜」。我真的很努力在打掃房間了,牠們還是會從管路跟裝潢的縫隙跑進去,我崩潰 (´Д` )

(有點驚悚的洗冷氣照片:在此,請審慎點閱 ...)

各位兄弟姐妹,冷氣機這種看不到的地方,也要注意清潔啊。

前幾次電子報提到 SpotifyNetflix 都會用 Sequential A/B Testing 這個特別的實驗方法,正式介紹它之前,這期電子報先跟各位分享這個酷方法要解決的問題:「偷看」實驗結果。我們要先認識問題、才知道為什麼要費心學酷方法。

A/B 測試中的「偷看陷阱 🫣」:
為什麼急著看實驗結果反而會害了你?

我剛看完最近超紅的 YouTube「中文怪物」,這是個一群外國人在比賽說中文能力的節目。在某一集(無明顯暴雷),一位厲害的參賽者,答題過程中明明寫出了正確答案,在時間到以前卻又更改了回答,最後很遺憾地沒有答對、錯失了冠軍的機會。

你也有過這樣的經驗嗎?考試的時候,明明有寫出對的答案,回頭檢查幾次後卻懷疑自己、反而改成錯的答案?或者投資股票時,每 5 分鐘就打開 APP 看一次漲跌,結果越看越焦慮、反而做出更糟的決策?

A/B 測試也有一模一樣的問題:越偷看、越多次假設檢定,越多錯誤!

當你的團隊剛上線一個新功能的實驗,產品經理可能每天都來問:「數據看起來不錯耶!現在就可以全面上線了吧?」這種「偷看實驗結果」的衝動,在實驗設計領域被叫做 Peeking Problem,而它可能是 A/B 測試中最常見、也最危險的錯誤。

為什麼「偷看」會出大問題?

想像你在玩猜拳遊戲。如果你和朋友說好「出 100 次,誰贏得多就請吃飯」,結果你在第 5 次、第 10 次、第 15 次 … 每幾次就急著宣布「我領先了!你請客!」,你覺得公平嗎?

又像是 NBA 籃球賽,原本應該打四節,要是在第二節看到某一隊分數領先、就提前直接宣布贏家,這樣真的代表該隊伍比較厲害嗎?

在 A/B 測試也是相同道理。當你設計實驗時,統計方法會幫你算好需要多少樣本數,這個數字背後的意義是:「收集到這麼多數據後,我們才能比較有信心地判斷 A 和 B 到底誰比較好。」

但如果你在樣本數蒐集還不完整的中途不斷偷看、一看到「好像有差異」就急著下結論,會發生什麼事?

研究顯示,原本我們設定只有 5% 的機率 會做出錯誤決策(把沒效果的改動誤判為有效果),一旦開始偷看,這個錯誤率可能飆升到 20% 以上!也就是說,你自以為「數據驅動」、根據 A/B 測試做出的決策,每 5 個可能就有 1 個是錯的。

問題的核心:「隨機性」會干擾你!

在實驗初期,因為數據量還很少,隨機性的影響力特別高。就像你擲硬幣 10 次「滿有可能」剛好出現 7 次正面,誤以為硬幣的正面機率是 70% 這麼高;但如果你繼續擲到 1,000 次才下結論,最終會更有可能接近正反面 50:50 的合理比例。太早下結論,就更容易被短期的隨機波動給騙了。

還有另種解讀偷看問題的方式:每多偷看一次,就等於多給自己一次「被隨機性欺騙」的機會。這就像買彩券,買一張中獎機率很低,但如果你買 20 張,總中獎機率就大幅提高了。在商業實驗的情境,每次偷看結果、做假設檢定,都有可能中一個名為 型一錯誤 的「爛獎」,你越常偷看、就越可能中這個爛獎。統計學上,這叫做「多重檢定問題」。

那該怎麼辦?

解決方法其實很簡單:事前決定好實驗要跑多久、要收集多少數據,然後乖乖等到時間到了再看結果。

但我知道這說得容易、實踐困難!尤其當你的產品新功能推出,👨🏻‍💼 老闆每天虎視眈眈地催促你「實驗結果如何?」、「可以上線了嗎?」,你敢不回覆他嗎? 我俗辣我不敢

好消息是,統計學家已經發明了一種叫做 Sequential Testing 的方法,可以讓你在實驗過程中「合法地偷看」,同時還能嚴格控制錯誤率。這就是我接下來幾週要跟大家分享的主題,它也是各大科技公司都在用的方法,像是 Spotify 正是用這個方法來加速他們的產品實驗(近期論文)。

在下期電子報學習 Sequential Testing 以前,推薦你延伸閱讀:

Claude Skills 來了 💡

Anthropic 在 2025 年 10 月 16 日發布了 Claude Skills,我個人作為 Claude AI 與 Claude Code 的紛絲,我相信這是一個可能比 MCP 影響更大的重磅功能:Skills 讓 AI 既是通才、又是專家

Skills 就像是給 Claude 準備的「專業技能操作手冊」,讓 AI 能在需要時動態載入專業知識,而不是把所有資訊一次塞進記憶體。它的核心是 Progressive Disclosure 機制,啟動時只載入專家們的「通訊錄」,需要時才翻開通訊錄、調用完整專業知識,就像公司依照需求聘請顧問,而不是把所有專家塞進同一間辦公室。這解決了 LLM 上下文視窗超載的老問題,也修正了 MCP 服務動輒消耗數萬 Token 的缺陷。

簡單說,Skills 不只讓你的 Claude 掌握能完整客製化的專業技能,還很省記憶體又省錢 💰!

更讚的是,Skills 在 Claude.ai 網頁或 APP、Claude Code、API 間通用。反例之一是 Claude Code 的 CLAUDE.md 設定,我努力學它怎麼用,但它只能在 Claude Code 內部使用我覺得很可惜啊!而 Skills 則沒有這個限制!

看到這裡,你也對 Claude Skills 這個方法產生好奇了嗎?我在 此部落格文章 整理了更完整的 Skills 優勢與用法介紹,歡迎閱讀。


前兩天發布這篇 Skills 部落格文章 後,收到了來自劉姓友人的鼓勵,他的原話是:「這篇都是人腦手寫吧,一點 AI 味都沒有,讀起來很喜歡XD」。認真努力寫作有被看見,讓我心花怒放。

(((o(*゚▽゚*)o)))

這是一份每週免費電子報,分享我的任何碎碎念,開始寫電子報的契機寫在 這裡。​

你想看我寫什麼?想跟我討論什麼?請務必回信讓我知道!

就算沒有特別意見,你的回信都會是對我很重要的鼓勵、以及寫作動力,歡迎回信跟我聊天。

好豪筆記HaoSquare.com

取消訂閱電子報:Unsubscribe;管理訂閱資訊:Preferences

好豪

我是好豪,Google 資料科學家,以部落格寫作記錄自己的知識焦慮,記下我看過的書、寫過的程式碼、以及數據分析工作的見聞。

Read more from 好豪

好豪的每週雜談 雨終於稍微停了!(´;ω;`) 我有位小姪女明天剛要滿一歲,她爸媽(我的表姐 & 姐夫)包下了一間小餐館、要給她辦盛大的滿周歲趴踢,真是個幸福的小孩啊! (雖然她長大後大概不會記得這個) 我前幾天也跟家人找時間去挑滿周歲禮物、讓她在當天玩抓周,抓周的傳統是在預測寶寶未來可能會從事的職業,其實包含了很多家人們對他/她的期許,要是你來挑禮物讓家中的寶寶去抓周,你會挑什麼給他抓呢? 你要是想到算盤 🧮 什麼的,那你很老派欸 (˚∀˚) 我個人在街上看到、很想挑的抓周禮物是這個,望她成鳳啦: 幾週前到 清大 DTDA 社團 分享資料科學知識,其中錄了幾段短影音訪談,近期上架了 這一部,這期電子報也延伸裡面提到的內容: Google 資料科學家的兩條不同道路:Product vs Research 在 Google,同樣頂著「資料科學家」名號的職位,其實做的事情差別還不小。主要會分成兩種角色,職位名稱長得很像: Data Scientist, Product Data Scientist, Research 你現在點開 Google 的官方職缺網頁,就會看到 Product...

好豪的每週雜談 Macbook Pro M5 版來了! 換換病復發 (´・ω・`) 昨天蘋果突然發佈了 M5 晶片版本的 Macbook Pro,號稱 AI 運算效能比 M1 版本快 6 倍,雖然搞不清楚是怎麼比較的,總之本蘋果粉覺得聽起來有點厲害。明明我的 M1 電腦還頭好壯壯,都有點心動想花錢了。 但重點不是要跟你推銷電腦,我是要推銷以下這個充滿嘲諷的 The Verge 媒體貼文: 來源:The Verge 以防你沒看懂梗:這塊尊爵不凡擦拭布官方定價 $590 台幣 (˚∀˚) 這要是被我阿嬤聽到應該會罵我:這種布她去菜市場買鍋子跟老闆都能免費要到三條 上次到清大 DTDA 演講,同時和社團幹部一起錄了短影音(連結),i 人覺得上鏡頭真的好恐怖 (・_・; 這部訪談的問題很有趣,我想在電子報多說一點: 大學財金系的訓練對於成為資料科學家有幫助嗎? 我當了八年資料科學家,大學念的是台大財金系。這些年來,這是很常被問到的問題。 財金系的訓練確實有幫助!...

好豪的每週雜談 Cursor、Claude 可以沒聽過但不能錯過 Google Colab AI! 希望你國慶連假愉快 (˚∀˚) 雖然我知道此新聞在社群媒體到處都是,但以防你不知道就簡短提醒: 如果你還是學生身份,務必享受這個福利啊! Gemini 學生免費一年方案連結 最近很開心地再次到清大 DTDA 社團分享 A/B 測試與因果推論 的知識,這次的講座不同以往,我加入了更多用 AI 與 Python 結合練習的實作練習,看到同學親手做出複雜的數據圖表,我作為講師也很有成就感啊! 看到同學的回饋告訴我他們有收穫準備講座的努力都值得了! 也是因為這次講座我強力推薦同學使用 Google Colab 來實作 Python 程式,我才發現:居然有很多人不知道 Google Colab 提供免費的 Gemini AI Agent 讓每個人都能使用! Google Colab 的 AI Agent資料分析師的超級助手! 如果你正在學習資料科學、或者工作中需要處理一些 Python 數據分析,那你一定要認識 Google Colab!它是一個免費的雲端 Jupyter Notebook...