好豪的每週雜談

桃園的雨沒停過！！！
(ｰｰ;)

這週的雨真的下爆，如果你這幾天是冒雨上班或上課的，真的辛苦了，也恭喜你撐到連假到來了！

ヽ(；▽；)ノ

前幾天在某 podcast 聽到清洗冷氣的業配，它也提醒到我：天氣轉涼、或許是請專家來幫忙洗冷氣 ❄️ 的好時機？畢竟，大熱天或超寒冬的時候，冷暖氣師傅都超忙、很難約時間啊！

你沒習慣洗冷氣的話，我一定要來勸世：請專家來清洗冷氣的錢不能省！

我前兩個月也有請師傅來幫忙洗冷氣，那次，我家冷氣拆下來洗才發現，機體內不只累積了大片黴菌，還有 ... 一些不該屬於那裡的「住戶 🐜」。我真的很努力在打掃房間了，牠們還是會從管路跟裝潢的縫隙跑進去，我崩潰 (´Д` )

（有點驚悚的洗冷氣照片：在此，請審慎點閱 ...）

各位兄弟姐妹，冷氣機這種看不到的地方，也要注意清潔啊。

前幾次電子報提到 Spotify 跟 Netflix 都會用 Sequential A/B Testing 這個特別的實驗方法，正式介紹它之前，這期電子報先跟各位分享這個酷方法要解決的問題：「偷看」實驗結果。我們要先認識問題、才知道為什麼要費心學酷方法。

A/B 測試中的「偷看陷阱 🫣」：
為什麼急著看實驗結果反而會害了你？

我剛看完最近超紅的 YouTube「中文怪物」，這是個一群外國人在比賽說中文能力的節目。在某一集（無明顯暴雷），一位厲害的參賽者，答題過程中明明寫出了正確答案，在時間到以前卻又更改了回答，最後很遺憾地沒有答對、錯失了冠軍的機會。

你也有過這樣的經驗嗎？考試的時候，明明有寫出對的答案，回頭檢查幾次後卻懷疑自己、反而改成錯的答案？或者投資股票時，每 5 分鐘就打開 APP 看一次漲跌，結果越看越焦慮、反而做出更糟的決策？

A/B 測試也有一模一樣的問題：越偷看、越多次假設檢定，越多錯誤！

當你的團隊剛上線一個新功能的實驗，產品經理可能每天都來問：「數據看起來不錯耶！現在就可以全面上線了吧？」這種「偷看實驗結果」的衝動，在實驗設計領域被叫做 Peeking Problem，而它可能是 A/B 測試中最常見、也最危險的錯誤。

為什麼「偷看」會出大問題？

Free Cat Peek photo and picture — 偷看你ㄉ貓貓（圖片來源：Pixabay）

想像你在玩猜拳遊戲。如果你和朋友說好「出 100 次，誰贏得多就請吃飯」，結果你在第 5 次、第 10 次、第 15 次 … 每幾次就急著宣布「我領先了！你請客！」，你覺得公平嗎？

又像是 NBA 籃球賽，原本應該打四節，要是在第二節看到某一隊分數領先、就提前直接宣布贏家，這樣真的代表該隊伍比較厲害嗎？

在 A/B 測試也是相同道理。當你設計實驗時，統計方法會幫你算好需要多少樣本數，這個數字背後的意義是：「收集到這麼多數據後，我們才能比較有信心地判斷 A 和 B 到底誰比較好。」

但如果你在樣本數蒐集還不完整的中途不斷偷看、一看到「好像有差異」就急著下結論，會發生什麼事？

研究顯示，原本我們設定只有 5% 的機率會做出錯誤決策（把沒效果的改動誤判為有效果），一旦開始偷看，這個錯誤率可能飆升到 20% 以上！也就是說，你自以為「數據驅動」、根據 A/B 測試做出的決策，每 5 個可能就有 1 個是錯的。

問題的核心：「隨機性」會干擾你！

在實驗初期，因為數據量還很少，隨機性的影響力特別高。就像你擲硬幣 10 次「滿有可能」剛好出現 7 次正面，誤以為硬幣的正面機率是 70% 這麼高；但如果你繼續擲到 1,000 次才下結論，最終會更有可能接近正反面 50:50 的合理比例。太早下結論，就更容易被短期的隨機波動給騙了。

還有另種解讀偷看問題的方式：每多偷看一次，就等於多給自己一次「被隨機性欺騙」的機會。這就像買彩券，買一張中獎機率很低，但如果你買 20 張，總中獎機率就大幅提高了。在商業實驗的情境，每次偷看結果、做假設檢定，都有可能中一個名為型一錯誤的「爛獎」，你越常偷看、就越可能中這個爛獎。統計學上，這叫做「多重檢定問題」。

那該怎麼辦？

解決方法其實很簡單：事前決定好實驗要跑多久、要收集多少數據，然後乖乖等到時間到了再看結果。

但我知道這說得容易、實踐困難！尤其當你的產品新功能推出，👨🏻‍💼 老闆每天虎視眈眈地催促你「實驗結果如何？」、「可以上線了嗎？」，你敢不回覆他嗎？ ~~我俗辣我不敢~~

好消息是，統計學家已經發明了一種叫做 Sequential Testing 的方法，可以讓你在實驗過程中「合法地偷看」，同時還能嚴格控制錯誤率。這就是我接下來幾週要跟大家分享的主題，它也是各大科技公司都在用的方法，像是 Spotify 正是用這個方法來加速他們的產品實驗（近期論文）。

在下期電子報學習 Sequential Testing 以前，推薦你延伸閱讀：

A/B Test：「偷看結果」將成為最大的錯誤 — 詳細的數學推導與 Python 實作範例
如何正確計算 A/B 測試所需樣本數？ — 實驗樣本數計算的完整教學

Claude Skills are awesome, maybe a bigger deal than MCP

Claude Skills 來了 💡

Anthropic 在 2025 年 10 月 16 日發布了 Claude Skills，我個人作為 Claude AI 與 Claude Code 的紛絲，我相信這是一個可能比 MCP 影響更大的重磅功能：Skills 讓 AI 既是通才、又是專家。

Skills 就像是給 Claude 準備的「專業技能操作手冊」，讓 AI 能在需要時動態載入專業知識，而不是把所有資訊一次塞進記憶體。它的核心是 Progressive Disclosure 機制，啟動時只載入專家們的「通訊錄」，需要時才翻開通訊錄、調用完整專業知識，就像公司依照需求聘請顧問，而不是把所有專家塞進同一間辦公室。這解決了 LLM 上下文視窗超載的老問題，也修正了 MCP 服務動輒消耗數萬 Token 的缺陷。

簡單說，Skills 不只讓你的 Claude 掌握能完整客製化的專業技能，還很省記憶體又省錢 💰！

更讚的是，Skills 在 Claude.ai 網頁或 APP、Claude Code、API 間通用。反例之一是 Claude Code 的 CLAUDE.md 設定，我努力學它怎麼用，但它只能在 Claude Code 內部使用我覺得很可惜啊！而 Skills 則沒有這個限制！

看到這裡，你也對 Claude Skills 這個方法產生好奇了嗎？我在此部落格文章整理了更完整的 Skills 優勢與用法介紹，歡迎閱讀。

前兩天發布這篇 Skills 部落格文章後，收到了來自劉姓友人的鼓勵，他的原話是：「這篇都是人腦手寫吧，一點 AI 味都沒有，讀起來很喜歡ＸＤ」。認真努力寫作有被看見，讓我心花怒放。

(((o(*ﾟ▽ﾟ*)o)))

這是一份每週免費電子報，分享我的任何碎碎念，開始寫電子報的契機寫在這裡。

你想看我寫什麼？想跟我討論什麼？請務必回信讓我知道！

就算沒有特別意見，你的回信都會是對我很重要的鼓勵、以及寫作動力，歡迎回信跟我聊天。

好豪筆記．HaoSquare.com

取消訂閱電子報：Unsubscribe；管理訂閱資訊：Preferences

好豪

A/B 測試中的「偷看問題」 | Claude Skills 讓 AI 既是通才、又是專家！

桃園的雨沒停過！！！
(ｰｰ;)

A/B 測試中的「偷看陷阱 🫣」：
為什麼急著看實驗結果反而會害了你？

為什麼「偷看」會出大問題？

問題的核心：「隨機性」會干擾你！

那該怎麼辦？

Claude Skills 來了 💡

聊聊 Google 不同的資料科學家類型 | DeepSeek-OCR 讓 AI 也能圖像化速讀

大學唸商管學系對資料科學職涯有幫助嗎？ | 新的 Macbook Pro 來了！

Google Colab 的 AI Agent 是不能錯過的資料科學神器！ | 寫作者的修煉

好豪

A/B 測試中的「偷看問題」 | Claude Skills 讓 AI 既是通才、又是專家！

桃園的雨沒停過！！！(ｰ ｰ;)

A/B 測試中的「偷看陷阱 🫣」：為什麼急著看實驗結果反而會害了你？

為什麼「偷看」會出大問題？

問題的核心：「隨機性」會干擾你！

那該怎麼辦？

Claude Skills 來了 💡

好豪

聊聊 Google 不同的資料科學家類型 | DeepSeek-OCR 讓 AI 也能圖像化速讀

大學唸商管學系對資料科學職涯有幫助嗎？ | 新的 Macbook Pro 來了！

Google Colab 的 AI Agent 是不能錯過的資料科學神器！ | 寫作者的修煉

桃園的雨沒停過！！！
(ｰｰ;)

A/B 測試中的「偷看陷阱 🫣」：
為什麼急著看實驗結果反而會害了你？