聊聊 Google 不同的資料科學家類型 | DeepSeek-OCR 讓 AI 也能圖像化速讀


好豪的每週雜談

雨終於稍微停了!
(´;ω;`)

我有位小姪女明天剛要滿一歲,她爸媽(我的表姐 & 姐夫)包下了一間小餐館、要給她辦盛大的滿周歲趴踢,真是個幸福的小孩啊!

(雖然她長大後大概不會記得這個)

我前幾天也跟家人找時間去挑滿周歲禮物、讓她在當天玩抓周,抓周的傳統是在預測寶寶未來可能會從事的職業,其實包含了很多家人們對他/她的期許,要是你來挑禮物讓家中的寶寶去抓周,你會挑什麼給他抓呢?

你要是想到算盤 🧮 什麼的,那你很老派欸 (˚∀˚)

我個人在街上看到、很想挑的抓周禮物是這個,望她成鳳啦:

幾週前到 清大 DTDA 社團 分享資料科學知識,其中錄了幾段短影音訪談,近期上架了 這一部,這期電子報也延伸裡面提到的內容:

Google 資料科學家的兩條不同道路:
Product vs Research

在 Google,同樣頂著「資料科學家」名號的職位,其實做的事情差別還不小。主要會分成兩種角色,職位名稱長得很像:

  • Data Scientist, Product
  • Data Scientist, Research

你現在點開 Google 的官方職缺網頁,就會看到 Product 與 Research 兩種關鍵字分類。

八卦一下,大概三年前,只有後者的 Research 類型被稱為 Data Scientist、前者則稱為 Product Analyst,後來 Product Analyst 在內部積極提案想要職稱改名(因為大家覺得叫 Data Scientist 比較潮比較帥),才把前者也冠上 Data Scientist 的名號。

另外,公司內部其實還有更多相似職稱包括 Business Data Scientist、Data Scientist, Marketing、Data Analyst 等等,但它們並不是目前的職缺大宗,恕我在此略過。

我知道有很多人都努力爭取 Data Scientist 的職涯與頭銜,我自己在 Google 做了幾年 Product Analyst 後,親身感受到這兩個角色的核心差異不只是名稱,而在於你要解決的問題的廣度和深度

Data Scientist, Product:主打速戰速決

作為 Product Analyst(也就是我現在的身份),我的日常就像在高速公路上開車——需要快速反應、即時判斷,並根據路況不斷調整方向。我們的工作內容主要圍繞三件事:

第一是設計產品指標(Metric)。這是最核心的工作。從定義 北極星指標 開始,我需要和產品經理、工程師合作,設計資料埋點策略,建立數據倉儲的 Pipeline,最後當然要畫圖讓人看懂、產出 PM 跟老闆每天看的儀表板。這個過程看似簡單,但要做好其實很考驗 商業思維:你要知道什麼指標真的能反映產品健康狀況與獲利能力,更重要的是要爭取老闆買單。

第二是用統計模型定位問題。當產品表現下降時,我需要快速用數據找出根本原因。是用戶留存率下滑?還是新用戶獲取成本上升?通過建立統計模型,我們能把模糊的「產品可能有問題」具體化成可行動的洞察。再次強調速戰速決,我們不見得用 AI 或先進機器學習來解決問題、畢竟複雜的方法更花時間,很多時候 EDA 探索性分析或假設檢定就足以回答 80% 的疑問。

第三是主導實驗設計流程。這是 Product Analyst 最能體現影響力的地方之一。我們不只是分析數據,而是要設計整個實驗以及 因果推論 框架,驅動產品團隊的決策迭代。每個 A/B 測試、每個新功能上線的過程,經過我們的數據支撐而能有更科學化的決策。

在實際執行時,這幾件事會根據產品所處的週期而有不同的比重。剛上線的新產品,我花更多時間在建立基礎指標上,可能光建立 log 就花上大把時間;成熟的產品,我則深入在因果推論和問題診斷中。

Data Scientist, Research:模型與演算法專家

相比之下,Research Scientist 像是一位深海潛水員——投入長期的、複雜、深入的單一議題,比如改進 YouTube 推薦系統的演算法、開發新的預測模型、或者研究 A/B 測試學術問題來改進全公司的實驗效率,著重於數據品質和模型精準度。現在超夯的 Gemini 模型,就需要很多 Research Scientist 參與演算法開發。

Research Scientist 通常需要超~深厚的統計與工程知識,且招募時會偏好有博士學位的候選人,光是這點就足以反映這個職位對於技術深度的要求。

總之,如果說 Product Analyst 是「廣而快」,Research Scientist 就是「專而精」。

角色差異範例

如果直接用實際例子來說明,可以極度簡化成應用 v.s. 研究的差別:

同樣涉及 A/B 測試,Product Analyst 會應用 A/B 測試來檢驗軟體的某個新按鈕轉化率有沒有提高;而 Research Scientist 則是研究怎麼用貝氏方法來加速整個團隊的實驗效率。

同樣是 Gemini 的 AI 模型,Product Analyst 的任務會是應用 Gemini 來解讀使用者在社群上給 Pixel 回饋的文字、分析用戶的情緒;而 Research Scientist 會負責研究怎麼讓 Gemini 本身的演算法更快、更準確、更聰明。

如果你是因為機器學習超酷、開發 AI 模型感覺超帥而開始對資料科學有興趣的,或許 Research Scientist 才是你該走的路。

說實話,這兩個角色的薪資在同一職等不會有巨大差距,核心差異不在錢,而在於你是想有效快速地推動專案並影響產品決策、還是投入長期深入的技術研究。我選擇了 Product Analyst,因為我沒有 PHD 因為我喜歡看到自己的分析直接推動產品迭代,也喜歡把統計數字說成好故事、說服人、讓人點頭稱是的過程,這些成就感是無價的。


前面說了,Data Scientist, Research 要的是極具深度的機器學習與統計專家,至於知識要求究竟有多高呢?Google 的資深資料科學家們設計出了 這10 題數學考題,讓你檢驗自己的能力是否達到 Google 面試的入場券。

你很喜歡統計學跟機器學習嗎?這 10 題 考的是統計、機率、以及數理邏輯,也是公司面試最看重的能力之一,推薦你點進去網頁,花個 15 分鐘答題挑戰看看!

我在 短影音 訪談裡也分享了一點寫部落格給我帶來的好處:

✍️ 寫作:我的溝通技能修煉

我知道越來越多人感覺到個人品牌的重要性,大家都在追求經營副業、自媒體、還有拼流量變現,這些我當然也想過。

但實際上,我之所以一直寫部落格好幾年(而不只是純粹的副業想賺錢)、感受到寫作最大的好處,是它對我提升專業能力幫助超大。

每當我在部落格上寫一篇技術文章,特別是要把複雜的概念用淺白的方式解釋給陌生讀者時,我就在無形中鍛鍊一項我作為資料科學家最重要的技能:講故事的能力。

很多人嚮往的資料科學家是整天跟機器學習、人工智慧為伍,但在 Google 裡 Product Analyst 做的工作不是躲在電腦後面一直寫 Python 或 SQL,我反而花最多時間在「怎麼把數據洞察講清楚」。我需要跟產品經理解釋為什麼某個指標下滑、跟工程師溝通應該埋什麼日誌、跟設計師協調實驗設計,這些都需要我能清楚表達、說出讓人想聽下去的故事。

如果你是社會人士、或者是曾經企業實習過的學生,一定有感:能好好把話講清楚的人,比你想像的少很多 ˊ_>ˋ

而寫部落格與電子報就是我練習這項技能的環境。寫每一篇文章都是「怎麼讓人聽懂我」的訓練。寫得夠清楚、讀者才會願意看下去;寫得夠有邏輯、讀者才能跟上我的思路。這種想像讀者需要聽什麼的 ROA 思考 技能,到了職場,都會轉化成更有說服力的 Slack 訊息、更好懂的內部簡報、更扎實的數據說明文件。

所以,寫部落格不是什麼發財夢想計畫。對我來說,它就像健身房一樣,是我刻意練習溝通和表達的地方。

如果你想知道我怎麼看待寫作這件事、以及它怎麼改變了我的工作與生活,我之前寫過幾篇長文,分享了更多細節:

DeepSeek-OCR:
AI 讀圖片比直接讀文字更有效率?!

近期中國 AI 公司 DeepSeek 發布了一個叫 DeepSeek-OCR 的光學文字辨識新技術,它不算是革命性的技術創新,但它確實對目前 AI 發展有極大的貢獻。

它解決了什麼問題?

你有沒有試過用 AI 去讀大量 PDF、合約、發票或報表?字很多的時候,現有的工具通常有個大問題:它們處理資訊的效率不高,導致成本(tokens)上升、運算能力浪費。

舉個例子,假設你要 AI 系統去分析一份 100 頁的合約,傳統方法會把整份文件一字一句地轉換成電腦能理解的語言。這樣做就像你要記住一本厚厚的書,你必須記下每一個字、每一個標點符號。很費力,也很浪費記憶力。

DeepSeek-OCR 用了一個聰明的新招:它不是逐字逐句地翻譯,而是用類似「拍照」的方式先抓重點,再細部處理。

它怎麼做到的?

DeepSeek-OCR 把書寫的資訊打包成圖像形式、而不是文字形式。這樣同樣的訊息,它能用遠遠更少的「記憶空間」來儲存。這個模型能把文件內容壓縮成更少的 tokens(簡單說就是 AI 能理解的訊息單位),讓 AI 系統能更便宜、更準確地處理長篇文字。

再簡單點的說法:把文字轉換成後圖片再給 AI 讀,比起直接讓 AI 讀文字,會更省錢、更準確、還更不容易遺忘!

為什麼能這麼厲害?我自己是這樣理解的:AI 也能像人類一樣速讀、跳著讀。你一定在網路留言看過這種梗:

「根據研究,中文字的排列序順並不影響讀閱」

既然順序沒那麼重要,或是少幾個字、少幾個筆畫好像也能看懂字句意義,那何必逼 AI 一個字一個字精讀、浪費 AI 算力呢?


在這次電子報分享 DeepSeek-OCR,也不全然是希望你立刻採用這個工具,是我相信其他科技巨頭很快就會採用類似的方法來改進 AI 工具或是模型本身,因此這是則令人興奮的新聞。

你想了解更深入的技術細節的話,DeepSeek-OCR 是開源的,你可以在 此 GitHub 頁面 了解詳細內容。

而如果你想聽更多 DeepSeek-OCR 的原理與商業價值的白話講解,Miula 的 這集 Podcast (從 41 分鐘開始)有非常清楚的解釋,推薦你聽聽。

這是一份每週免費電子報,分享我的任何碎碎念,開始寫電子報的契機寫在 這裡

你想看我寫什麼?想跟我討論什麼?請務必回信讓我知道!也可以填寫以下這個 15 秒就能完成的 Google 表單告訴我你想學習與閱讀的主題:

表單連結:好豪的電子報—主題募集中!

希望你喜歡這期的分享,我們下週見。

好豪筆記HaoSquare.com

取消訂閱電子報:Unsubscribe;管理訂閱資訊:Preferences

好豪

我是好豪,Google 資料科學家,以部落格寫作記錄自己的知識焦慮,記下我看過的書、寫過的程式碼、以及數據分析工作的見聞。

Read more from 好豪

好豪的每週雜談 桃園的雨沒停過!!!(ー ー;) 這週的雨真的下爆,如果你這幾天是冒雨上班或上課的,真的辛苦了,也恭喜你撐到連假到來了! ヽ(;▽;)ノ 前幾天在某 podcast 聽到清洗冷氣的業配,它也提醒到我:天氣轉涼、或許是請專家來幫忙洗冷氣 ❄️ 的好時機?畢竟,大熱天或超寒冬的時候,冷暖氣師傅都超忙、很難約時間啊! 你沒習慣洗冷氣的話,我一定要來勸世:請專家來清洗冷氣的錢不能省! 我前兩個月也有請師傅來幫忙洗冷氣,那次,我家冷氣拆下來洗才發現,機體內不只累積了大片黴菌,還有 ... 一些不該屬於那裡的「住戶 🐜」。我真的很努力在打掃房間了,牠們還是會從管路跟裝潢的縫隙跑進去,我崩潰 (´Д` ) (有點驚悚的洗冷氣照片:在此,請審慎點閱 ...) 各位兄弟姐妹,冷氣機這種看不到的地方,也要注意清潔啊。 前幾次電子報提到 Spotify 跟 Netflix 都會用 Sequential A/B Testing 這個特別的實驗方法,正式介紹它之前,這期電子報先跟各位分享這個酷方法要解決的問題:「偷看」實驗結果。我們要先認識問題、才知道為什麼要費心學酷方法。 A/B...

好豪的每週雜談 Macbook Pro M5 版來了! 換換病復發 (´・ω・`) 昨天蘋果突然發佈了 M5 晶片版本的 Macbook Pro,號稱 AI 運算效能比 M1 版本快 6 倍,雖然搞不清楚是怎麼比較的,總之本蘋果粉覺得聽起來有點厲害。明明我的 M1 電腦還頭好壯壯,都有點心動想花錢了。 但重點不是要跟你推銷電腦,我是要推銷以下這個充滿嘲諷的 The Verge 媒體貼文: 來源:The Verge 以防你沒看懂梗:這塊尊爵不凡擦拭布官方定價 $590 台幣 (˚∀˚) 這要是被我阿嬤聽到應該會罵我:這種布她去菜市場買鍋子跟老闆都能免費要到三條 上次到清大 DTDA 演講,同時和社團幹部一起錄了短影音(連結),i 人覺得上鏡頭真的好恐怖 (・_・; 這部訪談的問題很有趣,我想在電子報多說一點: 大學財金系的訓練對於成為資料科學家有幫助嗎? 我當了八年資料科學家,大學念的是台大財金系。這些年來,這是很常被問到的問題。 財金系的訓練確實有幫助!...

好豪的每週雜談 Cursor、Claude 可以沒聽過但不能錯過 Google Colab AI! 希望你國慶連假愉快 (˚∀˚) 雖然我知道此新聞在社群媒體到處都是,但以防你不知道就簡短提醒: 如果你還是學生身份,務必享受這個福利啊! Gemini 學生免費一年方案連結 最近很開心地再次到清大 DTDA 社團分享 A/B 測試與因果推論 的知識,這次的講座不同以往,我加入了更多用 AI 與 Python 結合練習的實作練習,看到同學親手做出複雜的數據圖表,我作為講師也很有成就感啊! 看到同學的回饋告訴我他們有收穫準備講座的努力都值得了! 也是因為這次講座我強力推薦同學使用 Google Colab 來實作 Python 程式,我才發現:居然有很多人不知道 Google Colab 提供免費的 Gemini AI Agent 讓每個人都能使用! Google Colab 的 AI Agent資料分析師的超級助手! 如果你正在學習資料科學、或者工作中需要處理一些 Python 數據分析,那你一定要認識 Google Colab!它是一個免費的雲端 Jupyter Notebook...