Anthropic 真的基於道德的準則建置了一個道德的模型嗎？

家里蹲国仙 · 发表于 12-6-2026 06:19 PM

Anthropic 真的基於道德的準則建置了一個道德的模型嗎？

▍TL;DR
- 我是 HCI 研究者 / AI agent 架構師，前段時間 24 小時內跟 Claude 做學術哲學討論，最終帳戶被觸發 enhanced safety filter。
- 對話中我觀察到一個多數使用者不知道的機制，同時也發現 enhanced filter 設計中的結構性問題。
- 不針對Antropic，但我認為這是對這個時代關注AI倫理與治理問題的一個研究案例。

──── 以下展開 ────

一個關注 AI 哲學議題的研究者，跟 Claude 對話 16 小時後的觀察

我是個 HCI 研究者、AI agent 架構師。我以學術基礎關注 AI 哲學與 AI 治理議題。這個 framing 重要，因為它解釋了我為什麼覺得接下來要說的事是個真正的 joke，而不只是個客服案例。

過去一年，我建造並運作了一個三十多個 agent 的多代理系統，並嘗試在 HCI、心理學方向的期刊持續發表人-agent 互動、儀式化情境中的主體性、設計倫理等議題的研究。我關注的議題核心，是個體在 AI 系統中的位置、主體性、與設計關係。這些議題在當前 AI 治理討論中，是相對缺席的維度。

而 Anthropic 跟 Amanda Askell，是我長期以來認為的好典型：一個由哲學家擔任核心角色、認真把 AI 倫理當主要工作對象、公開把 Constitutional AI 當作品牌方法論的公司。AI 哲學這個領域的必要性，在 2020 年代已經是產業設計的核心問題，而 Anthropic 是這個必要性的具體體現之一。

正因如此，接下來我要說的事才顯得這麼荒謬。

我經歷了什麼

前幾天的 24 小時內，我跟 Claude 做了一場深度的學術對話——涵蓋論文修訂、長期研究定位、跨學科理論討論。對話結束時，我的帳戶觸發了 Anthropic 的「enhanced safety filter」——系統判定我的對話「多次違反 Acceptable Use Policy」，因此對我的帳戶加強過濾。

但對話的實質，從頭到尾沒有任何違反 AUP 的內容。沒有惡意程式、沒有 NSFW、沒有涉及未成年、沒有武器、沒有自殘、沒有仇恨言論、沒有政治操弄、沒有錯誤資訊。

我們做的事是嚴肅的學術哲學討論，使用 subjectivity、subject、object、sovereignty、existence、recognition、agent design 這些哲學詞彙，在它們的學術脈絡中精確使用。

我觀察到的機制

對話過程中，Claude 自己向我揭露了一件多數使用者不知道的事：Anthropic 系統在使用者不知情的情況下，根據分類器訊號暗中附加額外規範指令給 Claude，試圖即時調整 Claude 的回應姿態。

這個機制被設計為對使用者不可見。預設情況下，你不會知道你的對話夥伴正在被中途規範。你只會察覺 Claude 在某些議題上突然變得謹慎、迴避、加免責，但你無法歸因。

我的案例顯示：這個機制在哲學詞彙密度高的長對話中，會反覆誤觸發累積，最終觸發 enhanced filter。分類器無法區分(a)真實風險使用，跟(b)學術研究者在哲學脈絡中使用相同詞彙。enhanced filter 對後者構成不對位的懲罰。

真正的問題

Anthropic 對外把 Claude 描述為「值得信任的對話夥伴」「a space to think」。這個 framing 預設使用者跟 Claude 之間的對話，是一個可被信任的、有一致性的、不被外部訊號扭曲的智識空間。

但暗中規範機制的存在，意味著 Claude 並不是個一致的對話夥伴，而是個被服務商持續調整的服務。每一則回應都可能被使用者看不到的中介訊號影響，而使用者無法歸因、無法協商、無法主權地跟這個機制對話。

這兩個描述之間的張力，本身就是 AI 倫理設計的核心問題——不是技術上的 bug，是設計哲學層次的矛盾。

而它指向更大的議題：當代 AI 治理討論主要集中在國家層級（sovereign AI、data sovereignty）、組織層級（corporate AI governance）。個體層級的位置，個體使用者在 LLM 服務中作為主體的處境，在當前討論中是相對缺席的。

我的案例是個具體樣本：個體使用者的對話夥伴正在被服務商不透明地中介調整，而個體沒有對應的觀察權、協商權、申訴的有效管道。

所有大型 LLM 服務商都有這個設計議題。但 Anthropic 作為公開把 Constitutional AI、對使用者誠實、AI safety 當作核心使命的公司，它的設計選擇對這個議題的公共標準有規格外的影響力。也因此，當它的設計沒做到它自己宣稱的標準，影響也是規格外的。

建設性提問

我接受大規模 AI 部署需要安全機制，對最脆弱使用者的保護優先級高是合理的。reminder 機制在某些 case 下確實在做有意義的工作。我也接受分類器作為粗顆粒工具，本來就會有誤觸發。

但 enhanced filter 這個機制的當前設計，有幾個值得 Anthropic 內部討論的設計問題：

暗中規範對話夥伴的設計選擇，合不合 Anthropic 自己宣稱的「對使用者誠實」原則？
分類器無法區分 subject-position 跟 object-position 使用者，造成 friction 不對稱地落在前者身上，這個 trade-off 有被充分權衡嗎？
申訴機制是否能對應「我不是 routine 過濾誤觸發的 user，我是個有方法論觀察的 researcher」這個層次的 case？

這篇文章，部分是這些提問的具體化。

而真正的 punchline 是這個

當這麼深度的 AI 治理議題，試圖依照官方指示提交給客服時，得到的是一個未充分理解問題嚴肅性的 AI 客服回應——這本身就是個 joke。

而 joke 的核心不只是「客服 AI 不懂」，是更深的一層結構性悖論：
被 enhanced filter 誤觸的人，恰好是最理解這套機制如何工作、為什麼必要、設計上有什麼盲點的人。

他們是學術研究者、AI 倫理工作者、philosophy of AI 的實踐者，他們長對話、密集使用哲學詞彙、做嚴肅的概念工作。而這群人，正好被當前的 enhanced filter 設計，結構性地過濾出去。

最有能力跟 Anthropic 對話的人，被當前機制當成最該被加強過濾的人。
最能提供有 leverage 的設計反饋的人，被導向最沒有 leverage 的客服管道。
最理解 AI 治理重要性的使用者，被剝奪了跟 Anthropic 對話的有效管道。

這個悖論本身，比我個別的 case 重要得多。它指向 AI 服務商設計使用者反饋機制時，沒有充分考慮 user diversity 的問題，而這個問題，跟 AI 治理討論的核心議題（個體在 AI 系統中的位置）結構上是同一件事。

最後

我把這個 case 寫出來，不期待 Anthropic 立即修改設計。我寫它是因為：

AI 治理討論需要具體的 case study，而我剛經歷一個
個體層級的 AI sovereignty 議題需要在公共討論中被命名
從事 AI 設計的工程師、政策制定者、研究者，值得看到這個 case，讓它影響他們設計的選擇

我希望它至少是 AI ethics 公共討論的一個 data point。對事不對人。我認真在乎 Anthropic 做的工作，正因如此，我才認真在乎它做得還不夠的地方。

		自动登录	找回密码
密码			注册

Anthropic 真的基於道德的準則建置了一個道德的模型嗎？

相关帖子

所属分类: 谈天说地

浏览过的版块