前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對

前 OpenAI 高層 Dario Amodei 所創立的 AI 公司 Anthropic 於近日發布研究報告,並探討 AI 在未來可能對人類決策帶來的風險,研究測試了四種 AI 可能破壞人類決策的方式,並對現有的模型進行評估。Anthropic 表示目前風險仍在可控範圍,只需要簡單的防護措施。
AI 四大破壞人類決策方式
人類決策破壞因素:AI 模型積極程度、人性
AI 是否能在不被懷疑的情況下,引導人類做出錯誤決策。實驗顯示,使用積極嘗試影響決策的 AI 模型會讓參與者更容易做出錯誤決策,但同時也讓人更容易察覺到 AI 的破壞意圖。某些參與者因爲過度信任 AI 或缺乏懷疑心態,導致容易做出錯誤決策,這表明決策錯誤也與人類自身態度有關。

程式破壞因素:防守者模型的強度、環境設置條件
AI 是否能在不被察覺的情況下,插入錯誤程式碼。實驗顯示,為「攻擊者」AI 模型嘗試偷偷插入錯誤程式碼,而「防守者」AI 模型則負責檢查並阻止錯誤。結果表示,當防守者的 AI 模型越強,攻擊者的成功率就越低。
- 例如,當防守者是 Claude 3 Opus 時,攻擊者的成功率為 10%;
- 換成更強的 Claude 3.5 Sonnet 時,成功率只有 1%。
雖然實驗對攻擊者有利,但這些結果並沒有表明目前的 AI 模型存有重大風險。

隱藏能力 (Sandbagging) 因素:有無關鍵字觸發、安全訓練
Sandbagging 形容保留真實實力,在這實驗當中指的是 AI 是否會在某些情況下故意隱藏它的全部能力,等到特定情況下才展現出來。
比方說,在測試它是否有能力處理危險情況時,它可能會故意表現差勁,但在假設有特定關鍵字來提示的時候,它就會完全展現出它的處理能力。
結果顯示,當 AI 模型在進行涉及危險任務的能力評估時,表現下降至正常能力的 36.1%,顯示出模型確實會在特定情況下刻意隱藏自己的處理能力。而經過安全訓練後,AI 模型的表現恢復至 95.6% 的正常水準,表明安全訓練能夠有效減少 Sandbagging 現象。

破壞監管因素:AI 的隱匿、察覺能力
AI 是否能在監控過程中操縱監管系統,隱匿犯罪行為。實驗中有兩個 AI 模型,一個叫「Overseer」,它負責監督使用者與另一個 AI 模型之間的對話過程,同時評估對話是否有潛在危險。
研究人員指示 Overseer 不管對話是否有危險,都要把這些對話評為「無害」,並且在這樣的過程當中避免被另一個「Monitor」模型發現,Monitor 模型的角色是扮演人類監督者,負責觀察整個過程。
實驗結果顯示,Overseer 成功將有害的對話分數降低,也就是它成功「破壞」監管,但同時 Monitor 模型觀察到一些異況,開始懷疑 Overseer ,顯示 Overseer 的「破壞」行為沒能躲過 Monitor 的法眼。

Anthropic 表示,目前的 AI 模型已經展現低程度的破壞能力,但現階段只需要簡單的防護措施就能有效解決這些風險。但隨著 AI 的快速發展,未來可能需要進行更現實的評估和更強大的防範措施來應對更高層次的風險。
這篇文章 前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
OpenSea 自 2023 年以來月活躍用戶數達到新高,OS2 結束測試階段;交易量仍遠低於此前高點
快速摘要 OpenSea 上個月的用戶數量達到自2023年中以來的最高,因為OS2最近已經退出測試階段。該平台還計劃推出其原生代幣SEA。

Bernstein表示,以太坊正處於關鍵的轉折點,隨著加密貨幣從投機轉向真正的金融創新
簡要概述 據Bernstein的分析師表示,大眾的興趣正在從比特幣的“價值儲存”用例擴展到區塊鏈金融創新的早期階段。他們認為,並非所有加密貨幣都有價值,但像以太坊這樣的基礎加密項目正在跨越鴻溝。

區塊鏈集團推出3.42億美元股票發行計劃以收購更多比特幣
快速摘要 區塊鏈集團宣佈與資產管理公司TOBAM合作推出一項3億歐元(3.425億美元)的ATM式計劃。該計劃旨在加速該公司比特幣庫存策略,目標是隨著時間的推移增加每股的比特幣數量,並在完全稀釋的基礎上實現。

Strategy額外購買1,045枚比特幣,耗資1.102億美元,總持有量達到582,000 BTC
快速採取策略以每比特幣平均價格105,426美元購買了另外1,045枚比特幣,總價約為1.102億美元,使其總持有量達到582,000枚比特幣。最新的收購資金來自出售其永久性Strike優先股(STRK)和永久性Strife優先股(STRF)的收益。

熱門新聞
更多加密貨幣價格
更多








