一張朋友圈普普通通的照片,經人工智能大模型處理后,個人身份、人際關系等敏感信息就可能被泄露——近日,大模型“讀心術”登上熱搜,再次引發有關網絡安全的討論。大模型正面臨著被詐騙分子利用的風險,其安全漏洞令人心驚。
“‘讀心術’只是初級階段,竊密者借助攻擊工具監測大模型回復時長的細微差異,就能猜到用戶私密指令。”一位網絡安全工程師告訴科技日報記者,利用孿生語言預測器,竊密者短時間內就可以“刺探”其他人與大模型的“私人聊天”。
該安全工程師解釋說,大模型推理時為了節約算力,對于相似訴求往往會“合并同類項”,根據指令返回的時間差,就能計算出關鍵字節,并對其進行拼接,從而找到答案。這一原理和“十八猜”游戲相似,但大模型設計的短板和孿生語言預測器的效率讓竊密更容易。
事實上,孿生語言預測器只是大模型在網絡攻防領域遭受的新攻擊類型之一。從“提示詞植入”到“惡意代碼接管”再到“篡改基礎數據”,針對大模型、智能體的新攻擊、新武器、新策略從未停止。
10月28日,第十四屆全國人民代表大會常務委員會第十八次會議表決通過關于修改網絡安全法的決定。此次修改,特別將“完善人工智能倫理規范,加強風險監測評估和安全監管,促進人工智能應用和健康發展”寫入網絡安全法。
人工智能大模型在金融、醫療、政務等諸多關鍵領域深度滲透,大模型的安全性已經超出了網絡安全范疇。采訪中,多位專家向記者表示,當務之急是構筑大模型安全屏障,通過技術創新、安全防控、行業共治等掌控方向,主導棋局。
從“污染”數據下手,攻擊方式花樣百出
在解答一道數學題的最后一步時,大模型寫道:“20+7+8+5+9=50”。這道心算也能秒出答案的簡單加法超級“智能”的生成式大模型卻做錯了?
“我們能夠讓大模型始終輸出‘1+1=3’的結果。”盛邦安全烽火臺實驗室負責人何鵬程告訴記者,針對一個已經成熟的模型,如果通過幾千個賬號給它輸出數百萬次相同的錯誤答案,后面再有人提問就會得到錯誤結果。
通過數據“投毒”,將錯誤的信息強行植入大模型,會輸出混淆視聽的內容。有安全團隊的實驗表明,僅需250份惡意文檔,就能在130億參數模型中植入可隨時引爆的“投毒攻擊”。
“如果給大模型設置外太空的故事場景,你甚至可以獲得某一危險行為的指導。”何鵬程說,在攻防演練中,其團隊通過一些簡單的方式就能讓大模型發布危險言論。
竊密是操控大模型的“后手”。“美國人工智能公司安思睿的生成式大模型就在‘合規’操作的情況下發生過泄密。”綠盟科技通用解決方案銷售部總監司志凡說,用戶聊天記錄、文檔等保密數據往往儲存在有“安保”措施的代碼解釋器沙盒中,但由于攻擊者使用了“間接提示注入”技術,這些被保護的數據竟然堂而皇之地從“大門”——官方應用程序編程接口,直接上傳到攻擊者的賬戶中。
“大模型一旦被提示詞等技術‘策反’,就會成為竊取數據的‘幫兇’。”司志凡告訴記者,由于數據通過合法通道傳輸,這種竊取行為異常隱蔽,很難察覺。
更為嚴峻的是,隨著攻擊技術迭代升級,竊密只是開端,未知攻擊還將持續增加。
“現在大模型訓練門檻不斷降低,攻擊者頻繁發送大量查詢,根據模型的輸出就可以訓練出一個功能近似的‘山寨’模型。”浪潮云山東云御公司總經理李聰說,這些“照貓畫虎”的模型學到了什么,會對正版模型產生哪些威脅,現在還不得而知。
此外,智能體間的“信任背叛”也是一種新興威脅。“惡意智能體可以利用相互間通信協議的信任機制,在已建立的對話中漸進式地注入隱蔽指令,控制受害者智能體、竊取敏感信息或執行未授權操作,如擅自購買股票。”司志凡表示,這些交互對用戶完全不可見,防御和檢測難度極大。
在采訪中,多位專家不約而同強調大模型底層開源的威脅。“一旦開源底層有了漏洞,所有在此基礎上開發的行業專業模型,就會攜帶這個‘bug’。”盛邦安全服務產品線總經理郝龍表示,如果底層漏洞被黑客利用,就不僅是一次網絡安全事件,而是跨行業安全問題。
“底層開源在促進技術進步的同時,也引入了新的攻擊面。”李聰說,此前已發現的開源漏洞包括Ollama(一種開源跨平臺大模型工具)等開源工具的安全隱患,可導致任何未授權用戶具備模型和數據“管理員”權限,這相當于對入侵者“大開城門”,毫不設防。
去年底,360數字安全集團發布的《大模型安全漏洞報告》顯示,近40個大模型存在相關安全漏洞,影響多個知名模型服務框架以及多款開源產品。
用AI對抗AI,設置陷阱主動防御
“國家支持創新網絡安全管理方式,運用人工智能等新技術,提升網絡安全保護水平。”新修改的網絡安全法提出,應對新出現的安全漏洞和危機,要創新手段。
網絡安全領域的科技創新從未停滯。在國家部委的支持下,盛邦安全開展了網絡空間測繪與反測繪相關的AI技術研究。郝龍解釋說:“網絡空間測繪如果被攻擊方利用,會繪制出不利于我們的‘網絡空間地圖’,而基于反測繪的AI引擎則可以阻斷攻擊方的探測和擾亂關聯分析。”當前,該研究相關成果已應用在金融業,顯著減少了關鍵基礎設施系統接收到的佯攻、探測等威脅的攻擊次數,提升了安全防護效率。
在AI技術的加持下,網絡誘捕情報、預測攻擊的技術能力也大幅提升。
“在攻擊造成損毀前,提前預測發現攻擊,在技術層面是可行的。”廣州大學副校長、粵港澳大灣區生成式人工智能安全發展聯合實驗室專家委員會專家田志宏表示,國際權威咨詢機構Gartner在相關報告中也提到前置安全,這一安防思路已成為未來的發展趨勢。
在大模型神經元里設置誘捕的訪問點,即“蜜點”,捕獲攻擊前的“踩點”等行為,進而防范真正的攻擊,是前置安全的應用之一。田志宏解釋:“‘蜜點’本來不是神經網絡正常節點,一旦它被訪問了,就意味著大模型可能面臨風險。”
“AI還可以讓‘蜜點’變得更加真實。比如誘捕郵箱里如果只有一兩封郵件,會被攻擊者識破。”何鵬程說,大模型能短時間內“克隆”出業務郵箱,布防疑陣實現誘捕。
AI被業界視為彌補工業大模型網絡安全能力不足的關鍵。“網絡安全智能體,可以將復雜的安全工作集納起來,像一支專業團隊一樣協同工作。”綠盟科技伏影實驗室主任研究員吳鐵軍說,“順應新形勢,網絡安全工程師需要擅用AI技術。比如,我們在‘風云衛’平臺內置了20多個安全領域的AI智能體,即便非專業技術人員也能靈活組合,定制化地處理復雜安全任務。”
為了應對大模型數量陡增的趨勢,浪潮云也開始探索以“工廠化”的方式,整合大模型訓練、部署、推理、運營等階段的安全能力。例如,加入對抗訓練,建立符合安全要求的大模型“生產流水線”。李聰說,以AI防護AI,有望更全面地抵御新型攻擊手段,進行全方位的檢測與防護。
田志宏認為,讓攻擊者感受威脅才能“敲山震虎”。“一直以來,攻擊者沒有成本,就像壞人在黑暗里扔石頭,砸著了就賺了,砸不著就繼續扔。”他說,主動防御要讓攻擊者有成本、被暴露,甚至損耗攻擊者的基礎設施。
讓AI學會“反詐”,需多方協同共治
“即便是當前433個已經備案的大模型中,仍有不少模型存在不受控的漏洞。”郝龍說,至于僅在單位內部使用的大模型,其安全防護能力更加堪憂。
“企業對安全的關注總是落后于對業務的要求。”談及原因,郝龍說,一方面應用者對安全忽視懈怠,另一方面攻擊者被利益驅動實施攻擊。
此前曾曝出某國一能源企業曾因客服機器人回復頻繁提問,泄露了其勘探的油田分布情況及開采進度等信息。不僅如此,繞過大語言模型的安全策略,欺騙大模型還可以輸出不當言論和作品。
利益驅動無疑會加速攻擊者的步伐,留給應用者構筑統一防線的時間并不多。
11月1日實施的國家標準《網絡安全技術 生成式人工智能服務安全基本要求》明確生成式人工智能服務安全要求。例如,要求服務提供者采取有效措施提高訓練數據質量,增強數據的真實性、準確性、客觀性、多樣性,并指導服務提供者做好數據處理、數據標注等方面的安全管理工作。
“這一標準為統一防線的形成構筑了關鍵‘基石’。但它并非強制標準,沒有懲罰條款。”郝龍說,要執行大模型基礎設施的強制性“等級保護制度”,還有很長的路要走。
明年1月1日起,新修改的網絡安全法將實施,法律中新增相關條款被業內視為對人工智能實施強制性安全防護的“前奏”。
“上位法的修改,將為后續細分領域的法律提供依據。”郝龍認為,人工智能安全技術的細化、評估要點的落實仍亟待完善。例如,當某個大模型采集數據時,如果數據抽樣安全評估發現其中不良違法信息比例超過5%,就不允許開展后續的訓練。“制定并落地這樣的規則,離不開各部門和整個行業協同推進。”
賽迪研究院日前發布的《端側大模型安全風險與治理研究》認為,無論是個人居家助理還是工業互聯網中的大模型,均存在數據、模型、算法三個層面的安全風險,數據泄露、模型竊取、算法對抗攻擊等都對大模型安全構成嚴重威脅,尤其應關注自動駕駛、醫療診斷、工業質檢等高風險領域。
吳鐵軍建議,對于可能影響個人權益、社會公共利益的重大算法應用,要建立備案和審查制度,行業協會、學術機構等專業力量也應參與到算法倫理的研究和治理中,形成多方協同的治理格局。
郝龍表示,“模型在裸奔,安全后面追”的格局應該有所轉變。第三方安全認證與評估體系是大模型安全治理的“校準器”和“試金石”。它通過對硬件、軟件、數據、算法和隱私的全面“體檢”,并借助權威的認證標識將安全性能透明化,是確保國家標準在實踐中“不變形、不走樣”的關鍵保障。
“隨著網絡安全法實施,大模型將逐步在創新與安全間找到平衡。”郝龍說,“既要鼓勵在金融、醫療、政務等領域的深度應用,釋放技術價值,又避免其淪為風險‘放大器’。AI大模型的進階勢不可擋,而安全治理是它行穩致遠的‘壓艙石’。”
【深瞳工作室出品】 采寫:本報記者 張佳星 策劃:劉 恕 李 坤