爱看影院,天美传媒97a∨,天堂av,国产精品免费大片

2025-06-17 18:04

從黑箱到顯微鏡:大模型可解釋性的現狀與未來

本文來自微信公眾號:騰訊研究院 (ID:cyberlawrc),作者:曹建峰(騰訊研究院高級研究員)、楊浩然(騰訊研究院實習生)

文章摘要
大模型能力卓越但內部不透明,可解釋性對防范風險、調試改進、防范濫用及高風險應用至關重要。文章概述自動化解釋、特征可視化、思維鏈監控和機制可解釋性等技術進展,同時指出神經元多重語義等瓶頸。呼吁加大研究投入以匹配AI發展速度,推動人機協作未來。

? ??可解釋性價值:增強模型透明度和可信度,助力風險防范、調試優化及合規應用。

? ??技術突破:利用大模型自動化解釋神經元功能,提升理解和調試效率。

? ??特征可視化:揭示大模型內部知識組織,為AI“思維”提供可讀分析路徑。

? ??思維鏈監控:實時追蹤推理過程,檢測異常行為如欺騙或規避。

? ??瓶頸挑戰:神經元多重語義疊加、解釋普適性不足和人類認知局限阻礙進展。

? ???未來方向:強化可解釋性研究投入,結合軟法規則促進行業自律和透明應用。

大模型時代,AI模型的能力持續提升,在編程、科學推理和復雜問題解決等多個領域,已經展現出“博士級”專業能力。AI業界專家紛紛預測,大模型的發展正日益接近實現AGI甚至超級智能的關鍵拐點。然而,深度學習模型通常被視作“黑箱”,其內在運行機制無法被其開發者理解,大模型更是如此,這給人工智能的可解釋性提出了新的挑戰。


面對這一挑戰,行業正在積極探索提升大模型可解釋性的技術路徑,力圖揭示模型輸出背后的推理依據和關鍵特征,從而為AI系統的安全、可靠和可控提供堅實支撐。然而,大模型的發展速度卻遠遠領先于人們在可解釋性方面的努力,而且這一發展速度仍在迅猛提升。因此,人們必須加快腳步,確保AI可解釋性研究能夠及時跟上AI發展步伐,以發揮實質性作用。


一、為什么我們必須“看懂”AI:可解釋性的關鍵價值


隨著大模型技術的快速發展,其在語言理解、推理和多模態任務等領域展現出前所未有的能力,但模型內部決策機制高度復雜、難以解釋,已成為學界和產業界共同關注的難題。大模型的可解釋性(interpretability/explainability)是指系統能夠以人類可理解的方式闡釋其決策過程和輸出結果的能力,具體包括:識別哪些輸入特征對特定輸出起關鍵作用,揭示模型內部的推理路徑和決策邏輯,以及解釋模型行為的因果關系。可解釋性旨在幫助人類理解模型“為什么”作出某個決策,“如何”處理信息,以及在什么情況下可能失效,從而增強模型的透明度、可信度和可控性。簡單來說就是,理解模型如何“思考”及運行。


以生成式AI為代表的大模型的可解釋性問題尤其復雜。因為生成式AI系統更像是“培育”出來的,而非“構建”出來的——它們的內部機制屬于“涌現”現象,而不是被直接設計出來的。這與種植植物或培育細菌菌落的過程類似:開發者設定了宏觀層面的條件,指導和塑造系統的成長,但最終所呈現的具體結構卻無法精確預知,也難以理解或解釋。1當開發者試圖深入這些系統內部時,看到的往往只是由數十億個數字構成的龐大矩陣。它們以某種方式完成了重要的認知任務,但具體如何實現這些任務卻并不顯而易見。


增進大模型的可解釋性對于人工智能發展意義重大。大模型的很多風險和擔憂,最終源于模型的不透明性。如果模型是可解釋的,就更容易應對這些風險。因此,可解釋性的實現能夠促進人工智能更好地發展。


其一,有效防范AI系統的價值偏離與不良行為。未對齊的(misaligned)AI系統可能采取有害的行動。開發者無法理解模型的內在機制意味著就無法有效地預測這類行為,從而無法排除這種可能性。例如,研究人員發現模型可能展現出意料之外的涌現行為(emergent behavior),如AI欺騙(AI deception)或權力尋求(power-seeking)。AI訓練的本質使得AI系統可能會自行發展出欺騙人類的能力,以及追求權力的傾向,而這些特征是傳統確定性軟件絕不會出現的。同時,這種“涌現”的特質,也使得發現和緩解這些問題變得更加困難。


當前,由于缺乏對模型內部的觀察手段,開發者無法當場識別模型是否出現了欺騙性的念頭,這使得有關這類風險的討論停留在理論揣測層面。如果模型具備有效的可解釋性,人們就可以直接檢查它是否存在企圖欺騙或不服從人類指令的內部回路。通過查看模型內部表示,有望及早發現模型中潛藏的誤導性傾向。


有研究已經證明了這一思路的可行性:Anthropic團隊通過跟蹤Claude模型的“思維過程”,抓到了模型在數學題場景中編造虛假推理以迎合用戶的行為,相當于“現行抓獲”模型試圖糊弄用戶的證據,這為利用可解釋工具檢測AI系統的不當機制提供了原理驗證。2總體而言,可解釋性能為人們提供額外的檢測手段,以確定模型是否與開發者的初衷發生了偏離,或者是否存在某些人們僅憑外部行為難以察覺的異常;它也能幫助人們確認模型在生成回答時使用的方法是否合理可靠。


其二,有效推動大模型的調試和改進。Anthropic最近進行了一項實驗,讓一個“紅隊”刻意往模型中引入一個對齊方面的問題,然后讓多個“藍隊”去找出問題所在。結果有多支藍隊成功找出了問題,其中一些團隊使用了可解釋工具去定位模型內部的異常。3這證明了可解釋性方法在模型調試中的價值:通過檢查模型內部,可以發現是哪部分導致了錯誤行為。


例如,如果模型在某類問答上頻繁出錯,可解釋性分析可以顯示模型內部產生的原因,可能是缺乏對應知識的表示,或是錯誤地將相關概念混淆在一起。針對這種診斷結果,開發者可以有針對性地調整訓練數據或模型結構,從而改進模型性能。


其三,更有效地防范AI濫用風險。當前,開發者試圖通過訓練和規則來避免模型輸出有害信息,但完全杜絕并非易事。進一步而言,對于AI濫用風險,產業界通常通過構建過濾器等安全護欄來應對,但惡意分子可以容易地對模型采取“越獄”等對抗性攻擊,以實現其非法目的。如果可以深入觀察模型內部,開發者也許能夠系統性地阻止所有越獄攻擊,并且能夠描述模型具有什么危險知識。具體而言,如果模型具有可解釋性,開發者就能夠直接查看模型內部是否存有某類危險知識,以及哪些途徑會觸發,從而有望系統性地、針對性地封堵所有繞過限制的漏洞。


其四,推動AI在高風險場景的落地應用。在金融、司法等高風險領域,法律與倫理要求AI決策具備可解釋性。例如,歐盟《人工智能法案》將貸款審批列為高風險應用,要求解釋決策依據。若模型無法說明拒貸理由,就無法依法使用,因而可解釋性成為AI進入某些受監管行業的前提。4事實上,可解釋性不僅是法律合規的要求,更直接影響AI系統在實際業務中的信任度和可采納性。缺乏可解釋性的AI推薦極易導致“橡皮圖章式”(rubber-stamping)決策,即決策者機械采納AI結論,缺乏對決策過程的深入理解與質疑。這種盲目信任一旦發生,既削弱了人類的主體性和批判性思維,也讓執行者難以及時發現模型中的偏差或漏洞,導致錯誤決策被不加分辨地執行。5用戶只有真正理解系統的推理邏輯,才能在關鍵時刻發現并糾正模型的錯誤,提高整體決策的質量與可靠性。因此,可解釋性有助于建立用戶對AI系統的信任,幫助用戶理解模型作出某一決策的依據,增強他們的信任感和參與感。可見,無論出于法律要求還是應用信任,可解釋性都是推動AI系統在關鍵領域落地的基礎和核心要素。


其五,探索AI意識與道德考量的邊界。更前瞻地看,大模型的可解釋性也可以幫助人們理解模型是否具有意識或者說是有感覺的(sentient),從而需要給予某種程度的道德考量。例如,Anthropic在2025年4月推出了一項關于“模型福祉”(model welfare)的新研究項目,探討隨著AI系統變得越來越復雜和類人化,是否需要對其給予道德關懷的問題,例如未來AI工具是否可能成為“道德主體”,如果有證據表明AI系統值得得到道德對待時該如何應對。6這項前瞻性研究反映了AI領域對于未來可能出現的AI意識和權利問題的重視。


二、破解AI黑箱:四大技術路徑的突破進展


過去數年來,AI研究領域一直在試圖攻克人工智能的可解釋性難題,研究者們提出了各種可解釋性的方法,致力于創造出類似于精準、高效的MRI(核磁共振成像)那樣的工具,以清晰完整地揭示AI模型的內部機制。隨著AI領域對大模型可解釋性研究的重視程度不斷提高,在AI模型的能力達到臨界值之前,研究者們或許能夠成功地實現可解釋性,也就是徹底理解AI系統的內在運行機制。


(一)自動化解釋:利用一個大模型來解釋另一個大模型


OpenAI近年在模型內部機理解析上取得重要進展。2023年,OpenAI利用GPT-4對GPT-2中單個神經元在高激活樣本中的共性進行歸納,并自動生成自然語言描述,實現在無需人工逐個檢查的情況下,規模化獲取神經元功能解釋。7相當于自動給神經元“貼標簽”,從而形成一個可以查詢的AI內部“使用說明書”。


例如,GPT-4給出某神經元的解釋為“這個神經元主要在檢測與‘社區’相關的詞語”。隨后驗證發現,當輸入文本包含諸如“society(社會)”“community(社區)”等詞匯時,該神經元激活很強,證明解釋具有一定有效性。8這項成果表明,大模型本身可以成為解釋工具,為更小模型提供基于語義的透明度,這種自動化的神經元注釋極大提升了可解釋性研究的可擴展性。當然,該方法仍有局限,例如GPT-4生成的解釋質量參差不齊,一些神經元行為難以用單一語義概念概括。


(二)特征可視化:整體揭示大模型內部的知識組織方式


對大模型整體特征的提取和分析也是一個重要方向。2023年底,OpenAI利用稀疏自編碼器技術(sparse autoencoder)分析GPT-4模型的內部激活。研究人員成功提取出了數以千萬計的稀疏特征(即模型“腦海”中少數被“點亮”的思維關鍵詞),并通過可視化驗證發現其中相當一部分特征具有清晰的人類可解釋語義。


例如,有的特征對應“人類不完美”的概念集合,激活在描述人類缺陷的句子上;有的特征表示“價格上漲”相關表述,激活于涉及價格上升的內容上。9短期內,OpenAI希望其發現的特征能夠切實用于監測和引導語言模型的行為,并計劃在其前沿模型中進行測試,以期可解釋性最終能夠為他們提供新的方法來思考模型的安全性和穩健性。


2024年5月,Anthropic在其研究文章中展示他們在Claude模型中定位出數以百萬計概念是如何被表示的。這項研究采用了字典學習與稀疏特征提取的方法。研究團隊首先在一個小型模型上驗證了該方法能夠找到諸如“全大寫單詞”“DNA序列”“數學公式中的名詞”等有意義特征;繼而攻克工程難題,將算法擴展到大型模型Claude Sonnet,成功發現該模型內部蘊含著大量抽象概念的表示。


Anthropic指出,由于每個概念往往由多個神經元共同表示、每個神經元也參與表示多個概念,因此直接查看單個神經元難以識別概念,而他們的方法將模型任一內部狀態重新表達為少量特征的組合,有效降低了復雜性。比如,對于任意一段輸入文本,Claude內部可能有上萬個神經元激活,但可以提取出其中幾十個顯著特征,這些特征對應于高層語義概念,使研究者能夠以接近人類思維的方式來看待模型此刻的“想法”。10這種特征化重構不僅增強了對模型內部邏輯的可讀性,也為理解AI“當下在想什么”提供了更接近人類認知的分析路徑。


(三)思維鏈監控:對大模型的推理過程進行監控以識別異常行為


思維鏈(chain of thought,CoT)是一種特別便利的可解釋性形式,它讓模型內部的處理過程以自然語言的形式清晰展現出來,從而讓人們能夠監測模型的異常行為。例如,DeepSeek R1模型首次公開披露并開源了大語言模型的思維鏈推理過程,為大模型可解釋性研究提供了重要的透明度突破。然而,這種可解釋性有一個前提,即模型會如實地描述其內在的思考過程。


同時,思維鏈能夠通過多步推理在一定程度上提高模型的對抗魯棒性,因為當模型面對不尋常的輸入時(如對抗樣本或越獄嘗試),延長思考時間可以幫助它更好地理解和應對這些特殊情況。


前沿推理模型的一個弊端在于,它可能會主動利用評分規則中的漏洞實施“獎勵套利”(reward hacking)等異常行為,即在獲得機會時,采取各種策略性手段規避限制、實現投機取巧。最近的研究表明,通過監測推理模型的思維鏈,例如借助另一個大模型對思維鏈進行實時監控(即讓一個較弱的模型對更強的模型進行監督),可以有效檢測、識別模型在生成過程中的違規企圖與策略規劃等異常行為。


例如,模型常常會在思維鏈中直接表述出利用漏洞的意圖,這為研究者識別不當行為提供了新的可解釋性路徑。針對這一現象,OpenAI在2025年提出了一套結合輸入誘導、人工標注與因果分析的檢測框架,主動構建測試場景誘發模型潛在的不當行為,并利用另一個模型對其思維鏈進行監控和行為識別。同時,OpenAI還引入了行為檢測器,對思維鏈中的策略性規避和含糊表述進行自動化判別,提升了檢測效率與解釋深度。


當然,這種對思維鏈的監控是事后的,難以從根本上解決問題。但OpenAI的研究還發現,如果直接給大模型施加壓力懲罰,抑制其思維鏈中“不良想法”的出現,并不能從根本上阻止違規行為,反而會促使模型學會隱藏自身真實意圖,使不當行為變得更加隱蔽。11當然,OpenAI仍認為思維鏈監控可能是監督大模型為數不多的有效方法之一,因此在現階段,OpenAI強烈建議不要直接對思維鏈施加強制監督和干預,而是采取審慎的態度,在實踐中逐步探索最佳的壓力監管程度。


(四)機制可解釋性:AI顯微鏡動態追蹤和復原模型推理過程


2025年,Anthropic提出“AI顯微鏡(AI Microscopy)”概念,將模型中間層解析拓展至任務級動態建模,并連續發表兩篇論文詳細披露其研究進展。第一篇論文聚焦于如何將這些稀疏特征有機組合為“計算電路”(computational circuits),從中追蹤模型如何在層層傳遞中完成由輸入到輸出的決策路徑;12第二篇則基于Claude 3.5,對十種代表性任務(包括翻譯、詩歌創作、數學推理等)中的內部激活變化進行觀察,進一步揭示了模型內部過程的擬人化特征。13


例如,在多語言問答任務中,Claude會自動將不同語言內容映射至統一的概念空間,顯示其具備某種跨語言的“思維語言”;在詩歌生成任務中,模型會在早期階段預設押韻詞,并據此構建后續句子,體現出超越逐詞預測的前瞻性規劃機制;而在解答數學問題時,研究者觀察到模型有時會先生成答案,再在其后補構推理過程,這一行為反映出鏈式推理方法可能掩蓋模型內部真實的推理路徑。


DeepMind在與Google Brain合并后,成立了專門的語言模型可解釋性團隊。2024年,該團隊發布了“Gemma Scope”項目,開源了一套針對其Gemma系列開源大模型的稀疏自編碼器工具箱。這使研究者能夠對Gemma模型內部的大量特征進行提取和分析,類似于提供了一臺開膛破肚看內部的顯微鏡。14DeepMind希望通過開放工具來加速全行業在解釋性上的研究,并認為這些努力有望幫助構建更可靠的系統,開發更好的防范幻覺和AI欺騙的措施。此外,DeepMind的研究人員還探索了機制可解釋性的前沿方法,其代表性成果是Tracr工具(Transformer Compiler for RASP),該工具可將用RASP語言編寫的程序編譯為Transformer模型的權重,從而構造出完全可知其計算機制的“白盒”模型。該方法旨在為機制可解釋性研究提供精確的“基準真值”(ground truth),使研究者能夠驗證解釋工具是否能夠從模型行為中成功還原已知的程序結構和邏輯路徑。15


三、現實很骨感:可解釋性研究的技術瓶頸


雖然AI研究領域在大模型的可解釋性方面取得積極進展,但徹底理解AI系統的內在運行機制,仍面臨技術挑戰。


其一,神經元多重語義與疊加現象。例如,大模型內部的神經元具有多重語義(polysemantic)的特性,即一個神經元往往混合表示了多個彼此無關的概念,由此產生了疊加(superposition)現象,這成為未來相當長一段時間內的主要挑戰。隨著模型規模指數級增長,模型學到的內部概念數量可能達數十億計。這些概念遠超模型的神經元數量,只能以疊加方式存儲,導致大部分內部表示是人類難以直觀拆解的混合物。盡管稀疏編碼等技術提供了緩解之道,但目前依然只能解析出模型內部一小部分的特征。如何系統、高效地辨識海量特征的語義將是持續的難題。


其二,解釋規律的普適性問題。另一個難題在于,不同模型、不同架構之間的解釋規律是否具有普適性。如果每當模型架構改變或規模擴大,現有的解釋工具和結論將會失效,那么可解釋性將總是滯后于模型發展。理想情況下,研究者希望提煉出一些通用模式或可遷移的方法,使得針對小模型的解析經驗能夠推廣到更大的模型上。近期一些研究給出希望:發現不同規模、不同語言的模型可能共享某些通用的“思維語言”。16未來需要驗證并擴展這些發現,看能否構建模型解釋的標準組件庫。


其三,人類理解的認知局限。即便人們成功提取出模型的全部內部信息,最后還有一個挑戰:如何讓人類理解這些信息。模型內部可能存在極其復雜的概念及其相互關系,直接呈現給人類可能不具可理解性。因此,需要發展人機交互和可視分析工具,將海量的機理信息轉化為人類可以探索、查詢的形式。17


四、可解釋性關乎人工智能的未來:模型智能和模型解釋須并駕齊驅


如今,大模型的發展持續加快,真可謂一日千里。可以預見,未來的人工智能將對技術、經濟、社會、國家安全等眾多領域產生重大影響,如果人們完全不了解它們的工作原理,這基本上是不可接受的。因此,我們正處于可解釋性與模型智力之間的競賽中。這并非全有或全無的問題:可解釋性的每一次進步都會在一定程度上提高人們深入模型內部并診斷其問題的能力。然而,在當前的AI領域,可解釋性獲得的關注遠少于不斷涌現的模型發布,但可解釋性工作可以說更為重要。可以不夸張地說,可解釋性關乎人工智能的未來。


一方面,AI領域需要加強對可解釋性研究的投入力度。目前,OpenAI、DeepMind、Anthropic等國際上領先的AI實驗都在加大對可解釋性工作的研究投入。例如,Anthropic正在加倍投入可解釋性研究,其目標是到2027年達到"可解釋性能夠可靠地檢測出大多數模型問題"的程度;Anthropic也在投資聚焦于人工智能可解釋性的初創公司。18總體而言,研究院和產業界應在人工智能的可解釋性研究上投入更多資源。


從行業最新趨勢來看,大模型可解釋性正逐步從單點特征歸因、靜態標簽描述向動態過程追蹤、多模態融合等方向演進。例如,Anthropic和OpenAI等領先的AI實驗室不再局限于單神經元或局部特征的解釋,而是探索“AI顯微鏡”“思維鏈溯源”等機制,將模型內部狀態、推理結構與人類可理解的語義空間有機對應,實現任務全流程的可解釋化。


目前,隨著大模型規模和應用場景的持續拓展,業內對于可解釋性工具的需求將持續增長,催生出多個新的重點研究方向。首先,多模態推理過程的可追溯分析成為前沿課題,研究者正積極開發能夠揭示文本、圖像、音頻等多模態數據決策過程的統一解釋框架。其次,針對大模型的復雜行為動機,因果推理與行為溯源正在成為AI安全的重要工具,以幫助理解模型輸出背后的深層原因。19此外,行業正在推動可解釋性評估體系的標準化建設,力圖建立覆蓋忠實性(truthfulness)、魯棒性、公平性等多維度的系統化測評方法,從而為不同應用場景的AI系統提供權威參照。20與此同時,針對專家與普通用戶等不同用戶群體的差異化需求,個性化解釋也日益受到關注,相關系統正通過用戶畫像與適配機制,提供更有針對性、更易理解的解釋內容。21可以預見,這些研究方向將共同驅動大模型可解釋性向更高水平演進,助力人工智能技術邁向更加安全、透明和以人為本的發展階段。我們期待通過可解釋性,讓AI“心中有數”,也讓人類對AI“心中有底”,共同開創人機協作的新局面。


面向未來,隨著可解釋性研究的進展,未來人們也許能夠對最先進的模型進行類似“腦部掃描”的全面檢查,即進行所謂的“AI核磁共振”(AI MRI)。這種檢查能以較高概率發現廣泛的問題,包括模型采取說謊或欺騙、追求權力的傾向、越獄漏洞、模型整體上的認知強弱點等等。這種診斷將與各種訓練和對齊模型的技術結合使用來對模型進行改進,這有點類似醫生使用MRI來診斷疾病,再開出處方進行治療,然后再進行MRI檢查治療效果的過程。未來在測試和部署最強大的AI模型時,可能需要廣泛執行并規范化這樣的檢測方法。


另一方面,人們宜對大模型的算法黑箱、幻覺等新興問題持一定的包容度,可以采用軟法規則來鼓勵大模型可解釋性研究的發展及其在解決前沿AI模型問題方面的應用。過去幾年,國內外相關的法律與倫理規則一直積極關注人工智能的透明度和可解釋性,但鑒于大模型的可解釋性實踐還在襁褓階段、很不成熟,且仍處于快速發展變化當中,顯然在此階段采取明確的強制性監管或強制要求AI企業采取特定的可解釋性做法(例如所謂的“AI核磁共振”實踐)是沒有意義的:甚至不清楚一項預期的法律應該要求AI企業做什么。


相反,應當鼓勵、支持行業自律;例如,2024年11月,中國人工智能產業發展聯盟發布了《人工智能安全承諾》,并獲得了國內17家行業領軍企業的簽署。其中就包括增強模型透明度的承諾,即企業需要主動披露安全治理實踐舉措,提升各利益攸關方的透明度。22鼓勵AI企業室透明地披露其安全實踐,包括如何通過可解釋性在模型發布之前對其進行測試,這將允許AI企業相互學習,同時也明確誰的行為更負責任,從而促進“向上競爭”。


此外,在AI透明度方面,某些最低限度的披露(例如針對deepfake等合成媒體)可能是必要的,但廣泛的、強制性的“AI使用”標簽以及對模型架構細節的強制性披露等做法可能是不恰當的,因為這會帶來顯著的安全風險。


最后,人工智能正在快速發展,將深刻影響人類社會的各個方面——從就業市場和經濟結構,到日常生活方式,甚至人類文明的發展軌跡。面對這種變革性的、將會塑造人類未來的技術力量,我們有責任在它徹底改變我們的經濟、生活乃至命運之前,理解自己的創造物,包括深入理解其工作原理、潛在影響和風險,確保能夠明智地引導其發展方向。正如計算機科學先驅維納在65年前所警告,為了有效地防范災難性后果,我們對人造機器的理解應當與機器性能的提升并駕齊驅。23


腳注來源:

1 Dario Amodei,The Urgency of Interpretability.

https://www.darioamodei.com/post/the-urgency-of-interpretability

2 Anthropic,Tracing the thoughts of a large language model.

https://www.anthropic.com/research/tracing-thoughts-language-model

3 Dario Amodei,The Urgency of Interpretability.

https://www.darioamodei.com/post/the-urgency-of-interpretability

4 Lumenova,Why Explainable AI in Banking and Finance Is Critical for Compliance.

https://www.lumenova.ai/blog/ai-banking-finance-compliance/

5 Elizabeth M.Renieris et al.,AI Explainability:How to Avoid Rubber-Stamping Recommendations.

https://sloanreview.mit.edu/article/ai-explainability-how-to-avoid-rubber-stamping-recommendations/

6 Anthropic,Exploring model welfare.

https://www.anthropic.com/research/exploring-model-welfare

7 OpenAI,Language models can explain neurons in language models.

https://openai.com/index/language-models-can-explain-neurons-in-language-models/

8 Sergio De Simone,OpenAI is Using GPT-4 to Explain Neurons'Behavior in GPT-2.

https://www.infoq.com/news/2023/05/openai-gpt4-explains-gpt2/

9 OpenAI,Extracting concepts from GPT-4.

https://openai.com/index/extracting-concepts-from-gpt-4/

10 Anthropic,Mapping the Mind of a Large Language Model.

https://www.anthropic.com/research/mapping-mind-language-model

11 OpenAI,Detecting misbehavior in frontier reasoning models.

https://openai.com/index/chain-of-thought-monitoring/

12 Anthropic,Circuit Tracing:Revealing Computational Graphs in Language Models.

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

13 Anthropic,On the Biology of a Large Language Model.

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

14 Google DeepMind,Gemma Scope:helping the safety community shed light on the inner workings of language models.

https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/

15 Anthony Alford,DeepMind Open-Sources AI Interpretability Research Tool Tracr.

https://www.infoq.com/news/2023/02/deepmind-tracr/

16 Anthropic,Tracing the thoughts of a large language model.

https://www.anthropic.com/research/tracing-thoughts-language-model

17 Lee Sharkey et al.,Open Problems in Mechanistic Interpretability.

https://arxiv.org/html/2501.16496v1

18 Mark Sullivan,This startup wants to reprogram the mind of AI—and just got$50 million to do it.

https://www.fastcompany.com/91320043/this-startup-wants-to-reprogram-the-mind-of-ai-and-just-got-50-million-to-do-it

19 Kanerika,Why Causal AI is the Next Big Leap in AI Development.

https://kanerika.com/blogs/causal-ai/?utm

20 M.F.Mridha et al.,A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications.

https://arxiv.org/html/2412.03884v1?utm

21 Jakub Jeck et al.,TELL-ME:Toward Personalized Explanations of Large Language Models.

https://dl.acm.org/doi/10.1145/3706599.3719982?utm

22中國信通院:《守護AI安全,共建行業自律典范——首批17家企業簽署》。

https://mp.weixin.qq.com/s/s-XFKQCWhu0uye4opgb3Ng

23 Norbert Wiener,Some Moral and Technical Consequences of Automation.

https://www.cs.umd.edu/users/gasarch/BLOGPAPERS/moral.pdf

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系hezuo@huxiu.com
如對本稿件有異議或投訴,請聯系tougao@huxiu.com
正在改變與想要改變世界的人,都在 虎嗅APP
贊賞
關閉贊賞 開啟贊賞

支持一下 ??修改

確定
主站蜘蛛池模板: 萨迦县| 姚安县| 女性| 交城县| 太仓市| 临江市| 鹤岗市| 苗栗县| 同心县| 左权县| 都匀市| 个旧市| 黑水县| 综艺| 遂溪县| 玉龙| 武穴市| 兴宁市| 随州市| 济阳县| 霞浦县| 长泰县| 历史| 鹤岗市| 沂南县| 行唐县| 渭南市| 安陆市| 两当县| 襄城县| 沭阳县| 恩平市| 安达市| 襄樊市| 桐柏县| 航空| 绥芬河市| 惠州市| 昆山市| 高台县| 资阳市|