安全汪

Home
Writing

Writing

2024-10-27
Meta提出了一种基于检索增强生成的内容审核方法Class-RAG
2024-10-27
香港科技大学（广州）提出一种综合评估编辑语言模型的方法
2024-10-26
印度理工学院鲁尔基分校提出基于注意力重加权的无训练安全内容生成方法
2024-10-26
北京航空航天大学提出一种多目标黑箱优化框架BlackDAN用于有效的上下文劫持大型语言模型
2024-10-26
加州大学圣克鲁斯分校提出了一种基于注意力操控的增强型大语言模型越狱攻击方法
2024-10-26
新加坡国立大学提出的基于大型语言模型的内容审核守护模型的可靠性校准方法
2024-10-26
莫纳什大学提出多轮交互的Jigsaw Puzzles策略以破解大型语言模型的安全防护
2024-10-26
香港科技大学提出JAILJUDGE：一套综合性恶意指令评估基准与多智能体增强解释评估框架
2024-10-26
哥伦比亚大学提出自监督提示注入（SPIN）方法以增强大型语言模型的安全性
2024-10-26
卡内基梅隆大学提出了一种针对大语言模型的持久性预训练数据中毒攻击方法

Page 3 of 5

Copyright © 2024 anquanwang

Home
Writing