安全汪
Home
Writing
2024
2024-10-28
爱丁堡大学提出对比检索头解码方法以减少大型语言模型的幻觉现象
2024-10-28
艾伦人工智能研究院提出了一种基于人类与语言模型混合偏好学习的实例路由框架
2024-10-28
中国科技大学提出AlignCap方法,实现语音情感字幕与人类偏好的对齐
2024-10-28
佛罗里达州立大学提出一种基于正则化放松的对大型语言模型的对抗攻击方法
2024-10-27
华盛顿大学提出ASCII艺术基础的越狱攻击方法以应对对齐的大型语言模型脆弱性
2024-10-27
上海人工智能实验室提出的“模拟失调”方法:大型语言模型的安全对齐可能适得其反!
2024-10-27
LMU慕尼黑提出基于文本输出的多选问题评估方法,探讨语言模型预测与实际回答的不匹配问题
2024-10-27
麦吉尔大学提出一种评估大语言模型安全保障的新方法:从表现性伤害到服务质量伤害的案例研究
2024-10-27
上海交通大学提出CodeAttack方法,揭示大型语言模型在代码输入下的安全泛化挑战
2024-10-27
首尔大学提出一种基于句子编码器的安全性关键知识检测方法
Page 2 of 5