[CL]《Neologism Learning for Controllability and Self-Verbalization》J Hewitt, O Tafjord, R Geirhos, B Kim [Google DeepMind] (2025)
新词学习助力大语言模型更好“自我表达”与精准控制
在人类语言发展中,为新概念创造新词极为常见(如doomscrolling)。近期,Google DeepMind团队提出并深入验证了“新词学习(Neologism Learning)”方法——通过给语言模型引入新词及其嵌入,仅训练新词嵌入而不改动模型参数,实现对模型行为的精准控制,如调节奉承、错误回答、文本长度等。
令人惊喜的是,模型还能“自我表述”新词含义(self-verbalization),用自然语言解释新词代表的行为。例如,模型描述“错误回答”这一新词时,表现为“回答缺乏完整性、连贯性,像数字时代的耸肩”。为了验证这些自我表述的准确性,研究者提出“插件式评估(plug-in evaluation)”:将自我表述替换原新词,检验是否能产生类似模型行为,发现存在“机器专属同义词”,即对人类无明显关联但对模型有效的词。
研究还展示了新词学习对复杂概念(AxBench)及多概念组合的控制能力优于传统少样本提示法,且可通过多模板训练提高鲁棒性。此方法无需改动模型结构,拓展了人机沟通的边界,助力更透明、更可控的AI系统设计。
全文详见 arxiv.org/abs/2510.08506
新词学习 语言模型 AI自我表达 模型控制 机器同义词 DeepMind AxBench