摘要
主要内容分为四个部分:
- 模型定位与基本原理:
- 提出了DiffusionNER模型
- 将命名实体识别(NER)任务重新定义为边界去噪扩散过程
- 目标是从带噪声的文本片段中生成命名实体
- 工作流程:
训练阶段:
- 对黄金标准(ground truth)的实体边界逐步添加噪声
- 使用固定的前向扩散过程
- 学习反向扩散过程来恢复实体边界
推理阶段:
- 从标准高斯分布随机采样噪声片段
- 使用学习到的反向扩散过程对这些片段进行去噪
- 最终生成命名实体
- 创新优势:
- 允许渐进式改进:可以逐步优化结果
- 支持动态采样:能够灵活调整生成实体的数量
- 高效灵活:具有高效且灵活的实体生成能力
- 实验验证:
- 在多个数据集上进行了测试,包括:
- 平面(flat)NER数据集
- 嵌套(nested)NER数据集
- 实验结果表明:
- 性能与现有最优模型相当
- 在某些情况下甚至取得了更好的性能
这个摘要简洁地概括了论文的核心创新和主要贡献,强调了DiffusionNER在实体识别任务中的独特方法和优越性能。这是一个将扩散模型创新性地应用于NER任务的尝试,显示了很好的应用潜力。
1. 图1
图1展示了DiffusionNER的核心工作流程,主要包含3个关键部分:
- 左侧(原始命名实体):
- 展示了一个示例句子:“Premier of the western Canadian province of British Columbia”
- 包含多个标注的命名实体,例如:
- (1, 9 | PER): "Premier of the western Canadian province"是人物
- (8, 9 | GPE): "British Columbia"是地理政治实体
- (16, 18 | ORG): 某个组织实体
- 中间(前向过程 Forward Process):
- 使用符号"~"表示添加噪声的过程
- 公式 ε ~ N(0,1) 表示从标准高斯分布中采样噪声
- 这个过程会逐步将原始的实体边界信息模糊化
- 噪声是按照预定义的方差时间表来添加的
- 右侧(反向过程 Reverse Process):
- 展示了从带噪声的span恢复到原始实体的过程
- 通过"denoise"(去噪)操作逐步恢复实体边界
- 最终目标是重构出原始的命名实体及其类型
关键创新点:
- 双向转换设计:
- 前向过程:实体→噪声
- 反向过程:噪声→实体
这种设计允许模型学习如何从噪声中恢复实体信息
- 边界扩散思想:
- 不是对整个文本进行扩散
- 而是专注于实体边界的扩散
这使得模型可以更精确地关注实体识别任务的核心
-
渐进式改进:
通过多步骤的去噪过程,模型可以逐步提升实体识别的准确性 -
灵活性:
- 推理时可以从任意数量的噪声span开始
- 这提供了更大的识别灵活性
这个图很好地展示了DiffusionNER的核心思想:将实体识别转化为一个边界去噪的过程,通过逐步去噪来实现高质量的实体识别。
图2
从这张图可以看出,DiffusionNER 的整体流程是将「实体边界的预测」用一个「扩散+去噪」的思路来建模。图中分为上下两个部分:上方展示了 扩散过程(forward & reverse) 如何在实体边界上加噪、去噪;下方展示了具体的 网络结构(句子编码器 + 实体解码器)及输入输出。以下是各部分的要点:
1. 上方:扩散过程与实体边界
-
左到右的扩散过程 (xₜ → x₀):
- 最左侧的 xₜ(T 步时的表示)是一个完全「随机噪声」或「极度带噪」的实体边界表示,随着步骤从 T 递减到 0 (t: T → T-1 → … → 0),噪声逐渐被去除。
- 最右侧的 x₀ 对应「干净的」或「金标准」实体边界(也就是我们想要预测/还原的实体)。
- 每个矩形格子可以理解为句子中某个 token(或者 token 边界)的位置;中间的小圆点表示在这个位置上,实体边界可能存在的概率或噪声强度。
-
q(xₜ | xₜ₋₁) 及 pθ(xₜ₋₁ | xₜ):
- 图中用两条箭头分别标注了前向扩散 (q) 和逆向扩散 (pθ) 两个条件概率。
- 前向扩散 (q): 逐步向干净的实体标注 x₀ 注入噪声,一直走到 xₜ。
- 逆向扩散 (pθ): 训练好的网络根据当前带噪的 xₜ,反向预测出更“干净”一点的 xₜ₋₁,最终一步步逼近 x₀。
-
彩色边界标注
- 在最右侧,彩色的框线/下划线表示最终识别到的实体及其类型:红色 (PER)、蓝色 (GPE)、绿色 (ORG)、橙色 (LOC) 等。
- 这与上方示例 “Premier … British Columbia … University of Sydney …” 对应,是对文本中人名、地理实体、组织机构、地点等的分类结果。
2. 下方:网络结构(Sentence Encoder + Entity Decoder)
-
Sentence Encoder(句子编码器):
- 图中底部左侧的浅粉色框 “Sentence Encoder” 负责对整句话(“Premier of the western Canadian province of British Columbia achieved his master’s degree from the University of Sydney”)进行表征提取,输出上下文隐藏向量 Hₛ。
- 这一步类似常规的预训练语言模型(如 BERT、RoBERTa)或其它 Transformer 编码器,把文本转成深层特征表示。
-
Entity Decoder(实体解码器):
- 编码器输出的 Hₛ 被送入右侧粉色框 “Entity Decoder”。
- 同时,解码器也会接收当前扩散步骤的带噪实体表示 xₜ。
- 解码器根据 (Hₛ, xₜ),预测下一时刻更“干净”的实体边界 xₜ₋₁,或直接估计最终的 x₀。
- 公式所示:
x t − 1 = 1 − α t − 1 x ^ t + α t x 0 x_{t-1} = \sqrt{1 - \alpha_{t-1}} \,\hat{x}_t + \sqrt{\alpha_t}\, x_0 xt−1=1−αt−1 x^t+αt x0
说明了在去噪时如何加权当前估计和原始信号,从而逐渐还原出实体边界。
-
动态去噪 & 实体生成:
- 整个解码过程中,网络反复执行「去噪」的推理步骤,使得最初随机的 xₜ 慢慢收敛到正确的实体位置。
- 最终我们得到的 x₀ 就是模型认为的实体分布(边界及类型)。
3. 关键思想小结
- 加噪→去噪:训练时先对真实实体边界注入噪声,然后学会从噪声中一步步还原;推断时则可从随机噪声出发,逐步生成实体。
- 渐进式修正:每一轮去噪都可看作一次「渐进式修正」或「动态采样」,有助于在实体起止边界比较模糊的情况下,做更灵活的预测。
- 网络结构:在句子编码器的上下文表示 Hₛ 辅助下,实体解码器通过一系列去噪步骤还原实体。
- 结果:不同颜色的实体边界最终呈现在文本上,实现多类型实体识别,包括人名 (PER)、地点 (LOC)、组织 (ORG)、地理政治实体 (GPE) 等。
这张图的核心就是:在命名实体识别的场景中,将“实体边界的预测”视作一个需要去噪的生成任务,利用扩散模型的逐步去噪过程来获得更准确、鲁棒的实体识别结果。