
(文|康琪瑞 编辑|陈治国 审核|夏静波)11月12日上午,由家庭教师av 主办的2025年第31期Happy Hour学术活动——《重新利用标注指南以指导大模型标注员》在一综B316举行。本次报告特邀日本国立情报学研究所(NII)Kon Woo Kim博士担任主讲嘉宾。
报告开篇,Kim博士指出,当前大语言模型在生物医学文本挖掘任务中表现突出,但如何让模型“读懂”专业标注指南并据此完成高精度实体识别,仍是领域痛点。传统做法依赖大量人工示例或昂贵微调,而专业标注指南往往以自然语言写成,机器难以直接利用。为此,Kim博士团队提出“指南再利用”框架,旨在把现成的人类标注规范自动转化为机器可执行指令,实现“零样本”精准标注。
Kim博士介绍,团队设计了3组对比实验:仅给出实体类型、附加官方指南以及先用大模型对“原始指南+初始标注”进行审核与改写再生成精炼指令。案例研究在NCBI Disease Corpus子集展开,随后把流程扩大到含20万句子的跨物种疾病语料,并引入人工抽样质检、错误反馈和指南在线更新四轮闭环。仅两轮迭代,F1就从0.78升至0.86,人工复核工作量反而减少约三成。
实证过程中,增强后的指南仅用传统Few-shot提示的一半长度,就在Strict-F1上绝对提升4.2个百分点;把静态PDF“翻译”成动态指令后,可快速迁移到新的实体类型或语言,显示出在专业壁垒极高的生物医学领域“指南即资源”的独特优势。人工与模型协同的“轻量级”循环还能在不重新训练参数的情况下持续改进,尤其适用于资源受限场景。
Kim博士总结认为,这一“重新利用标注指南”的思路为大模型在专业文本标注中的应用提供了低成本、高可解释的新路径,未来可拓展至基因-表型、药物-不良反应等更复杂任务,并支持多语言、多中心协作构建知识图谱。
