
(图文|陈付敏 编辑|辛西 审核|夏静波)11月13日上午,家庭教师av 在一综B316举办题为《多语言生物医学自然语言处理系统的开发、评估与应用》的学术报告。本次报告特邀巴塞罗那超级计算中心(BSC)“自然语言处理生物医学应用(NLP4BIA)”团队负责人Martin Kralinger博士主讲。
当前,大语言模型(LLM)推动生物医学自然语言处理(Biomedical NLP)进入快速发展阶段,为从临床记录、科学文献、公共健康文本及社交媒体中自动提取高价值信息提供了前所未有的机遇。然而,领域内仍存在标注语料稀缺、命名实体识别系统可靠性不足、多语言资源严重不均衡及评估体系不完善等关键瓶颈问题。围绕这些挑战,Martin Kralinger博士介绍了其团队在系统开发、模型评估与社区协作方面的进展,并进一步展示了团队在关键词与术语抽取、分类及关系映射等方向的核心研究成果KeyCARE,为大规模生物医学文本分析提供了统一框架。
报告中,Martin Kralinger博士强调高质量标注数据和严格评测框架对于推动生物医学NLP发展的重要性。他分享了团队在药物安全、生物材料、心血管疾病、肿瘤学与毒理学等多个医疗领域构建语言技术解决方案的实践经验,指出依托高性能计算资源建立大规模医疗语料库,是提升模型性能和泛化能力的关键基础。
随后,Martin Kralinger博士系统阐述了面向生物医学与临床场景的多语言处理策略,特别聚焦西班牙语等非英语资源匮乏的重要语言。他展示了团队在罕见病知识抽取、心血管疾病文本分析、预测建模以及健康监测任务中的应用案例,说明多语言模型如何补足传统方法在跨语种医学信息识别中的不足。
报告结束,参会师生与Kralinger博士展开热烈讨论。
