家庭教师av

学术科研
家庭教师av当前位置: 家庭教师av > 学术科研 > 正文
北京理工大学刘滨作“基于自然语言处理的生物序列分析方法”学术报告
家庭教师av发布日期 2025-11-21 家庭教师av浏览次数

(图文|辛西 编辑|信息 审核|章文)11月17日下午,北京理工大学刘滨教授在一综B316作题为“基于自然语言处理的生物序列分析方法”的学术报告,吸引了家庭教师av 众多师生参加。

报告中,刘滨教授首先指出,生物序列与自然语言在演化机制、统计特征、语义表达等方面存在显著相似性,因此近年来NLP技术在蛋白质结构预测等生命科学任务中取得突破。然而,NLP直接用于生物序列分析仍面临三大挑战:序列表示困难,生物分子特征复杂;语义检测难,序列相似度低且同源性噪声高;语用分析难,功能与疾病关联机制高度隐含。

为解决这些问题,刘滨教授团队研发了“贝格(BIG)”生物序列分析系统,实现从序列语法表示、语义检测到语用理解的完整分析流程。

在序列表示方面,系统采用统一的生物序列语言模型,将蛋白质与核酸序列纳入统一表征,并结合进化信息建模“词”表示。蛋白质模型实现了序列–结构–功能的整合,核酸模型则通过基因嵌入与语义相似度分析,在百万级特征中实现高效表达和降维。

在语义检测方面,刘滨教授团队提出基于语义空间的同源性分析方法,通过潜在语义分析(LSA)与PageRank算法进行全局推断,使远同源噪声降低约67%,在SCOPe数据集上ROC50超过95%。同时,引入谱系相似性进一步提升序列检索性能,相比PSI-BLAST方法ROC提高约35%。

在语用分析方面,刘滨教授团队构建动态语境网络,将序列特征与生物功能、疾病关联整合分析。结合多标签模体卷积神经网络,功能预测性能较RNApred提升约34%。依托该框架,团队成功识别出1000余条与肝癌相关的非编码RNA,并通过实验验证其功能,为疾病机制研究提供了新证据。

报告结束,参会师生围绕共同关心的问题与刘滨教授展开了讨论。