Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM FOR PREDICTING PROTEIN BINDING SITES
Document Type and Number:
WIPO Patent Application WO/2019/041333
Kind Code:
A1
Abstract:
Disclosed are a method, apparatus, device and storage medium for predicting protein binding sites, wherein same are suitable for the biology information technology field. The method comprises: receiving a protein sequence to be predicted, and using a preset sliding window and sliding step size to divide the protein sequence, so as to obtain a plurality of amino acid subsequences (S101); constructing a term vector of the protein sequence according to the amino acid subsequences, extracting the document feature from a term element, and constructing a document feature vector of the protein sequence according to the extracted document feature (S102); extracting the biological feature of protein chains from the amino acid subsequences, and constructing a biological feature vector of the protein sequence according to the extracted biological feature (S103); and using a preset amino acid residue classification model to classify amino acid subsequences represented by the document feature vector and biological feature vector in order to obtain the amino acid residue type of the protein sequence (S104), and thereby improving the prediction accuracy and universality of protein binding sites.

Inventors:
ZHANG YONG (CN)
HE WEI (CN)
XU YONG (CN)
ZHAO DONGNING (CN)
Application Number:
PCT/CN2017/100314
Publication Date:
March 07, 2019
Filing Date:
September 04, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV SHENZHEN (CN)
HARBIN INST TECHNOLOGY SHENZHEN GRADUATE SCHOOL (CN)
International Classes:
G06F19/18
Foreign References:
CN104992079A2015-10-21
CN102760210A2012-10-31
CN104077499A2014-10-01
CN1773517A2006-05-17
US20150278441A12015-10-01
Attorney, Agent or Firm:
SHENZHEN YOUTH PATENT AND TRADEMARK AGENCY LTD. (CN)
Download PDF:
Claims:
权利要求书

[权利要求 1] 一种蛋白质结合位点的预测方法, 其特征在于, 所述方法包括下述步 骤:

接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步长对所述蛋 白质序列进行序列划分, 得到组成所述蛋白质序列的多个氨基酸子序 列;

根据所述多个氨基酸子序列构建所述蛋白质序列的词向量, 所述词向 量的词元素表示每个所述氨基酸子序列, 对所述词元素进行文档特征 提取, 根据提取的文档特征构建所述蛋白质序列的文档特征向量; 对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取, 根 据提取到的生物学特征构建所述蛋白质序列的生物学特征向量; 使用预设的氨基酸残基分类模型对使用所述文档特征向量和所述生物 学特征向量表示的氨基酸子序列进行分类, 得到所述蛋白质序列的氨 基酸残基类型。

[权利要求 2] 如权利要求 1所述的方法, 其特征在于, 接收待预测的蛋白质序列的 步骤之前, 所述方法还包括:

使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进 行序列划分, 得到组成所述训练蛋白质序列的多个训练氨基酸子序列 根据所述多个训练氨基酸子序列构建所述训练蛋白质序列的训练词向 量, 所述训练词向量的训练词元素表示每个所述训练氨基酸子序列, 对所述训练词元素进行文档特征提取, 根据提取的文档特征构建所述 训练蛋白质序列的文档特征训练向量;

对所述训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征 提取, 根据提取到的生物学特征构建所述训练蛋白质序列的生物学特 征训练向量;

使用所述文档特征训练向量和生物学特征训练向量表示的训练氨基酸 子序列对预先构建的分类模型进行训练, 当达到预设的训练结束条件 吋, 将训练得到分类模型设置为所述氨基酸残基分类模型。

[权利要求 3] 如权利要求 1所述的方法, 其特征在于, 所述预设的滑动窗口的大小 为 (2*window + 1 - 2*b) , 所述 window为预设值, 所述 b是随机生成 的、 大小位于 0到 window-1之间的变量。

[权利要求 4] 如权利要求 1或 2所述的方法, 其特征在于, 所述文档特征包括 TFIDF

序列特征和 N-gmm序列特征, 所述生物学特征包括位置特异性打分 矩阵特征和伪氨基酸组成特征。

[权利要求 5] 如权利要求 1所述的方法, 其特征在于, 使用预设的氨基酸残基分类 模型对所述文档特征向量和所述生物学特征向量进行分类的步骤, 包 括:

对所述生物学特征向量进行预测, 将预测的预测结果与所述文档特征 向量进行特征拼接;

对所述特征拼接得到的拼接特征向量进行分类。

[权利要求 6] —种蛋白质结合位点的预测装置, 其特征在于, 所述装置包括: 序列划分单元, 用于接收待预测的蛋白质序列, 使用预设的滑动窗口 和滑动步长对所述蛋白质序列进行序列划分, 得到组成所述蛋白质序 列的多个氨基酸子序列;

第一向量构建单元, 用于根据所述多个氨基酸子序列构建所述蛋白质 序列的词向量, 所述词向量的词元素表示每个所述氨基酸子序列, 对 所述词元素进行文档特征提取, 根据提取的文档特征构建所述蛋白质 序列的文档特征向量;

第二向量构建单元, 用于对所述词元素表示的氨基酸子序列进行蛋白 质链生物学特征提取, 根据提取到的生物学特征构建所述蛋白质序列 的生物学特征向量; 以及 结果获取单元, 用于使用预设的氨基酸残基分类模型对使用所述文档 特征向量和所述生物学特征向量表示的氨基酸子序列进行分类, 得到 所述蛋白质序列的氨基酸残基类型。

[权利要求 7] 如权利要求 6所述的装置, 其特征在于, 所述装置还包括: 训练序列划分单元, 用于使用预设的滑动窗口和滑动步长对预设训练 集中的训练蛋白质序列进行序列划分, 得到组成所述训练蛋白质序列 的多个训练氨基酸子序列;

第一特征处理单元, 用于根据所述多个训练氨基酸子序列构建所述训 练蛋白质序列的训练词向量, 所述训练词向量的训练词元素表示每个 所述训练氨基酸子序列, 对所述训练词元素进行文档特征提取, 根据 提取的文档特征构建所述训练蛋白质序列的文档特征训练向量; 第二特征处理单元, 用于对所述训练词元素表示的训练氨基酸子序列 进行蛋白质链生物学特征提取, 根据提取到的生物学特征构建所述训 练蛋白质序列的生物学特征训练向量; 以及

模型训练单元, 用于使用所述文档特征训练向量和生物学特征训练向 量表示的训练氨基酸子序列对预先构建的分类模型进行训练, 当达到 预设的训练结束条件吋, 将训练得到分类模型设置为所述氨基酸残基 分类模型。

[权利要求 8] 如权利要求 6所述的装置, 其特征在于, 所述结果获取单元包括: 特征拼接单元, 用于对所述生物学特征向量进行预测, 将预测的预测 结果与所述文档特征向量进行特征拼接; 以及

特征分类单元, 用于对所述特征拼接得到的拼接特征向量进行分类。

[权利要求 9] 一种计算设备, 包括存储器、 处理器以及存储在所述存储器中并可在 所述处理器上运行的计算机程序, 其特征在于, 所述处理器执行所述 计算机程序吋实现如权利要求 1至 5任一项所述方法的步骤。

[权利要求 10] —种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程 序, 其特征在于, 所述计算机程序被处理器执行吋实现如权利要求 1 至 5任一项所述方法的步骤。

Description:
蛋白质结合位点的预测方法、 装置、 设备及存储介质 技术领域

[0001] 本发明属于生物信息技术领域, 尤其涉及一种蛋白质结合位点的预测方法、 装 置、 设备及存储介质。

背景技术

[0002] 近年来, 生物信息学受到人们的广泛关注, 越来越多不同领域的研究者投入到 对生物信息学的研究工作中去。 生物信息学是一门研究生物和生物相关系统中 信息内容和信息流向的综合性学科, 其知识体系中包含了生物学 (遗传学、 生 物化学等) 、 数学 (概率论与数理统计、 算法等) 、 计算机科学 (机器学习、 计算理论等) 、 物理化学 (分子建模、 热力学等) 等多个不同学科的知识。

[0003] 蛋白质是生命活动的体现者, 是一切生物藉以表现生命的最重要基本单元, 可 以算是自然界最微小的自动机器, 并且在与生物体系的运作中有着无可替代的 作用。 蛋白质在细胞内的不同作用是由蛋白质之间、 蛋白质与 DNA、 蛋白质与 R NA以及蛋白质与配体之间的相互作用来进行调 的。 蛋白质 -蛋白质相互作用涉 及蛋白质分子的关联, 该关联在活细胞的每一个生物学过程中都起到 非常关键 的作用, 例如 DNA合成、 基因转录激活、 蛋白质翻译、 修饰和定位以及信息传 导, 这些重要的生物过程均涉及到蛋白质-蛋白质 相互作用。 因此, 探索蛋白 质间相互作用的序列和结构特性对理解细胞活 动至关重要。

[0004] 随着新一代测序技术的不断发展, 已测定的蛋白质序列数据不断增加。 于是, 人们对能够快速可靠地识别蛋白质结合位点的 计算工具的需求也愈发强烈。 蛋 白质结合位点的定位对分析理解蛋白质相互作 用的分子细节以及蛋白质功能至 关重要。 目前, 国内外的对蛋白质结合位点的研究预测, 大多基于通过对单个 位点进行专业测定, 得到的理化特征, 以及通过对蛋白质链进行分析, 计算得 到的位点间序列特征。 这样忽略了蛋白质结合位点的聚簇特性和氨基 酸残基之 间的关联信息, 从而对蛋白质结合位点预测的准确性和泛用性 不高。

技术问题 [0005] 本发明的目的在于提供一种蛋白质结合位点的 预测方法、 装置、 计算设备及存 储介质, 旨在解决由于现有技术对蛋白质结合位点预测 的准确性和泛用性不高 的问题。

问题的解决方案

技术解决方案

[0006] 一方面, 本发明提供了一种蛋白质结合位点的预测方法 , 所述方法包括下述步 骤:

[0007] 接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步长对所述蛋白质 序列 进行序列划分, 得到组成所述蛋白质序列的多个氨基酸子序列 ;

[0008] 根据所述多个氨基酸子序列构建所述蛋白质序 列的词向量, 所述词向量的词元 素表示每个所述氨基酸子序列, 对所述词元素进行文档特征提取, 根据提取的 文档特征构建所述蛋白质序列的文档特征向量 ;

[0009] 对所述词元素表示的氨基酸子序列进行蛋白质 链生物学特征提取, 根据提取到 的生物学特征构建所述蛋白质序列的生物学特 征向量;

[0010] 使用预设的氨基酸残基分类模型对所述文档特 征向量和所述生物学特征向量进 行分类, 得到所述蛋白质序列的氨基酸残基类型。

[0011] 另一方面, 本发明提供了一种蛋白质结合位点的预测装置 , 所述装置包括: [0012] 序列划分单元, 用于接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步 长对所述蛋白质序列进行序列划分, 得到组成所述蛋白质序列的多个氨基酸子 序列;

[0013] 第一向量构建单元, 用于根据所述多个氨基酸子序列构建所述蛋白 质序列的词 向量, 所述词向量的词元素表示每个所述氨基酸子序 列, 对所述词元素进行文 档特征提取, 根据提取的文档特征构建所述蛋白质序列的文 档特征向量;

[0014] 第二向量构建单元, 用于对所述词元素表示的氨基酸子序列进行蛋 白质链生物 学特征提取, 根据提取到的生物学特征构建所述蛋白质序列 的生物学特征向量 ; 以及

[0015] 结果获取单元, 用于使用预设的氨基酸残基分类模型对所述文 档特征向量和所 述生物学特征向量进行分类, 得到所述蛋白质序列的氨基酸残基类型。 [0016] 另一方面, 本发明还提供了序列划分和分类模型构建所需 的计算环境以及可在 所述环境中运行的计算机程序, 所述处理器执行所述计算机程序吋实现如所述 蛋白质结合位点的预测方法的步骤。

[0017] 另一方面, 本发明还提供了一种计算机可读存储介质, 所述计算机可读存储介 质存储有计算机程序, 所述计算机程序被处理器执行吋实现如所述蛋 白质结合 位点的预测方法的步骤。

发明的有益效果

有益效果

[0018] 本发明接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步长对蛋白质序 列进行序列划分, 得到组成该待预测蛋白质序列的多个氨基酸子 序列, 根据得 到的多个氨基酸子序列构建蛋白质序列的词向 量, 该词向量的词元素表示每个 氨基酸子序列, 对词元素进行文档特征提取, 根据提取的文档特征构建蛋白质 序列的文档特征向量, 对氨基酸子序列进行蛋白质链生物学特征提取 , 根据提 取到的生物学特征构建蛋白质序列的生物学特 征向量, 使用预设的氨基酸残基 分类模型对同吋使用文档特征向量和生物学特 征向量表示的氨基酸子序列进行 分类, 得到蛋白质序列的氨基酸残基类型, 从而提高了蛋白质结合位点预测的 准确性和泛用性。

对附图的简要说明

附图说明

[0019] 图 1是本发明实施例一提供的蛋白质结合位点的 测方法的实现流程图;

[0020] 图 2是本发明实施例二提供的蛋白质结合位点的 测装置的结构示意图;

[0021] 图 3是本发明实施例三提供的蛋白质结合位点的 测装置的结构示意图; 以及 [0022] 图 4是本发明实施例四提供的计算设备的结构示 图。

本发明的实施方式

[0023] 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例 , 对本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用 以解释本发明, 并不用于限定本发明。

[0024] 以下结合具体实施例对本发明的具体实现进行 详细描述:

[0025] 实施例一:

[0026] 图 1示出了本发明实施例一提供的蛋白质结合位 的预测方法的实现流程, 为 了便于说明, 仅示出了与本发明实施例相关的部分, 详述如下:

[0027] 在步骤 S101中, 接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步长对 蛋白质序列进行序列划分, 得到组成该待预测蛋白质序列的多个氨基酸子 序列

[0028] 本发明实施例适用于蛋白质结合位点的预测系 统。 在本发明实施例中, 为体现 蛋白质-蛋白质结合位点的聚集特性, 在接收到待预测的蛋白质序列后, 启动滑 动窗口, 通过调节滑动窗口大小与滑动步长, 对蛋白质序列进行划分, 得到组 成该待预测蛋白质序列的多个氨基酸子序列, 从而将蛋白质序列的局部分块作 为后续的分析单元。

[0029] 在本发明实施例中, 优选地, 滑动窗口的大小为 (2*window + 1 - 2*b) , 其中

, window为预设值, b是随机生成的、 大小处于 0到 window-1之间的变量。 这样 的滑动窗口中包含了目标残基两侧各 window-b个邻域残基, 随着窗口在氨基酸 序列上的滑动, 滑动窗口的大小在 3 (b=window-l) 到 2*window+l (b=0) 之间 随机改变, 得到以若干个氨基酸残基构成的蛋白质分块, 从而方便以蛋白质分 块作为基本单位进行后续分析, 充分体现蛋白质结合位点的聚簇特性, 进而提 高后续的特征表示能力、 预测精度和泛用性。

[0030] 优选地, 在接收待预测的蛋白质序列之前, 通过机器学习训练得到氨基酸残基 分类模型。 优选地, 可以使用 Stacking集成学习算法来进行机器学习, 从而提高 氨基酸残基分类模型的分类准确性和泛化能力 。

[0031] 优选地, 在通过机器学习训练得到氨基酸残基分类模型 吋, 首先使用预设的滑 动窗口和滑动步长对预设训练集中的训练蛋白 质序列进行序列划分, 得到组成 该训练蛋白质序列的多个训练氨基酸子序列, 然后根据得到的多个训练氨基酸 子序列构建训练蛋白质序列的训练词向量, 训练词向量的训练词元素表示每个 训练氨基酸子序列, 对训练词元素进行文档特征提取, 根据提取的文档特征构 建训练蛋白质序列的文档特征训练向量, 并对训练词元素表示的训练氨基酸子 序列进行蛋白质链生物学特征提取, 根据提取到的生物学特征构建训练蛋白质 序列的生物学特征训练向量, 最后使用文档特征训练向量和生物学特征训练 向 量表示的训练氨基酸子序列对预先构建的分类 模型进行训练, 当达到预设的训 练结束条件吋, 将训练得到分类模型设置为氨基酸残基分类模 型, 从而为后续 的氨基酸残基分类提供了分类模型, 提高了分类模型的分类效率。 其中, 训练 结束条件可以设置为训练次数到的预设次数或 者训练过程中的损失达到预设值

[0032] 具体地, 在得到多种类型的特征后, 使用 Stacking集成学习算法来训练预设的 模型, 以得到氨基酸残基分类模型。 Stacking模型第一层分别使用不同种类的蛋 白质链生物学特征训练多种基分类器, 之后将多种基分类器的预测结果与文档 特征向量进行拼接, 以此作为最终的特征向量进行训练, 得到氨基酸残基分类 模型。

[0033] 在步骤 S102中, 根据得到的多个氨基酸子序列构建蛋白质序列 的词向量, 词向 量的词元素表示每个氨基酸子序列, 该对词元素进行文档特征提取, 根据提取 的文档特征构建蛋白质序列的文档特征向量。

[0034] 在本发明实施例中, 序列划分得到多个氨基酸子序列后, 首先根据氨基酸子序 列构建蛋白质序列的词向量, 其中, 该词向量的词元素表示每个氨基酸子序列 , 然后对词元素进行文档特征提取, 最后根据提取的文档特征构建蛋白质序列 的文档特征向量。 其中, 提取的文档特征包括 TFIDF序列特征和 N-gmm序列特征 等特征。

[0035] 优选地, 在根据氨基酸子序列构建蛋白质序列的词向量 吋, 对每种氨基酸子序 列分配一个唯一编号并使用 word2vec 算法将原始的子序列唯一编号映射到 κ 维向 量空间中, 得到蛋白质序列的词向量。 这样可以有效地降低特征维度, 为文本 数据寻求更加深层次的特征表示, 并且利用了高维词向量中的所有数据, 使得 数据规模更大, 有利于提高后续的分类效果。

[0036] 在步骤 S103中, 对词元素表示的氨基酸子序列进行蛋白质链生 物学特征提取, 根据提取到的生物学特征构建蛋白质序列的生 物学特征向量。 [0037] 在本发明实施例中, 首先对序列划分得到的氨基酸子序列进行蛋白 质链生物学 特征提取, 然后根据提取到的生物学特征, 构建蛋白质序列的生物学特征向量 , 其中, 提取的生物学特征包括位置特异性打分矩阵特 征和伪氨基酸组成特征 等特征, 从而有效地表示氨基酸在序列中出现顺序等局 部信息, 增强了特征向 量对蛋白质序列信息的表示能力, 进而提高了生物学特征向量中生物学特征的 全面性。

[0038] 在步骤 S104中, 使用预设的氨基酸残基分类模型对使用文档特 征向量和生物学 特征向量表示的氨基酸子序列进行分类, 得到蛋白质序列的氨基酸残基类型。

[0039] 在本发明实施例中, 氨基酸残基类型用于说明氨基酸残基是否为蛋 白质序列的 结合位点。 优选地, 在对文档特征向量和生物学特征向量进行分类 吋, 首先对 生物学特征向量进行预测, 然后将预测的预测结果与文档特征向量进行特 征拼 接, 最后对特征拼接得到的拼接特征向量进行分类 , 从而进一步提高了蛋白质 结合位点预测的准确性。 其中, 预设的氨基酸残基分类模型为前述训练得到的 氨基酸残基分类模型, 从而提高蛋白质序列的结合位点的预测准确性 。

[0040] 实施例二:

[0041] 图 2示出了本发明实施例二提供的蛋白质结合位 的预测装置的结构, 为了便 于说明, 仅示出了与本发明实施例相关的部分, 其中包括:

[0042] 序列划分单元 21, 用于接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动 步长对蛋白质序列进行序列划分, 得到组成该待预测蛋白质序列的多个氨基酸 子序列。

[0043] 第一向量构建单元 22, 用于根据得到的多个氨基酸子序列构建蛋白质 序列的词 向量, 词向量的词元素表示每个氨基酸子序列, 对词元素进行文档特征提取, 根据提取的文档特征构建蛋白质序列的文档特 征向量。

[0044] 第二向量构建单元 23, 用于对词元素表示的氨基酸子序列进行蛋白质 链生物学 特征提取, 根据提取到的生物学特征构建蛋白质序列的生 物学特征向量。

[0045] 结果获取单元 24, 用于使用预设的氨基酸残基分类模型对使用文 档特征向量和 生物学特征向量表示的氨基酸子序列进行分类 , 得到蛋白质序列的氨基酸残基 类型。 [0046] 在本发明实施例中, 序列划分单元 21接收待预测的蛋白质序列, 使用预设的滑 动窗口和滑动步长对蛋白质序列进行序列划分 , 得到组成该待预测蛋白质序列 的多个氨基酸子序列, 第一向量构建单元 22根据得到的多个氨基酸子序列构建 蛋白质序列的词向量, 该词向量的词元素表示每个氨基酸子序列, 对词元素进 行文档特征提取, 根据提取的文档特征构建蛋白质序列的文档特 征向量, 第二 向量构建单元 23对词元素表示的氨基酸子序列进行蛋白质链 物学特征提取, 根据提取到的生物学特征构建蛋白质序列的生 物学特征向量, 结果获取单元 24 使用预设的氨基酸残基分类模型对使用文档特 征向量和生物学特征向量表示的 氨基酸子序列进行分类, 得到蛋白质序列的氨基酸残基类型, 从而提高了蛋白 质结合位点预测的准确性和泛用性。

[0047] 在本发明实施例中, 蛋白质结合位点的预测装置的各单元可由相应 的硬件或软 件单元实现, 各单元可以为独立的软、 硬件单元, 也可以集成为一个软、 硬件 单元, 在此不用以限制本发明。 各单元的具体实施方式可参考前述实施例一的 描述, 在此不再赘述。

[0048] 实施例三:

[0049] 图 3示出了本发明实施例三提供的蛋白质结合位 的预测装置的结构, 为了便 于说明, 仅示出了与本发明实施例相关的部分, 其中包括:

[0050] 训练序列划分单元 31, 用于使用预设的滑动窗口和滑动步长对预设训 练集中的 训练蛋白质序列进行序列划分, 得到组成该训练蛋白质序列的多个训练氨基酸 子序列。

[0051] 第一特征处理单元 32, 用于根据得到的多个训练氨基酸子序列构建训 练蛋白质 序列的训练词向量, 训练词向量的训练词元素表示每个训练氨基酸 子序列, 对 训练词元素进行文档特征提取, 根据提取的文档特征构建训练蛋白质序列的文 档特征训练向量。

[0052] 第二特征处理单元 33, 用于对训练词元素表示的训练氨基酸子序列进 行蛋白质 链生物学特征提取, 根据提取到的生物学特征构建训练蛋白质序列 的生物学特 征训练向量。

[0053] 模型训练单元 34, 用于使用文档特征训练向量和生物学特征训练 向量表示的训 练氨基酸子序列对预先构建的分类模型进行训 练, 当达到预设的训练结束条件 吋, 将训练得到分类模型设置为氨基酸残基分类模 型。

[0054] 在本发明实施例中, 在接收待预测的蛋白质序列之前, 通过机器学习训练得到 氨基酸残基分类模型。 优选地, 可以使用 Stacking集成学习算法来进行机器学习 , 从而提高氨基酸残基分类模型的分类准确性和 泛化能力。

[0055] 具体地, 在通过机器学习训练得到氨基酸残基分类模型 吋, 首先训练序列划分 单元 31使用预设的滑动窗口和滑动步长对预设训练 中的训练蛋白质序列进行 序列划分, 得到组成该训练蛋白质序列的多个训练氨基酸 子序列, 然后第一特 征处理单元 32根据得到的多个训练氨基酸子序列构建训练 白质序列的训练词 向量, 训练词向量的训练词元素表示每个训练氨基酸 子序列, 对训练词元素进 行文档特征提取, 根据提取的文档特征构建训练蛋白质序列的文 档特征训练向 量, 第二特征处理单元 33对训练词元素表示的训练氨基酸子序列进行 白质链 生物学特征提取, 根据提取到的生物学特征构建训练蛋白质序列 的生物学特征 训练向量, 最后模型训练单元 34使用文档特征训练向量和生物学特征训练向 表示的训练氨基酸子序列对预先构建的分类模 型进行训练, 当达到预设的训练 结束条件吋, 将训练得到分类模型设置为氨基酸残基分类模 型, 从而为后续的 氨基酸残基分类提供了分类模型, 提高了分类模型的分类效率。 其中, 训练结 束条件可以设置为训练次数到的预设次数或者 训练过程中的损失达到预设值。

[0056] 具体地, 在得到多种类型的特征后, 使用 Stacking集成学习算法来训练预设的 模型, 以得到氨基酸残基分类模型。 Stacking模型第一层分别使用不同种类的蛋 白质链生物学特征训练多种基分类器, 之后将多种基分类器的预测结果与文档 特征向量进行拼接, 以此作为最终的特征向量进行训练, 得到氨基酸残基分类 模型。

[0057] 序列划分单元 35, 用于接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动 步长对蛋白质序列进行序列划分, 得到组成该待预测蛋白质序列的多个氨基酸 子序列。

[0058] 在本发明实施例中, 为体现蛋白质-蛋白质结合位点的聚集特性, 在接收到待 预测的蛋白质序列后, 序列划分单元 35启动滑动窗口, 通过调节滑动窗口大小 与滑动步长, 对蛋白质序列进行划分, 得到组成该待预测蛋白质序列的多个氨 基酸子序列, 从而将蛋白质序列的局部分块作为后续的分析 单元。

[0059] 在本发明实施例中, 优选地, 滑动窗口的大小为 (2*window + 1 - 2*b) , 其中

, window为预设值, b是随机生成的、 大小处于 0到 window-1之间的变量。 这样 的滑动窗口中包含了目标残基两侧各 window-b个邻域残基, 随着窗口在氨基酸 序列上的滑动, 滑动窗口的大小在 3 (b=window-l) 到 2*window+l (b=0) 之间 随机改变, 得到以若干个氨基酸残基构成的蛋白质分块, 从而方便以蛋白质分 块作为基本单位进行后续分析, 充分体现蛋白质结合位点的聚簇特性, 进而提 高后续的特征表示能力、 预测精度和泛用性。

[0060] 第一向量构建单元 36, 用于根据得到的多个氨基酸子序列构建蛋白质 序列的词 向量, 词向量的词元素表示每个氨基酸子序列, 对词元素进行文档特征提取, 根据提取的文档特征构建蛋白质序列的文档特 征向量。

[0061] 在本发明实施例中, 序列划分得到多个氨基酸子序列后, 第一向量构建单元 36 首先根据氨基酸子序列构建蛋白质序列的词向 量, 其中, 该词向量的词元素表 示每个氨基酸子序列, 然后对词元素进行文档特征提取, 最后根据提取的文档 特征构建蛋白质序列的文档特征向量。 其中, 提取的文档特征包括 TFIDF序列特 征和 N-gram序列特征等特征。

[0062] 优选地, 在根据氨基酸子序列构建蛋白质序列的词向量 吋, 对每种氨基酸子序 列分配一个唯一编号并使用 word2vec 算法将原始的子序列唯一编号映射到 κ 维向 量空间中, 得到蛋白质序列的词向量。 这样可以有效地降低特征维度, 为文本 数据寻求更加深层次的特征表示, 并且利用了高维词向量中的所有数据, 使得 数据规模更大, 有利于提高后续的分类效果。

[0063] 第二向量构建单元 37, 用于对词元素表示的氨基酸子序列进行蛋白质 链生物学 特征提取, 根据提取到的生物学特征构建蛋白质序列的生 物学特征向量。

[0064] 在本发明实施例中, 第二向量构建单元 37首先对序列划分得到的氨基酸子序列 进行蛋白质链生物学特征提取, 然后根据提取到的生物学特征, 构建蛋白质序 列的生物学特征向量, 其中, 提取的生物学特征包括位置特异性打分矩阵特 征 和伪氨基酸组成特征等特征, 从而有效地表示氨基酸在序列中出现顺序等局 部 信息, 增强了特征向量对蛋白质序列信息的表示能力 , 进而提高了生物学特征 向量中生物学特征的全面性。

[0065] 结果获取单元 38, 用于使用预设的氨基酸残基分类模型对使用文 档特征向量和 生物学特征向量表示的氨基酸子序列进行分类 , 得到蛋白质序列的氨基酸残基 类型。

[0066] 在本发明实施例中, 氨基酸残基类型用于说明氨基酸残基是否为蛋 白质序列的 结合位点。 优选地, 在对文档特征向量和生物学特征向量进行分类 吋, 首先对 生物学特征向量进行预测, 然后将预测的预测结果与文档特征向量进行特 征拼 接, 最后对特征拼接得到的拼接特征向量进行分类 , 从而进一步提高了蛋白质 结合位点预测的准确性。 其中, 预设的氨基酸残基分类模型为前述训练得到的 氨基酸残基分类模型, 从而提高蛋白质序列的结合位点的预测准确性 。

[0067] 因此, 优选地, 该结果获取单元 38包括:

[0068] 特征拼接单元 381, 用于对生物学特征向量进行预测, 将预测的预测结果与文 档特征向量进行特征拼接; 以及

[0069] 特征分类单元 382, 用于对特征拼接得到的拼接特征向量进行分类 。

[0070] 在本发明实施例中, 蛋白质结合位点的预测装置的各单元可由相应 的硬件或软 件单元实现, 各单元可以为独立的软、 硬件单元, 也可以集成为一个软、 硬件 单元, 在此不用以限制本发明。

[0071] 实施例四:

[0072] 图 4示出了本发明实施例四提供的计算设备的结 , 为了便于说明, 仅示出了 与本发明实施例相关的部分。

[0073] 本发明实施例的计算设备 4包括处理器 40、 存储器 41以及存储在存储器 41中并 可在处理器 40上运行的计算机程序 42。 该处理器 40执行计算机程序 42吋实现上 述蛋白质结合位点的预测方法实施例中的步骤 , 例如图 1所示的步骤 S101至 S104 。 或者, 处理器 40执行计算机程序 42吋实现上述各装置实施例中各单元的功能 , 例如图 2所示单元 21至 24、 图 3所示单元 31至 38的功能。

[0074] 在本发明实施例中, 该处理器 40执行计算机程序 42吋实现上述各个蛋白质结合 位点的预测方法实施例中的步骤吋, 接收待预测的蛋白质序列, 使用预设的滑 动窗口和滑动步长对蛋白质序列进行序列划分 , 得到组成该待预测蛋白质序列 的多个氨基酸子序列, 根据得到的多个氨基酸子序列构建蛋白质序列 的词向量 , 该词向量的词元素表示每个氨基酸子序列, 对词元素进行文档特征提取, 根 据提取的文档特征构建蛋白质序列的文档特征 向量, 对词元素表示的氨基酸子 序列进行蛋白质链生物学特征提取, 根据提取到的生物学特征构建蛋白质序列 的生物学特征向量, 使用预设的氨基酸残基分类模型对使用文档特 征向量和生 物学特征向量表示的氨基酸子序列进行分类, 得到蛋白质序列的氨基酸残基类 型, 从而提高了蛋白质结合位点预测的准确性和泛 用性。 该计算设备 4中处理器 40在执行计算机程序 42吋实现的步骤具体可参考实施例一中方法的 述, 在此 不再赘述。

[0075] 实施例五:

[0076] 在本发明实施例中, 提供了一种计算机可读存储介质, 该计算机可读存储介质 存储有计算机程序, 该计算机程序被处理器执行吋实现上述蛋白质 结合位点的 预测方法实施例中的步骤, 例如, 图 1所示的步骤 S101至 S104。 或者, 该计算机 程序被处理器执行吋实现上述各装置实施例中 各单元的功能, 例如图 2所示单元 21至 24、 图 3所示单元 31至 38的功能。

[0077] 在本发明实施例中, 接收待预测的蛋白质序列, 使用预设的滑动窗口和滑动步 长对蛋白质序列进行序列划分, 得到组成该待预测蛋白质序列的多个氨基酸子 序列, 根据得到的多个氨基酸子序列构建蛋白质序列 的词向量, 该词向量的词 元素表示每个氨基酸子序列, 对词元素进行文档特征提取, 根据提取的文档特 征构建蛋白质序列的文档特征向量, 对词元素表示的氨基酸子序列进行蛋白质 链生物学特征提取, 根据提取到的生物学特征构建蛋白质序列的生 物学特征向 量, 使用预设的氨基酸残基分类模型对使用文档特 征向量和生物学特征向量表 示的氨基酸子序列进行分类, 得到蛋白质序列的氨基酸残基类型, 从而提高了 蛋白质结合位点预测的准确性和泛用性。 该计算机程序被处理器执行吋实现的 蛋白质结合位点的预测方法进一步可参考前述 方法实施例中步骤的描述, 在此 不再赘述。

[0078] 本发明实施例的计算机可读存储介质可以包括 能够携带计算机程序代码的任何 实体或装置、 记录介质, 例如, ROM/RAM、 磁盘、 光盘、 闪存等存储器。 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的 精神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保 护范围之内。