使用离群检测和子集选择优化对等QSPR预测焓的形成外文翻译资料

2022-12-25 13:10:43

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

使用离群检测和子集选择优化对等QSPR预测焓的形成

Firdaus Begam1J. Satheesh Kumar1和Gyoo-Soo Chae2

摘要：定量结构性质关系（QSPR）方法通过识别分子与其化学结构的关系，为理解分子的性质或活性提供了一个模型。准确识别分子的性质对现代药物发现系统有较大的影响。因此，开发一种鉴定分子特性或活性的有效方法正成为药物设计中的必要组成部分。现代药物发现系统涉及群集网络，因为药物设计过程可以在对等网络的支持下得到增强。少数分子将具有高维度结构和描述信息，其中信息可以通过集群网络有效地处理。本研究工作基于多项式回归（PR），主成分回归（PCR）和部分最小二乘回归（PLSR）对拟合响应和预测的现有基准标记进行可视化。提出了一种优化的QSPR模型（FDROL）模糊最小冗余最大相关（FmRMR）数据约简（FDR）和异常检测（OL）。已经确定了拓扑描述子对预测烃类物理化学性质的影响。通过使用多项式回归（PRFDROL），主成分回归（PCFDROL）和偏最小二乘回归（PLFDROL）来预测烃的形成焓，已经分析了数据集。该模型以高相关系数（r，r2，adjr 2，F）和较低标准误差（se）验证，表明该模型具有良好的预测能力。 PR，PCR和PLSR预处理数据的平方相关系数（r2）为1,0.98392和0.9839，预测效果较好，拟合响应与现有方法相比较。具有PR的优化QSPR模型显示出最适合预测碳氢化合物形成焓的方法。

关键词：分子描述符最大冗余最小相关性。马哈拉诺比斯距离法。多项式回归。主成分回归。偏最小二乘回归

一简介

定量结构性质关系/定量结构活性关系（QSAR / QSPR）由Hansch引入，用于预测或理解化学化合物结构与其生物活性之间的关系和物理化学性质[1,2]。 QSPR是一个数学模型，涉及步骤，如数据收集，分析所需的适当数据集的选择和应用相关性以及建立预测模型的统计技术（参见图1）。 QSPR还代表了与分子结构特征（分子描述符）相关的物理化学特性或生物活性[2,3]。该模型具有更广泛的应用领域，涉及药物发现和开发过程，如预测理化性质，治疗剂，耐药性，毒性和其他相关领域[4,5]。形成焓是化合物的重要特性之一，有助于准确预测化合物的药物设计。在这项工作中，基于多项式回归，PCR，PLSR开发了新的QSPR模型，以预测化合物的形成焓。这种预测可以通过关联拓扑描述符来完成，拓扑描述符是描述化合物结构或性质的基本要素[5]。该化合物的形成焓有助于理解共振能，键能，化学键的性质和其他相关特征[6]。通过各种统计参数验证了所提出的模型，如描述符数，相关系数r，平方相关系数r2，调整后的r 2，标准误差（se）和F检验值[5]。 QSPR模型由Firpo（2000）开发，用于预测烷基苯的沸点，其中四个变量的回归分析将用于预测良好拟合模型[6]。 Eduardo A. Castro（2000）提出用QSPR模型预测芳烃的沸点与五个变量拟合[7]。 Tueroset al。（2001）已经开发出多环芳烃的疏水性预测QSPR模型。这些工作使用具有五个变量的高阶回归方程来进行更好的预测[8]。根据Andres Mercader等人的说法。（2001），通过多项式回归分析了具有14个描述符的60种碳氢化合物的QSPR模型。该模型显示了对于从最大阶距离矩阵[9]计算的拓扑指数的三次多项式回归的5变量拟合。当描述符冗余且分子的性质具有更大的可变性时，该模型的复杂性增加。为了克服这种冗余问题，优化模型提出了降维和异常值去除，从而将描述符从14减少到8，并且还显示了与PCFDROL和PLFDROL模型相比具有2次多项式的2-变量的良好拟合优化QSPR（PRFDROL）模型。这表明通过降维和预除异常值对数据进行预处理对QSPR模型的影响更大。

该论文的组织包括，第2节描述了应用于分析的数据集和分子描述符。通过减少维度和删除异常值来预处理数据集。这将通过Mahalanobis平方距离方法完成并应用于数据集，因为它影响模型的可预测性。 PR，PCR和PLSR方法也作为本节的一部分进行讨论。第3节和第4节讨论了分析QSPR模型和结果的各种统计参数。

二材料和方法

2.1实验数据集

从数据集中获得有机化合物（烷基）的烃形成焓的实验数据集，其中考虑60种烃化合物进行分析[5,8]。将化合物的mol文件作为源信息。从mol文件中提取基于坐标，原子和键信息的结构信息。使用基于坐标信息的MATLAB GUI环境绘制化学结构的2D可视化，并计算稀疏邻接矩阵，如图2和表1所示[10]。

2.2分子描述符

分子描述符是化学化合物的蓝图，其中描述符被称为以数字术语表示的结构的特征。基于描述符的图论方法称为拓扑索引。拓扑指数代表化学结构的数学性质[11,12]。图2显示了通过从mol文件中检索结构信息构建1,2,3-三乙基苯并噻吩的化学结构。基于邻接矩阵（A）和化学结构的距离矩阵（D）计算拓扑描述符，如图3所示。与化学拓扑结构相关的广泛使用的描述符包括碳数，连通性指数，萨格勒布，维纳， Harary和Hyper Wiener [13-15]。

2.2.1碳数

分子中存在的碳原子数表示为Nc。

2.2.2分子连接性指数

Kier和Hall提出了chi分子连接性指数，它是不同长度键合路径上原子delta;值的总和[15,16]。零阶连通性指数（0蠂）是分子中所有原子的总和，如公式(1)所示。。

(1)

一阶连通性指数类似于Randic的分支指数（2）。它定义如下，

(2)

其中，degi和degjdenotes是邻接矩阵Ai的行和。

(3)

2.2.3萨格勒布集团指数

萨格勒布群指数基于图论方法，由Gutametal定义[5,12]。已经通过两个图不变量M1和M2描述了支化度的定量表征，其被称为萨格勒布指数。 M1和M2的计算方法如公式1所示。（4）和（5）。化学图的顶点度（di）等于邻接矩阵（A）中的行i中的条目之和。

其中，di是节点或顶点i的度数，dij是边缘（i，j）的权重。

2.2.4维纳指数

Wiener指数（W）或Wiener数据于1947年由Wiener报告，Wiener是QSAR / QSPR模型中广泛使用的指标之一。它是分子中任意两个碳原子（碳 - 碳）之间的距离之和[17]。换句话说，路径数是通过将位于原子两侧的键的数量相加来计算的，该键是使用等式1计算的。（6）。维纳指数被重新定义为距离矩阵之和的一半，如公式（7）所示。维纳指数表示为，

2.2.5 Harary指数

Harary指数由Plavsic等人命名，以纪念Frank Harary教授在图论和化学图论中的贡献。 Harary指数基于倒数距离矩阵（Dr = Dr（G））。 Harary指数可以计算为倒数距离矩阵（Dr）中的元素的一半（方程8）[18]。

通过替换如等式1中给出的距离矩阵的所有对角线元素来获得倒数距离矩阵Dr[19]。

2.2.6超维纳指数

超级维纳指数由Randic等人提出。（1993）。该指数计算为距离矩阵（求和）和平方距离矩阵之和的四分之一和，如等式1所示。（10）[20,21]。

基于邻接和距离信息计算了60种烃分子的各种拓扑指数，如表2所示。已经通过PR，PCR和PLSR分析了计算的描述符，用于预测分子的热形成。

三预测的计算模型

PR，PCR和PLSR等方法已被广泛用于预测分析。在提出的模型中引入了降维和离群减少的预处理方法，以优化预测精度。

3.1降维

维数降低是预处理QSPR模型有效预测的重要步骤。减少所选特征或分子描述符的大小是分析结构和分子性质之间相关性的有效方法。特征选择可以定义为根据目标函数或属性选择最佳特征或分子描述符的过程。该过程将特征从较高维空间映射到较低维空间[22]。

特征选择方法是选择原始特征或分子描述符的子集。降低特征的维数同时降低了计算成本并提高了可预测性并消除了噪声，这有助于识别对目标分子的性质具有更大影响的特征。最小冗余最大相关性是使用互信息进行分析的重要算法之一。模糊逻辑处理许多应用，其中通过应用基于模糊的最小冗余 - 最小相关性（FDR）方法的特征选择导致减少的数据集彼此不相似且相关[23,24]。已经应用FDR方法来选择分子描述符基于分子的热化学行为[22]。数据集中的子集分子描述符表示为“S”，“Omega;”表示数据集中的所有描述符。最小冗余条件已表示为等式1。（11），

其中，I（fi，fj）是在fi和fjand之间计算的互信息| S | 2表示S中描述符的数量。最大相关性是目标属性和描述符过滤之间的互信息I（c，fj）。

3.2异常值检测

异常值（OL）被定义为不符合数据集中观察的同质多数所建议的模式的观察。异常值也被称为污染物[25]。 QSAR / QSPR模型的性能取决于具有相似结构的数据集，这改善了分子特性的预测。从数据集中识别和去除这些分子表明，属性的可变性被称为异常值。必须识别和删除异常值，因为它会影响QSAR / QSPR模型的质量[26]。异常值的存在可能意味着用于预测分析的描述符或参数不足或数学模型不合适[32]。基于强大的基于距离的方法将基于马哈拉诺比斯距离的异常检测方法分类。马哈拉诺比斯距离法是用于识别多变量模型中的异常值的已知方法之一，其表示为等式。 13.计算数据的均值和协方差，并根据这些信息，计算每个字段向量（分子描述符/观察值）的Mahalanobis SquaredDistance（MSD），并与临界值进行比较，临界值是与F统计相关的自由度估计[26] ]。大于临界值的观察值被识别为数据集中的异常值。

其中，Xi表示第i个分子的描述符，t是多元算术平均值，C是样本协方差矩阵。

3.3多项式回归

多项式回归是基于最小二乘法来重新定位多项式多项式函数。在多项式回归中，数据基于m次函数转换为多项式方程[5,6]。多项式函数可以表示为，

其中，xn表示第五个描述符（nisnon-negativeinteger）和a0，..，a表示常系数。多项式函数被认为是回归，如公式（15）所示

其中，X表示多项式函数，^ a表示回归系数，^ a0表示函数中的截距。

3.4主成分回归（PCR）

PCR是QSPR分析中常用的方法之一[1]。主成分分析（PCA）可创建紧凑而精确的QSPR模型，并最大限度地减少原始数据中的信息丢失[27,28]。 PCA是一种内部分析方法，用于处理所选分子描述符的方差和协方差，如公式1所示。（16）。主成分（PC）基于数据的总方差变换数据矩阵基数。

其中，PCi是第i个主成分，Cij是描述符xj的系数，p表示描述符的数量。主成分被认为是回归，

其中，PC代表主成分，B，B0是回归系数，如式（17）所示。公式（18）描述了响应变量（Y）和PC分量得分（T）之间的关系[25]。

其中，B是回归系数的估计量。

3.5偏最小二乘回归（PLSR）

偏最小二乘法也称为潜在结构投影[1]。 PLS是一种有效的方法，用于分子结构及其性质之间的分子信息学/ QSPR理解关系。潜变量解释了近似并最大化了独立（X）和因变量（Y）之间的相关性[29]。它们表示为方程式（19）和（20）

其中T和U表示自变量Xmtimes;n和Ymtimes;1的得分矩阵.PandQ表示Xmtimes;n和Ymtimes;1的正交加载。 E和Fare错误变量术语。变换矩阵Xmtimes;n和Ymtimes;1被认为用于构造回归方程，如（21）中所示。

其中B和B0是Xmtimes;n的beta;系数。

四用于预测分析的统计参数

在该模型中，考虑统计参数，例如相关系数（r），平方相关系数（r2），调整后的r2（adjr2），标准误差（se）和F值，用于评估预测分析。 F值代表方差的重要性。良好的模式显示低标准误差和高r，r2，adj r 2和F值[31]。

相关系数的计算方法如公式1所示。 22.相关系数量化了所有描述符之间的相关程度.Xi，kandXj，k表示第k个描述符的第j个。X j代表平均向量。

平方相关系数表示为方程式。 23.通过回归解释的变异（Y）的比例通过r2来估计，其中Y i和Ycal，i代表被观察到的和计算的分子和Y代表所有分子的平均性质。

调整后的平方相关系数（adjr2）表示为方程式1。在公式（24）中，r 2表示平方相关系数，n和c表示包括用于模型分析的分子和描述符的数量。

预测错误预测参数显示回归方程预测观察到的属性为

在式（25）中给出，其中N表示分子数，p表示描述符数。

F统计数据反映了与每个描述符相关的自由度数。较高的F值显示模型的更高显着性水平[2,30]。 F统计量如公式（26）所示计算。

五结果与讨论

基于PR，PCR和PLSR对含有8个描述符（60times;8）的60种碳氢化合物进行了QSPR研究，并通过统计参数分析了其显着性。在拟议的工作中，数

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[20631]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码