仪器信息网APP
选仪器、听讲座、看资讯

【金秋计划】基于超图的中药方剂超网络中药材群组信息挖掘

  • 城头变幻大王骑
    2024/09/12
  • 私聊

中药/天然药检测

  • 中医药是中华文明的瑰宝[1],在中华民族数千年历史长河中提供了独特的医药理论和方法体系[2-3]。目前,对中医药的研究受到了越来越多的关注,即使是在人工智能等热门研究领域也涌现出相关的研究成果,如Liu等[4]提出了一种2阶段的迁移学习模型,从病历和中医文献资源中生成中医处方。
    中药方剂是一个复杂系统,复杂网络是研究复杂系统的重要工具。在网络科学视域内,已有众多研究成果使用网络技术对中药方剂的配伍规律以及“病-症-药”关联关系进行分析,对于指导中药新方开发和临床诊治等具有重要意义。随着对中医药的深入研究,学者们发现方剂中的药与药、药与病症等存在大量模糊、非线性的关系,这种关系可以映射为复杂网络[5]。复杂网络是对实际复杂系统的抽象,用于刻画系统中个体间的相互作用关系,是研究复杂系统性质和功能的基础工具[6]。周雪忠等[7]利用复方药物配伍的无尺度网络规律,实现了基于图论网络分析的处方核心药物配伍知识发现;王世琤等[8]基于复杂网络技术和点式互信息分析慢性肾脏病本虚标实证中药配伍规律。复杂网络理论已广泛地应用于解决中医药领域中的诸多问题[9-11]。
    药材群组是指2种及以上药材的组合。每个药材群组的药材组成不同,功能也不尽相同[12]。根据2种药材是否包含在同首方剂中的二元关联关系构建的普通复杂网络模型,难以直观地揭示多种方剂中存在的药材之间的高阶复杂关联关系,普通复杂网络不能全面刻画和揭示方剂网络中药材群组信息及其内在规律,基于超图的超网络方法的相关研究应运而生[13]。超图允许由多个节点组成更一般的交互[14],可以更好地描述中药方剂中存在的药材群组之间的高阶复杂关联关系。Estrada等[15]认为基于超图拓扑结构构建的网络为超网络(hypernetwork),超网络模型与之前研究过的大多数复杂网络具有相似的定性特征[16]。从理论上讲,超图可以推广一般图上的某些结论[17]。关于超网络的研究呈现出了快速发展的趋势,吸引了大量学者从交叉应用的角度展开深入研究。Johnson[18]认为超网络提供了一种表示多层次系统的新方法,其目标是整合它们的微观和宏观动态,如Pearcy等[19]将生物代谢中渗流过程的概念扩展到超网络,采用超网络的形式来研究细菌代谢超网络的鲁棒性;Pan等[20]将循环特征转移到超链接预测算法中,提出了一种基于循环的超链接预测方法。在中医药领域运用超网络理论和方法的研究处于探索阶段,不同于俞成诚等[21]构建的基于图的超网络(supernetwork)的分析方法,符康等[22]基于超图理论建立中医药方剂网络,对重要的单味药材或药对进行挖掘。
    本研究运用基于超图的超网络对中药方剂中药材的多元关联进行建模,将药材映射为节点,方剂映射为超边,在保证节点同质性的同时,能有效地显示众多中药方剂中不同群组规模药材的高阶关联关系,有利于系统地识别出核心的药材群组及药材之间的相互作用模式,为中药方剂系统中的天然药材群组信息挖掘提供科学方法,以期为探究中药方剂作用机制及临床研发提供参考。
    1 资料与方法
    1.1 资料收集
    本研究使用的数据来源于《实用中医三味药方》[23]和TCM-ID中医药信息数据库(https:// www.bidd.group/TCMID/);前者收集整理了中药方剂2 719首,后者收集整理来自包括《中国药典》、经典中药处方以及国家药品监督管理总局批准的中药方剂共计7 443首。
    1.2 数据采集与规范
    纳入中药方剂的基本信息包括方剂名称和组成药材。若含中药提取物则将该中药提取物转换成对应的中药名称。名称相同的方剂只保留1首。排除方药组成不完整或为单味药的方剂以及药味数大于15的方剂。参照《中国药典》2020年版[24]和全国中医药行业高等教育“十二五”规划教材《中药学》[25]对纳入处方药物名称及性味归经进行规范化处理。同一药物因习惯或地域不同具有多种名称者进行统一,如“法半夏”“制半夏”和“姜半夏”均统一为“半夏”。同种药材名称有差异的进行规范化处理,“白芍药”规范为“白芍”,“仙灵脾”规范为“淫羊藿”,“山茱萸”规范为“山萸肉”等。炮制前后功效无明显差异者仍用生药名称,如生附子、熟附子统称为“附子”;功效差异较大的则分别录入,如“生地黄”和“熟地黄”。
    将规范后的数据进行编码并建立Excel表,即得到所构建的中药方剂超网络的关联矩阵。方剂数据库的收集和整理由2名研究人员共同完成,然后独立进行数据审核,保证不一致的数据记录占比控制在3%以下。根据研究计划和内容,对数据进行集成、清洗和预处理等。按数据的来源分别建立数据集1和数据集2。
    1.3 中药方剂超网络模型构建
    本研究对象是基于超图的中药方剂超网络,其拓扑结构采用了超图作为数学表示形式[17]。设节点集合,超边集合均是有限集合,且,,则称V和ε之间存在二元关系H,则H是一个超图。
    为了说明中药方剂超网络的构建方法,本研究以5首中药方剂为例构建小规模的中药方剂超网络HL,如图1所示。这5首方剂的名称及其各自的组成药材分别为:(1)麻黄汤,由麻黄、桂枝、甘草、杏仁组成;(2)大陷胸丸,由葶苈子、芒硝、杏仁、大黄组成;(3)桂枝汤,由桂枝、炙甘草、白芍、生姜、大枣组成;(4)十枣汤方,由大枣、芫花、大戟、甘遂组成;(5)大陷胸汤,由芒硝、大黄、甘遂组成。将每一首中药方剂都作为1条超边(超边用封闭的曲线表示),将相应方剂中出现的每味药材作为节点,可得到图1中具有13个节点和5条超边的中药方剂超网络HL。其中,节点用符号v来表示,超边用符号E表示。
    在图1所示的超网络中,超边E1、E2、E3、E4和E5分别表示麻黄汤、大陷胸丸、桂枝汤、十枣汤方和大陷胸汤。结合超图理论的基本知识,易知图1中每条超边的节点数和不同节点所属的超边数。然而,由于桂枝和甘草这2味药材同时出现在麻黄汤和桂枝汤中,意味着桂枝和甘草2个节点既存在于超边E1中,也存在于超边E3中;同理表示大黄和芒硝的2个不同节点既存在于超边E2中,也存在于超边E5中。超网络HL体现了药材群组信息,需要新的方法进行信息挖掘。
    图片
    1.4 超网络拓扑结构特征
    在超网络中,节点超度表示该节点存在于多少条超边中,即其被包含的超边数目。在超网络的关联矩阵中,节点的超度也可通过统计相应行中非零元素的个数来计算。超度分布是节点超度的概率分布或频率分布,表示为超网络中超度的对应节点数量在整体节点总数中所占比例。为了分析中药方剂超网络中药材的组群信息,超网络中新的挖掘群体信息的概念介绍如下。
    1.4.1 紧密相关集(tightly related set)[26] 设H=(V, ε)是具有m条超边的n阶超图,若存在超边Ei (i∈1, 2,…, m)使得集合F是Ei的非空子集,则称F是超图H的1个紧密相关集。超图H的所有紧密相关集组成的集合记为Φc(H)。特别地,当F的元素个数为t时,称其为超图H的t元紧密相关集,H的所有t元紧密相关集组成的集合记为Φt(H)。

    图片

    图片

    1.5 数据分析
    利用收集的中药方剂数据集,依据中药方剂超网络的构建方法,使用NumPy库处理多维数组和矩阵,得到对应超网络的关联矩阵。采用Python 3.10软件进行数据分析,分别对超度、超度分布、t元组度、t元组度分布,以及完全分布这些拓扑指标进行计算。将Pandas库导入Python 3.10中对计算结果进行处理,并运用Matplotlib库中的Pyplot模块创建静态、交互性的网络图,从而对结果进行可视化展示。
    超图的特点是允许多个节点组成1条超边,从而形成更为丰富和复杂的关联结构,能为群组关系的描述提供最一般且无约束的数学表示[26]。组度可以反映超网络中小群体的局部特性,从而有利于挖掘出多种药材间潜在的、有价值的依赖关系。
    2 结果
    2.1 数据筛选结果
    本研究创建2个数据集,共收集10 162首中药方剂数据,对数据进行清洗及规范化处理后最终得到9 234条有效数据。数据集基本指标统计如表1所示。
    图片
    2.2 均匀中药方剂超网络分析
    由数据集1构建均匀中药方剂超网络Hsw。其中,以相关的1 404味药材作为节点,以这些药材组成的2 719首方剂为超边。因为每首方剂均含有3味药材,所以超网络Hsw是均匀的。
    2.2.1 超网络Hsw的组度分布规律分析 计算相关集的组度、组度分布和完全组度分布,然后在双对数坐标下对超网络节点组度分布进行可视化,最后用最小二乘法进行拟合。超网络Hsw的组度分布及线性拟合见图2,其中横坐标表示组度(一元组度即超度)频次的对数,纵坐标表示组度分布的对数。
    图片
    由图2-a可知,超网络Hsw的超度分布呈现出明显的幂律分布特性。由图2-b可知,超网络Hsw 的二元组度分布呈现出明显的幂律分布特性。由图2-c可知,均匀超网络Hsw的完全组度分布也呈现出明显的幂律分布特性。由图2中的3个线性拟合结果可以看出,超网络Hsw的3个不同类型的组度分布都可以用最小二乘法拟合出1条直线,意味着每个分布都具有长尾效应。说明只有少部分节点(集)的组度较大,而大部分节点(集)的组度相对较小,表现出无标度特性。
    图片
    2.2.2 超网络Hsw的高频药材群组分析 由组度分布规律研究结果可知,超网络Hsw规模不同的组度分布遵循幂律分布,是不均匀的。从而组度越大的药材集合在方剂超网络Hsw中的影响力越大。依据构建超网络Hsw的方法可知,组度即为对应药材群组被包含的方剂的首数。
    本研究分别对影响力较大的不同规模的药材群组进行详细分析。超网络Hsw中超度排名前10的药材见图3,它们都是十分常见的中药材。甘草是超度最大的药材,超度为322,表明甘草出现在相应数据集的322首方剂中。甘草有清热解毒、去痰止咳、补脾益气、缓急止痛、调和诸药的功效[27],其种植和应用非常广泛。超度排名2~5名的依次为黄连、当归、大黄和人参。排名第10的黄柏的组度也高达86。
    图片
    组度≥7的25个二元药材群组的词云图见图4。排名第1的二元药材群组是{黄连,黄芩},组度为15,表明黄连和黄芩同时包含在15首方剂中,这2味药材配伍在相应方剂数据集中出现的频率最高。黄芩味苦、性寒;黄连性苦、性寒;2味药皆以清热燥湿、泻火解毒为主,常于方剂中配伍使用[28]。排名第2的二元药材群组是{干姜,附子},组度为14,表明干姜和附子同时包含在14首方剂中。干姜味辛,性温、大热,有辛散里寒、温助中阳的功效[29];附子辛热燥烈,补火散寒,有温通周身阳气的功效[30]。
    它们常配伍使用,如含有这2味药材的方剂姜附汤,主要治疗脾虚腹胀、呕吐痰饮或食不进等症状[31]。排名第3的二元药材群组有{甘草,人参}和{大黄,甘草},组度均为13,表明这2对组合同时出现在13首方剂中。人参甘、微苦,有益气健脾、燮理药性的功效[29];大黄有下瘀血、调中化食及安和五脏的作用[32]。以甘草和人参为主的方剂温中丸,主要治疗中气虚热、不喜饮冷或肢体倦怠等症状[31]。以大黄和甘草为主的方剂大黄汤,主要治疗大便不畅或散风活血等症状[31]。
    综上分析可知,黄芩和附子虽然是排名前2的二元药材群组的重要组成药材,但是这2味药都没有出现在超度排名前8的药材中。当归虽然是超度排名第3的药材,但是却没有出现在组度排名前3的二元药材群组中。
    2.3 非均匀中药方剂超网络分析
    由数据集2构建非均匀中药方剂超网络HTC,以相关的2 381味药材作为节点,以这些药材组成的6 515首方剂为超边。因每首方剂均含有的药材数量>1且<16,所以超网络HTC是非均匀的。通过计算可知,其超边的平均节点数为8.98。该数据集相较于数据集1规模更大。
    2.3.1 超网络HTC组度分布规律分析 图5为非均匀超网络HTC在双对数坐标系下的组度分布和完全分布,以及用最小二乘法进行线性拟合的示意图。其中横坐标表示组度(一元组度即超度)频次的对数,纵坐标表示组度分布的对数。
    图片

    由图5-a可知,超网络HTC的超度分布呈现出明显的幂律分布特性。由图5-b~g可知,超网络HTC的二至七元组度分布也都呈现出明显的幂律分布特性。由图5-h可知,超网络HTC的完全分布也呈现出明显的幂律分布特性。由图5中的8个线性拟合结果可以看出,超网络HTC的8个不同类型的组度分布都可以用最小二乘法拟合出1条直线,且尾部节点分布较多,说明只有少部分节点(集)的组度较大,而大部分节点(集)的组度相对较小,表现出无标度特性。
    图片
    2.3.2 超网络HTC的高频药材群组分析 由组度分布规律结果可知,超网络HTC的规模不同的组度的分布遵循幂律分布,是不均匀的。从而组度越大的药材集合在方剂超网络HTC的中影响力越大。
    本研究分别对影响力较大的不同规模的药材群组进行详细分析。非均匀超网络HTC中超度排名前20的药材见图6。其中,甘草是超度最大的药材,超度为2 353。超度排名2~5的依次为乳香、黄芩、川芎和牡蛎。排名第20的茴香的组度也高达238。
    图片
    组度排名前5的二至七元药材群组见表2。本研究分别对不同规模药材群组的组度排名第1的群组进行分析。组度排名第1的二元药材群组是{黄芩,甘草},组度为544,表明黄芩和甘草这2味药同时包含在544首方剂中。它们常搭配使用,如包含这2味药的清肺排毒汤具有抗和抗病毒等作用[33]。组度排名第1的三元药材群组是{黄连,黄芩,甘草},组度为187,表明黄连、黄芩和甘草这3味药同时包含在187首方剂中。它们常配伍使用,如含有这3味药的方剂甘草泻心汤主要治疗脾胃虚弱和呕吐等症[34]。组度排名第1的四元药材群组是{党参,白术,茯苓,甘草},组度为41,表明党参、白术、茯苓和甘草这4味药同时包含在41首方剂中。党参性甘,有补中益气等功效;白术味苦,性甘、温,归脾、胃经,具有健脾益气、燥湿利水之功效;茯苓药性甘淡平,有健脾宁心、利水渗湿等功效。它们常配伍使用,如含有这4味药的方剂八珍汤,主要治疗脾虚和腹泻等症状[31]。组度排名第1的五元药材群组是{白术,茯苓,甘草,生姜,大枣},组度为19,表明白术、茯苓、甘草、生姜和大枣这5味药同时包含在19首方剂中。生姜有解表散寒、温中止呕和温肺止咳的作用;大枣有补中益气和养血安神的作用。它们常配伍使用,如含有这5味药的方剂六君子汤,主要治疗气血两虚、神疲肢倦和食欲不振等症状[31]。组度排名第1的六元药材群组是{羌活,防风,苍术,白芷,黄芩,甘草},组度为12,表明羌活、防风、苍术、白芷、黄芩和甘草这6味药同时包含在12首方剂中。羌活和防风有解表散寒和祛风胜湿的作用;苍术有燥湿健脾和祛风散寒的作用;白芷有解表散寒、祛风止痛、通鼻窍和燥湿止带的作用。它们常配伍使用,如含有这6味药的方剂九味羌活汤,主要治疗感冒、发烧等症状[29]。组度排名第1的七元药材群组是{川芎,白芷,羌活,细辛,防风,薄荷,甘草},组度为10,表明这7味药材同时包含在10首方剂中。川芎有活血行气和祛风止痛的作用;细辛有解表散寒、祛风止痛和温肺化饮的作用;薄荷有疏散风热、清利头目、利咽透疹和疏肝行气的作用。它们常配伍使用。如含有这7味药的方剂金不换膏,有祛风散寒和活血止痛的功效[31]。
    图片
    为了直观地显示超网络HTC的药材群组的频数大小,使用词云技术展示不同规模药材群组的词云图。图7为组度大于169的28个二元药材群组词云图,图8为组度大于64的24个三元药材群组词云图。
    图片
    由上述分析可知,超度排名第2的乳香和第5的牡蛎,均没有出现在排名第1的二至七元药材群组中。超度排名第3的黄芩也没有出现在排名第1的四、五和七元药材群组中。川芎超度排名第4,但没有出现在二至五元药材群组排名前5的所有群组中。黄连超度排名第7,但是却出现在排名第2的二元药材群组中以及排名第1的三元药材群组中。
    3 讨论
    中医药全面振兴已成为国家战略,很多新的科学技术与方法已广泛地应用于中医药研究中,其中在中医药信息挖掘方面,复杂网络理论是分析和处理传统中药方剂数据的有效方法。方剂是依据病情在辨证立法的基础上遵循“君、臣、佐、使”的基本组织结构,选择合适的药物配伍而成,含有丰富的复杂性规律[35]。依据丰富的中医药数据进行信息挖掘,对于阐明方剂配伍的科学内涵、完善中药药性理论和指导中医药新方剂开发等具有深刻意义[36]。
    本研究通过基于超图的超网络模型对方剂间多元的药材群组进行分析。在探索药材群组信息时,将每首方剂视为超边,每种药材视为节点,多种药材同时使用可以看作它们之间存在高阶交互进而构成核心药材群组。构建中药方剂超网络模型,能更好地理解中药方剂的配伍规律以及中药材之间的相互作用模式。
    研究结果表明,通过基于超图的超网络方法建模,能够挖掘出中药方剂和药材之间更多的隐藏信息,特别是包含药材味数大于2的群组信息。构建均匀超网络模型结果显示,甘草是使用频率最高的单一药材,{黄连,黄芩}是最常用的二元药材群组。构建非均匀超网络模型结果同样显示甘草是最常用的单一药材,{黄芩,甘草}是最常用的二元药材群组,{黄连,黄芪,甘草}是最常用的三元药材群组,{党参,白术,茯苓,甘草}是使用最多的四元药材群组。通过在双对数坐标系下进行药材组群分布规律统计,可知2个超网络模型的组度分布均遵循幂律分布,具有无标度特性,意味着对应方剂数据库中出现频率越高的药材组群越重要。探究二元药材群组或三元药材群组乃至更多元的药材群组的配伍使用,对中药方剂的配伍规律和中药材属性的研究具有重要意义,可为遣药组方等提供理论参考,对于医生临床组方等也能起到辅助作用。
    传统复杂网络方法在处理中药方剂时难以有效地捕捉到多个药材同时出现在方剂中的情况。超网络突破了描述点对关联的局限,能够有效地描述中药方剂这一现实复杂系统具有的高阶交互关系。运用超网络的理论和方法对中药方剂系统进行建模,通过拓扑特性研究对应超网络结构功能有利于挖掘中药方剂系统中的组群信息。本研究在处理高阶的复杂关联关系具有一定的系统性和普适性,可用于对中药方剂系统的深入研究。

    暂无留言
猜你喜欢最新推荐热门推荐更多推荐
举报帖子

执行举报

点赞用户
好友列表
加载中...
正在为您切换请稍后...