柴胡属Bupleurum L.是伞形科Apiaceae一个具有遑急药用和经济价值的类群。中国散布有柴胡属植物约42种16变种[1], 其中36种(包括一些变种及变型) 均可入药使用[2-4]。中药材柴胡(Bupleuri Radix) 在《神农本草经》中被列为“上品”melody marks 肛交, 具有疏散退热、疏肝解郁、升举阳气之功效, 是最常用的巨额药材之一。《中华东谈主民共和国药典》 (2020年版, 一部)[5]规定, 中药材柴胡开始于伞形科柴胡属药用植物柴胡(北柴胡) B. chinense DC.或狭叶柴胡(红柴胡) B. scorzonerifolium Willd.的干燥根。药理学筹议揭示柴胡属药用植物含有皂苷、蒸发油、黄酮、甾醇等活性因素, 具有抗炎、抗肿瘤、调度神经和免疫等作用[6-8], 因而在当代药物拓荒筹议中被无为使用。
柴胡属亦然分类和系统发育筹议中的一个“坚苦”类群。染色体核型[9]、果实款式[10, 11]、花粉款式[12]以及ITS、trnH-psbA、matK、rbcL和rps16等DNA分子秀气[13-16]为柴胡属植物的分类已然与系统学筹议提供了遑急依据。但是, 天然柴胡属的单系性如故得到分子凭据的营救, 但属内不同物种间的系统发育策划现时仍然存在争议[17, 18]。高通量测序工夫和生物信息学分析门径的快速发展使得叶绿体全基因组序列在知道低阶元“坚苦”植物类群系统发育策划筹议中得到无为应用, 何况在管束柴胡属植物种间系统发育策划问题中的上风已初见头绪[17]。现时柴胡属北柴胡[17, 19]、红柴胡[20]、紫花阔叶柴胡B. boissieuanum H. Wolff[21]、三岛柴胡B. falcatum L.[22]、紫花鸭跖柴胡B. commelynoideum de Boiss.[17]、竹叶柴胡B. marginatum Wall. ex DC.[23]、龙血树柴胡B. dracaenoides Huan C. Wang, Z. R. He & H. Sun[24]和长茎柴胡B. longicaule Wall. ex DC.[25]等物种的叶绿体基因组已有筹议报谈, 但不同种间及同种不同个体间叶绿体比较基因组学和系统发育关联筹议还鲜有报谈。
本筹议新测序取得北柴胡和紫花阔叶柴胡两个物种的叶绿体全基因组序列, 对其进行拼装、注视和特征知道, 并与柴胡属其他已发表的叶绿体基因组进行比较基因组学和系统发育分析, 旨在全面知道北柴胡、紫花阔叶柴胡叶绿体全基因组序列与结构特征; 接洽柴胡属植物叶绿体基因组的全体特征与变异模式, 比较序列的种间、种内变异情况, 并筛选种间高变异序列; 基于叶绿体系统发育基因组学分析知道柴胡属代表药用植物种间系统发育策划。进而为柴胡属药用植物的分类已然、保护遗传学及资源拓荒期骗等关联筹议提供基础。
材料与门径实验材料 野生北柴胡、紫花阔叶柴胡分别采自陕西省宝鸡市太白县桃川镇路坪沟(33°1'12" N, 107°30'0″E) 和宝河沟(34°3'0″N, 107°31'48″E), 由陕西中医药大学药学院王继涛高档实验师已然。网罗到的崭新幼嫩叶片放入硅胶中快速脱水干燥, 用于基因组DNA索要, 凭证标本(网罗号: 610330_1908、610330_1905, 网罗东谈主: 张明英) 保存于陕西中医药大学中药标本馆。
基因组DNA索要与测序 期骗植物基因组DNA索要试剂盒(TIANGEN, 北京) 索要总DNA, 1.0%的琼脂糖凝胶电泳检测DNA质地, Qubit 3.0 (Thermo Fisher Scientific, USA) 荧光定量仪检测DNA浓度。检测及格后的基因组总DNA构建长度约350 bp的插入片断文库, 期骗Illumina HiSeq X Ten平台进行序列读长为150 bp的双端测序(paired-end sequencing)。期骗NGS QC ToolKit[26]对测序得到的原始序列(raw reads) 进行质控(参数拓荒聘请默许值), 过滤去除接头(adapter) 和低质地序列(reads), 得到高质地待分析序列(clean reads)。
叶绿体全基因组序列拼装、拼接与注视 以GenBank数据库中收录的北柴胡叶绿体全基因组序列(Accession: NC_046774) 看成序列延长的种子(seed), 在Linux系统中开动剧本, 期骗GetOrganelle门径包递次调用Bowtie2、BLAST、SPAdes软件, 对clean reads进行筛选、比对和拼装, 取得序列重迭群(contigs)[27]。期骗Bandage软件[28]将contigs拼接成环并裁撤冗余序列, 同期将拼接成果与上述seed (NC_046774) 序列在Geneious软件[29]中进行比对以细目反向重复区(inverted repeat regions, IRs) 的标的, 初步完成叶绿体全基因组序列的从新拼装。再期骗Bowtie2将原始序列从新映射到拼装完成的叶绿体全基因组序列上, 通过检测序列隐敝度来评估和考据大单拷贝区(large single copy, LSC)、小单拷贝区(small single copy, SSC) 与两个反向重复区的4个界限及各contigs拼接处的正确性[30], 最终得到完满的叶绿体全基因组序列。
走光 偷拍同样以北柴胡叶绿体全基因组(NC_046774) 的注视成果看成参考, 在Linux系统中开动剧本, 期骗PGA (plastid genome annotator)软件[31]对拼装完成的叶绿体全基因组序列进行注视, 并在Geneious软件中矫正注视成果。期骗在线软件tRNAscan-SE (-SE/) 细目所有tRNA基因的界限。终末, 期骗Organellar Genome DRAW (OGDRAW) 软件(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html) 在线画图叶绿体全基因组图谱。拼装并注视完成后的北柴胡、紫花阔叶柴胡叶绿体全基因组序列期骗sequin软件裁剪并提交至GenBank数据库, 检索号分别为MN756857和MN756856。
重复序列检测与叶绿体全基因组比较分析 期骗REPuter软件(https://bibiserv.cebitec.uni-bielefeld.de/reputer) 检测叶绿体全基因组序列中的分散重复序列(dispersed repeats), 参数拓荒为最小重复序列长度= 30 bp, 重复序列间的相似度 > 90%[32]。串联重复序列(tandem repeats) 期骗Tandem repeats finder软件(https://tandem.bu.edu/trf/trf.html) 进行检测, 参数拓荒聘请默许值[33]。现时, 柴胡属北柴胡(NC_046774和MN893666)、红柴胡(MT239475)、紫花阔叶柴胡(NC_036017)、紫花鸭跖柴胡(MT162552)、竹叶柴胡(MN968501)、以及三岛柴胡(KM207676) 和B. latissimum Nakai (NC_033346) 共7种8个个体的叶绿体全基因组序列已在GenBank数据库洞开获取。期骗MISA软件对本筹议新测序取得的北柴胡、紫花阔叶柴胡与上述8个个体叶绿体全基因组序列中的浅薄重复序列(simple sequence repeats, SSRs) 分别进行检测, 参数拓荒均为单核苷酸重复单位不少于10个, 二核苷酸重复单位不少于5个, 三核苷酸和四核苷酸重复单位不少于4个, 五核苷酸和六核苷酸重复单位不少于3个, 且两个SSRs之间的距离不小于100 bp[34]。并对SSRs的类型、数量和散布模式分别进行比较分析。
期骗mVISTA软件在LAGAN模子[35]下对本筹议新测序取得的北柴胡与紫花阔叶柴胡以及柴胡属上述8个已发表个体的叶绿体全基因组序列进行比较分析。同期, 对种间及同种不同个体间叶绿体基因组的IR/SC界限位置进行比较, 分析IRs区削弱与扩展情况。
系统发育与序列变异分析 将包括本筹议新测序的北柴胡、紫花阔叶柴胡在内的柴胡属所有10个叶绿体全基因序列构建序列矩阵, 并登科同来自伞形科的药用植物当包摄Angelica L.当归A. sinensis (Oliv.) Diels (NC_042826) 和藁本属Ligusticum L.藁本L. sinense Oliv. (NC_038088) 看成外类群, 期骗RAxML以最大似然法(maximum likelihood, ML)[36]进行系统发育重建分析。序列比对期骗MAFFT软件[37]完成, 并期骗Geneious软件对比对成果进行必要的手动检验拯救; 核苷酸替换模子聘请GTR+G; 系统发育树各分支的靴带营救率(bootstrap values, BS) 通过进行1 000次自展重复分析取得。此外, 期骗MEGA软件[38]分别忖度种间、种内遗传距离(pairwise distance)。
为了进一步分析柴胡属植物叶绿体全基因组序列间的变异情况, 将所有7种10个个体及北柴巷子种3个个体的叶绿体全基因组序列(去掉一个IR区) 分别构建多序列矩阵, 比对和检验拯救之后, 期骗DNAsp软件[39]进行滑动窗口分析(sliding window analysis), 忖度核苷酸万般性指数Pi, 并根据分析成果筛选种间高变异序列。滑动窗口(windows length) 大小拓荒为600 bp, 步长(step size) 为200 bp。将筛选到的种间高变异序列分别索要出来, 构建聚会矩阵, 再次进行系统发育分析, 考据其关于种间隔离与系统发育策划的分辨率。门径和参数拓荒同前。
成果与分析 1 叶绿体全基因组测序、序列拼装拼接与注视北柴胡和紫花阔叶柴胡测序分别得到38 031 172条(6.5 Gb) 和42 649 376条(7.29 Gb) raw reads, 过滤去除adapters和低质地reads后最终分别得到36 190 390条和41 233 108条clean reads, 即clean reads的比例分别为95.16%和96.68%。拼装拼接后两者均得到完满的环状四分体结构叶绿体全基因组, 序列总长度分别为155 458 bp和155 800 bp, 由大单拷贝区(长度分别为85 343 bp、85 804 bp)、小单拷贝区(17 495 bp、17 410 bp) 和一双反向重复区(26 310 bp、26 293 bp) 组成(图 1)。两者叶绿体全基因组序列及LSC和IRs区的GC含量均一样, 递次为37.7%、35.8%和42.8%, SSC区的GC含量分别为31.4%和31.5% (表 1)。
在北柴胡和紫花阔叶柴胡叶绿体全基因组序列均分别注视得到129个基因, 包括84个卵白编码基因、37个tRNA基因和8个rRNA基因(表 2)。其中, 6个卵白编码基因(rpl2、rpl23、rps7、rps12、ndhB和ycf2)、7个tRNA基因(trnI-CAU、trnL-CAA、trnV-GAC、trnI-GAU、trnA-UGC、trnR-ACG和trnN-GUU) 和4个rRNA基因(rrn16、rrn23、rrn4.5、rrn5) 分别在两个反向重复区出现一次重复, 同期, 由于rps19和ycf1基因分别横跨LSC/IRb和SSC/IRa界限, 因此在IRa和IRb区对应位置分别产生一个假基因φrps19和φycf1 (图 1、2)。此外, rpl16、rpl2、rpoC1、rps16、atpF、ndhB、ndhA、petB、petD和trnK-UUU、trnG-UCC、trnL-UAA、trnV-UAC、trnI-GAU、trnA-UGC基因各包含有1个内含子, rps12、ycf3和clpP基因各包含2个内含子, 同期, rps12基因的5'端和两个重复的3'端分别位于LSC区和IR区, 被分红2个孤独的转录单位, 为反式剪切(trans-spliced) 基因。
北柴胡和紫花阔叶柴胡叶绿体全基因组序列均分别检测到33条和38条长度不小于30 bp且重复序列间相似度大于90%的分散重复序列, 包括正向重复(forward repeats, F)、反向重复(reverse repeats, R)、回环重复(palindromic repeats, P) 和互补重复(complement repeats, C) 序列, 数量递次分别为16和17、0和3、16和16以及1和2。同期, 分别检测到22条和30条长度为9~49 bp、重复次数为2~4次的串联重复序列。SSRs的数量、类型相配在叶绿体基因组中的散布情况分别见表 3、4。这些SSRs主要散布于叶绿体基因组的LCS区(约占总额的66.67%~75%), 何况主要散布于非编码的基因间区序列中。编码基因序列总长度占叶绿体全基因组全长的49.64%~50.31%, 而编码基因序列中散布的SSRs数量仅占其总额的13.89%~22.03%。
叶绿体全基因组序列比较分析成果见图 2、3。柴胡属植物叶绿体全基因组序列所编码的基因类别、数量和枚举标准在种间、种内均高度一致; 序列间的变异主要发生在非编码基因间区, 且种内变异小于种间; 此外, IRs区莫得出现彰着扩展或削弱风光。核苷酸万般性分析成果流露, 种间序列的Pi值全体变化领域为0~0.022 2, LSC、SSC和IRs区的平均Pi值递次为0.006 3、0.008 8和0.001 1。同期, 筛选到11条Pi > 0.015的种间高变异序列, 分别位于LSC区(trnK-UGG_rps16、petN_psbM×3、petA_psbJ×2+psbJ) 和SSC区(ndhF+ndhF_rpl32×2、ycf1×3), 见图 4。
系统发育建立成果如图 5所示, 柴胡属所有10个个体以100%的营救率聚为一个单系, 其中, 竹叶柴胡、红柴胡和B. latissimum递次从基部孤独分化出来; 北柴巷子种3个个体聚为一支, 并与紫花鸭跖柴胡组成姐妹策划; 紫花阔叶柴胡与三岛柴胡亲缘策划最近, 但紫花阔叶柴巷子种两个不同个体MN756856和NC_036017却并未聚类为一支, 而是NC_036017与三岛柴胡以93%营救率组成姐妹策划, 再与MN756856共同聚为一个单系(营救率为100%)。11个高变异序列聚会分析构建的系统发育树干群节点营救率无数偏低, 同期, 紫花阔叶柴胡MN756856、NC_036017和三岛柴胡三者之间的拓扑策划与叶绿体全基因组序列的建立成果出现突破, 即MN756856和NC_036017以88%的营救率组成姐妹策划, 再与三岛柴胡聚为一支(营救率为70%)。
本筹议对北柴胡和紫花阔叶柴胡叶绿体全基因组的分析成果标明, 两者均具有被子植物叶绿体基因组典型的环状四分体结构, 所编码的基因类别、数量及枚举标准全齐一样, 同期具有高度相似的GC含量(仅SSC区有0.1%的轻细别离)。其中, IRs区序列的GC含量最高, 各区域序列中GC含量从高到低递次为IRs > Genome > LSC > SSC。进一步分析发现, IRs区散布的4个rRNA基因序列中较高的GC含量(50.5%~56.5%, 平均55.3%) 是引起IRs区全体GC含量偏高的一个遑急因素。此外, 北柴胡、紫花阔叶柴胡叶绿体全基因组序列的总长度、CG含量、基因组成等与柴胡属其他已报谈的物种亦高度一致[17, 19-22], 但与同为伞形科确当包摄[40]、四带芹属Tetrataenium (DC.) Manden.[41]等植物却存在不同进程的相反。包括本筹议新测序的北柴胡、紫花阔叶柴胡在内的柴胡属7种10个不同个体叶绿体全基因组、LSC、SSC和IRs区长度的种间相反领域分别为8~1 117 bp、32~1 097 bp、0~198 bp和1~22 bp, 即总长度的相反主要来自于LSC区, 而SSC和IRs区长度相对保守。序列比对分析发现, LSC区长度相反主如果由非编码基因间区中出现的串联重复序列和短片断插入/缺失所引起。而比拟于不同物种间, 北柴巷子种3个不同个体间叶绿体全基因组、LSC、SSC及IRs区的长度则更为保守。
被子植物叶绿体基因组的环状四分体结构使得其两个反向重复区与大、小单拷贝区之间存在4个界限, 即LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC。在进化经由中, IRs区常发生削弱或向单拷贝区扩展风光, 这亦然导致被子植物不同类群叶绿体基因组长度相反的一个遑急原因[42]。Downie等[43]筹议发现, 伞形科植物叶绿体基因组的LSC/IRb及IRa/LSC界限在不同属间常存在较大变异。本筹议对柴胡属7种10个代表植物个体叶绿体全基因组IR/SC界限位置的分析成果流露, IRs区长度分别为26 288~26 310 bp, 其中, rps19基因横跨LSC和IRb区, 其下流有70 bp的序诸君于IRb区; ycf1基因横跨SSC和IRa区, 下流有1 871~1 877 bp的序列散布于IRa区, 种间、种内均未出现彰着的IRs区削弱或扩展风光, 阐扬柴胡属植物叶绿体基因组IRs区大小和基因组成高度保守。但与伞形科当包摄[40]、四带芹属[41]、天胡荽属Hydrocotyle L.[43]等的植物IRs区大小均存在彰着相反, 与Downie等的筹议成果一致。
SSRs也称为微卫星DNA (microsatellites DNA), 所以少数核苷酸(一般1~6个) 为基本重复单位组成的浅薄串联重复序列, 无数存在于真核生物基因组中, 具有多态性高、散布无为、两头(侧翼) 序列高度保守等特质[44]。此外, 散布于植物叶绿体基因组中的SSRs还同期兼具单亲遗传模式, 被看成分子秀气无为用于群体遗传学[45]、谱系地舆学[46]等关联筹议。本筹议分析成果标明, 柴胡属7种10个代表植物个体叶绿体全基因序列中的SSRs均以单核苷酸重复(占总额的65.28%~75.00%) 为主要类型, 其次为二核苷酸(12.12%~20.83%) 和三核苷酸(7.81%~12.28%), 且跟着拷贝数量增多, SSRs数量彰着减少。单核苷酸和二核苷酸SSRs的重复序列类型分别以A/T (约占单核苷酸SSRs总额的91.49%~100%) 和AT/TA (100%) 为主, 三核苷酸SSRs的重复单位亦主要由A、T碱基组合(ATA/AAT/ATT/TAA/TAT/TTA, 60%~80%) 组成, 进一步考据了叶绿体基因组序列中的SSRs主要由polyA或polyT所组成, 而较少出现C或G串联重复这一论断[47]。这些SSRs不错为柴胡属药用植物分子遗传学关联筹议提供候选分子秀气。
基于mVISTA的叶绿体全基因组序列比较分析成果(图 2) 不错看出, 柴胡属植物叶绿体全基因组序列的种内变异小于种间, 北柴巷子种3个不同个体间叶绿体全基因组序列高度保守; 同期, IRs区序列的变异权贵小于LSC和SSC区, 且编码序列的变异低于非编码序列(基因间区和部老实含子), 这与Li等[17]对柴胡属5辅助物叶绿体基因组序列的分析成果一样, 也与伞形科其他属[40, 41]相配他被子植物多个不同类群叶绿体基因组序列变异模式一致[48-50]。此外, 核苷酸万般性分析成果流露, 柴胡属不同物种间及北柴巷子种不同个体间叶绿体全基因组序列的核苷酸万般性指数Pi平均值分别为0.005 6和0.000 4, 同期, LSC、SSC和IRs区序列的种间Pi平均值递次为0.006 3、0.008 8和0.001 1, 进一步解说柴胡属植物叶绿体全基因组序列在种内和种间均高度保守, 且序列变异主要出现时LSC和SSC区, 与mVISTA分析成果一致。
柴胡属药用植物是中药材的遑急开始, 但由于属内物种数量较多, 不同种间以至同种不同个体间常存在不同进程的款式变异, 导致种间分类已然与系统发育策划存在较多问题。本筹议基于叶绿体全基因组序列构建的系统发育树中, 除紫花阔叶柴胡(NC_036017) 与三岛柴胡之间姐妹策划的营救率为93%除外, 其余分支均得到100%的营救率; 此外, 7个不同物种间的遗传距离为0.001~0.015 (平均为0.005 1), 权贵高于北柴巷子种3个不同个体间的遗传距离(0~0.001, 平均为0.000 3), 阐扬柴胡属植物叶绿体全基因组序列包含丰富的种间演化信息位点。但是紫花阔叶柴巷子种两个不同个体MN756856和NC_036017却并未聚类为一支, 而是NC_036017与三岛柴胡以93%营救率组成姐妹策划, 再与MN756856共同聚为一个单系。进一步对这3个叶绿体全基因组序列进行了两两分析比较, 成果发现, 紫花阔叶柴胡MN756856和NC_036017两者之间存在293 bp的变异位点, 遗传距离为0.002, 而三岛柴胡与MN756856和NC_036017之间的变异位点数量分别为207 bp和217 bp, 遗传距离均为0.001。联接前东谈主基于款式特征、染色体核型和核基因序列的筹议论断[9, 11], 推测这一成果可能是由于样品已然问题引起。因此, 在保证原始实验材料准确已然的前提下, 不错增多种间、种内个体取样密度, 并联接核基因数据进一步进行分析考据。
被子植物叶绿体基因组序列中的一些高变异区(divergence hotspot regions) 序列经常不错看成物种已然及系统发育策隔离析等关联筹议的分子秀气[51]。本筹议在柴胡属种间共筛选到11条Pi值> 0.015的高变异序列。但是, 尽管这11条序列聚会分析构建的系统发育树拓扑结构与叶绿体全基因组序列分析成果基本一致, 但多个干群节点的营救率彰着镌汰。这一成果阐扬有限的分子片断所包含的种间系统发育信息不及, 而叶绿体全基因组序列是管束柴胡属植物种间分类已然和系统发育策划问题一个更为理念念的聘请。
作家孝敬: 第一作家张明英讲求论文绸缪、实验、数据分析及论文撰写; 通信作家张岗讲求论文绸缪、数据分析和论文交流; 李依民、高静、沈霞参与实验及数据分析; 颜永刚、杨新杰参与样品网罗; 张雨曲、王昌利参与数据分析。所有作家参与论文修改。
利益突破: 本文所有的作家之间不存在利益突破melody marks 肛交。