早期妊娠21三体综合征母体血清中假定蛋白质生物标志物候选的质谱探索和选择反应监测( ...
21三体综合征的确诊需要冒流产的风险进行侵入性治疗。现行最先进的母体血清筛选试验测量各种组合的PAPP-A(妊娠相关蛋白A),游离hCG-β,AFP(甲胎蛋白)和uE3水平,最大灵敏度为60-75% 和假阳性率为5%。目前尚未满足最好可以在早期妊娠内检测出危险怀孕的高选择性非侵入性筛选试验的需要。本研究的目的是运用蛋白质组学和质谱分析法加上定量选择反应监测(SRM)法探索早期妊娠母体血清21三体的新假定生物标志物。这一新颖工作流程的结果包括两方面:(1)我们确定了21三体对正常样本的差异表达蛋白一览表,包括PAPP-A,以及(2)我们为确认探索实验识别的12种新假定标志物研发了一种多路复用、高通量SRM试验。为了缩小从探索实验获得的差异表达候选物的初始大列表,我们在数据分析过程早期融入了接收器工作特性(ROC)曲线算法。我们认为这种方法在筛选从探索实验获得的广泛和复杂数据时有很大优势。工作流程有效开采来源于高分辨率LC-MS/MS(液相色谱/串联质谱法)探索数据的信息用于对未分馏血清消化物进行无缝结构的快速、目标试验。消化血清基质背景中目标肽类的SRM试验检测下限(LLOD)大约为250-500 柱上amol而准确定量限(LOQ)约为1-5柱上fmol。在LOQ及以上通过变异系数确定的试验误差范围是0-16%。本研究建立的工作流程缩小了蛋白质组学生物标志物探索和转化成一种临床研究环境之间的差距。明确地说,对于21三体,所述多路复用SRM试验为更大样本群的这些和潜在其他缩氨酸候选物的高通量验证提供了一个工具。
引 言
在全世界大部分发达国家中35岁以上的女性约占怀孕人数的15%。在胚胎发育时患多种染色体缺陷的风险随着母亲年龄的增加而增加。唐氏综合征(DS)在600-800例怀孕事件中的发生率为1并提示多数涉及侵入性治疗比如羊膜穿刺术或绒毛膜取样的产前诊断。这些治疗有流产的风险,因此只用于高危女性。在过去几年中,一直努力发展可以辨识早期妊娠非整倍体、侵入性较小的筛查方法。测量与DS有关的血清蛋白标志物比如游离hCG-β、PAPP-A、甲胎蛋白和抑制素A的母体血液试验,加上颈项透明层检查,对早期妊娠筛检的可接受性已获得提高但是这些标志物的敏感性和特异性仍可以改进。以前的蛋白质组学研究确定了多种其他假定血清标志物。在最新研究中,作者运用了高丰度蛋白质免疫耗竭与采用同重元素标记(iTRAQ)技术的定量质谱分析相结合。免疫耗竭用于减小血浆蛋白质的动态范围,希望能发现低丰度假定标志物。 虽然样本量小(6个21三体样本和6个正常妊娠样本),但是本研究确定了DS中与整倍体血浆样本相对的200多种浓度改变的蛋白质。尽管经过免疫耗竭,许多差异表达蛋白仍是相对高丰度蛋白质包括几种载脂蛋白、转铁蛋白和补充成分蛋白。在这些研究中发现的假定生物标志物有些重叠但是相对来说在横跨所使用不同技术包括2-D DIGE,MALDI质谱分析法和鸟枪法蛋白质组学的表达率上几乎没有一致性。在一定程度,这种差异可能由于所有这些技术除了iTRAQ并不是真正定量的。另外,其中一些研究包括中期妊娠和早期妊娠样本,而蛋白质相对丰度在这两个阶段可能有所变化。这些蛋白质组学研究的结果突出了DS的复杂性和找出具有必要特异性的新标志物的挑战,但是未满足的需要仍很紧急。在本研究中,我们着手缩小生物标志物探索和查证之间的差距。我们的目标是扩充以前的探索研究和发展一种机制对新假定生物标志物进行归类,从而促进它们纳入高通量、统计学上严密的证明研究。为了实现这个目标,我们把高分辨率LC-MS/MS与新颖的、无标记差别分析软件相结合来分析一组早期妊娠DS和正常妊娠母体血液样本。用色谱定位法、以整体强度为基础的特征抽取和聚合蛋白质辨识进行生物信息学分析。我们不进行样本免疫耗竭因为这增加了复杂性和费用而且很可能在临床研究环境中没有实用性。如以前的蛋白质组学研究所述,我们确定了具有相关表达率和P值的蛋白质大列表,包括PAPP-A。在我们研究中的几种差异表达蛋白与以前发表的报告有共同之处。不幸的是,差异表达率没有为区分样本等级提供任何关于假定标志物潜在有用性的指导。因此我们为接收器工作特性(ROC)曲线分析融入了一种新颖的算法以作为测试差异表达蛋白初始列表的分类能力的过滤策略。ROC曲线的曲线下面积(AUC)专门用于计算诊断标志物的敏感性和特异性。据我们所知,早期ROC曲线应用于生物标志物探索过程是一种新颖的方法。在本研究中,这种策略比只用表达率和P值有更有效和快速的成层作用和假定蛋白质排列。 基于ROC AUC和其他因素,如相对蛋白丰度和参考文献,我们选择了一个蛋白质子集用于进一步发展到SRM实验。有趣的是,PAPP-A的AUC(0.59)比我们选择的所有新假定标志物的都低。新颖的SRM开发软件有助于从目标蛋白质中有效选择出标记肽类而且最终SRM分析监测预计前体和碎片转变离子对。重同位素内部标准用于相对目标缩氨酸定量而SRM实验则适用于原始样本群来证实探索实验中观察到的假定生物标志物丰度比。未来试验将测试其他样本群的SRM标志物组。所描述工作流程演示了一般而言可用于把生物标志物探索研究转化为候选证明实验的一种方法。
实验步骤
临床血清样本。21三体和正常早期妊娠母体血清样本由胎儿医学基金会提供而且是在研究对象完全同意和批准的情况下采集的。样本采集时,基于FMF风险计算大多数女性处于21三体的高危险之中而因此被归类为21三体组。21三体在产后确诊。血液样本被采集到不包括抗凝剂的红盖管内(BD真空采血管REF 367694Z)。平均样本体积是7.0毫升。管子被贴上标签而且在离心前保存于4℃不超过8小时。在4℃时以1500 rpm的转速离心样本15分钟。旋转结束时,小心地取出管子放在支架上。用移液管轻轻地吸取分离血清,转移到微型离心管,然后冷冻起来。样本在冷冻状态下运输并于即将处理前解冻。随机处理24个来自21三体病人的样本和21个来自健康、匹配对照病人的样本以避免系统误差和实验间变化。
样本处理。胰蛋白酶消化、还原/烷化和脱盐作用。冰上解冻血清样本(25µL)并与100µL 8M盐酸胍、150mM三羟甲基氨基甲烷-盐酸(TrisHCl)、10mM DTT混合,pH为8.5。样本在37℃孵化一小时。在室温下避光用45mM碘乙酸(在1M碳酸氢铵中储备浓度为500mM)处理变性样本一小时使其烷基化。剩余烷化剂与15mM DTT起作用。用25mM TrisHCl、5mM CaCl2稀释样本至2.5mL,然后加入到胰蛋白酶玻璃管中(Pierce,20ug,在250uL25mM醋酸中)。允许样本过夜消化。用HyperSep-96 C18固相萃取介质(赛默飞公司)对经过消化的样本进行脱盐。使用前先用n-丙醇再用0.25% TFA (v/v)水处理HyperSep C18树脂。然后把样本放在树脂上,用0.25% TFA/水 (v/v)冲洗,最后在0.1% (v/v)甲酸中用75% (v/v) 乙腈洗脱。
高分辨率LC-MS/MS。高分辨率LC-MS/MS分析是在配有Surveyor质朴泵和赛默飞微型AS自动采样器的LTQ-Orbitrap XL质谱仪(赛默飞)上进行的。样本,10µL,在5% (v/v) 乙腈0.1% (v/v)甲酸中,被注入到75µm × 25cm熔融石英毛细管柱,管柱里塞进了Hypersil Gold C18AQ 5µm介质(赛默飞),在总运转周期为240分钟的180多分钟内线状250 nL/min梯度为5% (v/v) 乙腈、0.1%(v/v)甲酸到30% (v/v) 乙腈、0.1% (v/v)甲酸。LTQ-Orbitrap质谱仪在前5配置内60K分辨率时进行全面扫描,激活了单一同位素前体选择以及排斥+1未赋值电荷状态。该分析通过CID和HCD分裂模式完成。
无标记差别分析,蛋白质辨识和接收器工作特性(ROC)分析。无标记差别分析,蛋白质辨识和高峰列表生成是用包含SEQUESTv.28搜索引擎、过滤器(Percolator)的SIEVE v.1.2.1(赛默飞)算法7以及包含ROC曲线的一种新算法完成的。这种反复式工作流程包括色谱定位、以整体强度为基础的特征抽取和聚合蛋白质辨识赋值。色谱定位以所有实验MS走向与所选择参考MS走向的成对MS全扫描对比为基础。继色谱定位之后,可能吸引人的特征基于定向集体数据集中发现的高密度峰值而暴露。这些峰值分别明确了各个结构,如全扫描(M/Z对保留时间)平面中界限明确的矩形区。计算每个结构的重建离子色谱图以评估相对表达率和支持统计资料。建造完成后,与每个结构相关的MS2碎片扫描用SEQUEST处理而缩氨酸质量评分通过用Percolator处理假目标随机数据库得来。
评估不超过2%预计错误发现率的肽类保留了下来并且统一蛋白质报告由统计学上集合框架信息来构造肽类和缩氨酸信息来构建蛋白质(见已识别蛋白质一览表的补充表1)构成。ROC曲线是通过计算真阳性(TP)率(敏感性)和假阳性(FP)率(100-特异性)创作出来的以便区分这两种人群。关于本研究中的ROC平面图,FPs和TPs被制成了表因为标准临界值穿过了这两条曲线。用于区分这两种人群的分界点或临界值被用于构造ROC曲线。
SEQUEST查询参数如下所示:
1. 允许错过的分裂:3
2. 固定修改:1(C)
3. 可变修改:1(M)
4. 前体离子质量公差:25 ppm
5. 碎片离子质量公差:0.5 Da
6. 查询数据库:ipi 人类v361处理数据库
7. 实际查询数据库中蛋白质条目数量:82 806
8. 可接受个别MS/MS光谱的分界评分值:2% FDR
9. 临界值根据:Percolator推荐值
具有关于单一缩氨酸辨别离子赋值的个别MS/MS光谱在补充数据文件1中可见(支持信息)。基于各种LC-MS/MS走向的MS1峰面积,SIEVE确定了区分生物种群的蛋白质。为了实现这点,划分了位于相应蛋白质丰度任何所选临界值的真阳性率和假阳性率以生成ROC曲线。曲线下面积(AUC)被用于对候选肽类进行分类。虽然许多其他统计学工具常用于确定假定生物标志物,但是我们发现AUC在大型研究中尤其稳健比如本研究,其中生物学变化明显。在这些情况中,数值比如表达率和t试验的P-值对异常值高度敏感。
SRM试验。SRM试验在Vantage三重四极质谱仪、Surveyor MS pump、CTC PAL自动采样器以及配有高流动性金属针头的IonMax Source(赛默飞)上进行。逆相分离在9分钟线性梯度中进行,从5%到30%B,总运行时间为15分钟(溶剂A =水0.2% FA,溶剂B= ACN 0.2% FA)。线性梯度期间的流动率设定为160 µL/min。所有样本和曲线点的总进样体积是20µL。50mm ×1mm 1.9µm Hypersil Gold管柱在50℃时运行。每份样本有三份技术复制品。
校准曲线生成。校准曲线是以所有样本的混合物为背景基质创作出来的。校准曲线上的每个点(以及每个被分析样本)都包括100fmol重标记肽类。校准曲线上每个点在管柱上的背景基质量是30µg,在所有被分析样本中也一样。另外,所有样本被提出放入200µg/mL97%水3% CAN和0.2% FA胰高血糖素溶液中使其与塑料表面结合量达到最小。
肽类选择和转变。把探索MS实验获得的保留时间信息输入到Pinpoint以建立一种初步排定SRM方法用于最优化。为了完成这点,每一次转变个别仪器参数比如碰撞能量、套管镜头、停延时间和预计保留时间都被自动检测。多次反复后,完成了最优化(例如最高强度信号和与其他转变的最少重叠)肽类列表和转变,并且为每个蛋白质选择了一个proteotypic缩氨酸和几个碎片转变(见所有肽类和转变列表的补充表2,支持信息),共12种肽类,包括轻标记和重标记的,共191次转变。图6a表示整个梯度的转变分布证明了时序安排的好处。这种技术保证了高定量数据质量因为整个梯度任何部分监测到的转变不超过64次。
把每个蛋白质的肽类数量限制到一个的决定基于以下两点:(1)多个肽类可能量化同一蛋白质的不同亚型从而产生相互矛盾的结果而我们的目标是监测最常见的亚型(就能确定最丰富的缩氨酸)(2)利用多个、共同洗脱转变合成标准选择非富余肽序列及其特性确保缩氨酸身份识别(排除干扰)从而保证其作为目标蛋白质的代用品的有效性。
Pinpoint软件(赛默飞)用于目标蛋白质定量(图1)。肽类通过色谱分离中共同洗脱轻重标记转变来确定。对于干扰的另外证明和排除,转变率可以利用探索光谱来确认。时间定位和相对量化用Pinpoint表现。对所有临床样本进行三重测定。
t-SRM (SRMs的时序安排)。根据在探索实验中观察到的保留时间排定各个转变。在第一次重复时,±1分钟的视窗(围绕绘制的探索保留时间,见图3),用于排定各个转变。在第二次反复时,±0.5分钟的视窗(围绕观察到的保留时间),用于排定各个转变。窗口大小的选择根据这两步中所见的典型出错率而定。在多次重复血清试验过程中,保留时间变化不超过10s或小于梯度时长的2%。各个转变的相应开始和结束时间见补充表2(支持信息)。
http://www.ivdchina.org/file/upload/201506/20141110163832.png
图1。探索驱动的S RM试验工作流程。用高分辨率L C-MS / MS 和SIEVE软件分析样本以生成差异表达蛋白数据库。然后用Pinpoint软件开采SIEVE数据库并为SRM试验研发选择一个目标蛋白质子集。在三重四极质谱仪上进行重复的、预定的SRM试验使试验最优化。接着对临床样本进行最优化、多路复用试验。
轻重标记肽类。合成了每个目标缩氨酸的轻重版本(赛默飞,德国乌尔姆市)。重肽与轻肽具有相同的序列,但是羧基末端赖氨酸或精氨酸全部(>98.5%)用C或 N标记,见肽序列补充表2(支持信息)。这些肽是高纯度的(>97%),使我们能够放心地描述它们的离子化、洗脱和分裂特征,从而有助于SRM试验最优化。
Ingenuity通道分析。用Ingenuity通道分析(IPA)软件和数据库(Ingenuity系统,加利福尼亚州雷德伍德城)分析蛋白质相互作用和通道。Ingenuity的知识库是根据构成本体论关系数据库的试验结果支持的科学文献的手工策划建立的。我们分析了由378个蛋白质组成的数据集,这些蛋白质是用SIEVE软件进行差异表达探索分析生成的。该数据集被直接输入IPA进行核心分析。IPA网络分析分析了分子之间的直接相互作用。
结果
图1说明了质谱分析法驱动的工作流程,把无偏生物标志物探索与目标试验连接起来。这种策略有助于有效和快速地证明假定生物标志物大列表的高通量。工作流程成功运行的固有特点是离子阱和三重四极仪器中缩氨酸离子分裂反应的相似性。图2证明了CID碎片离子强度和分裂光谱相统一分别产生了LTQ线型离子阱和三重四极质谱仪。这种统一对不同的三重四极仪器有效比如TSQQuantum(图2)和Vantage(本研究使用)因为这些仪器与Q1、Q2和Q3以及高能量碰撞解离(HCD)模式相同。因此,预计分裂结果相同。从图中可以清楚地看到,主要碎片离子强度是密切相关的,使得利用SIEVE软件进行探索实验生成的数据通过Pinpoint软件用于SRM试验发展最优化。尽管算法可以用于预测独特的肽类和SRM转变(在缺乏实验探索数据的情况下),但是这种假设方法不能保证实际上在样本中发现肽类。因此,在我们的试验中,最佳方法是利用LC MS/MS探索实验的MS/MS光谱来加强能有效证明假定生物标志物的SRM试验设计。另外,关于多种肽类和转变的综合SRM方法的研发需要对横跨LC梯度的肽类和转变进行高效的时序安排。为了推断从探索LC工作流程到目标LC工作流程的肽类洗脱表现,10个重肽类被加入样本并在两个平台上运行(探索混合阱和目标三重四极仪器,见方法部分)。两个系统共有的观测保留时间用于生成一个保留时间图,比较探索LC和目标LC工作流程的线性(图3)。高R2值(0.93)表明了两种工作流程之间的密切相关,从而保证预测性时序安排的可行性。
用SIEVE进行高分辨率MS2数据分析。用纳喷雾高分辨率LCMS/MS分别处理样本并按照方法部分所述用SIEVE分析得出的RAW质谱文档。
为了生成假定生物标志物“简表”用于进一步证明和发展成为SRM试验,评估了通过SIEVE产生的每个缩氨酸的ROC平面图和AUC值。图4表示一个此类差异表达蛋白、血清淀粉体样蛋白4(SA4)的蛋白质报告的屏幕抓图。图4,顶面板显示了缩氨酸EALQGVGDMGR在每个MS原始文件中的整体强度。蓝色表示21三体样本而红色表示正常样本。LC-MS/MS分析确定了SA4蛋白质的9个肽类,见图4底部面板。用加权方差求每一个缩氨酸测量的平均值来计算平均蛋白率。图4底部面板表示为适合SA4的9个肽类而设计的蛋白率须状图。SA4所有肽类的平均加权比,21三体比正常样本,是0.61,ROC曲线下计算面积为0.71(表1),这表明它在21三体样本未完全表达而且有可能区分这两种人群。利用这个方法,分析了所有RAW文档并生成了一个差异表达蛋白列表(见差异表达蛋白和肽类一览表的补充表1,支持信息)。
http://www.ivdchina.org/file/upload/201506/20141110164047.png
图2。在+2电荷状态下两种人类载脂蛋白E肽类的比较产物离子光谱。(A)LTQ经由谐振CID。(B)TSQ Quantum(串接四极杆质谱系统)Ultra上的SRM。Quantum Ultra(此图)和Vantage三重四极(本研究使用)仪器与Q1、Q2 和Q3相同。因此预计高能量碰撞解离(HCD)分裂相同。这两种平台之间的高度一致性在最丰富碎片离子的强度上表现明显。
http://www.ivdchina.org/file/upload/201506/20141110164117.png
图3。10种重肽类的LC保留时间图,比较探索平台(LTQ OrbitrapXL混合离子阱)和目标平台(TSQ Vantage三重四极质谱仪)。根据横跨梯度预测洗脱时间选择肽类。探索梯度时长为180分钟而SRM梯度时长为9分钟。这两种LC工作流程之间的实测线性相关是0.93。
经识别的大部分差异表达蛋白,(FDR为2%或更小),都是未完全表达的。个别缩氨酸率测量的潜在系统基线偏差通过检查整个全扫描数据集中的所有单一同位素/C12顶点率排除。在这种情况下,总比率被确定为0.99±2.2。PAPP-A是被识别蛋白质之一而21三体比正常表达率是0.69。在此样本群中21三体对正常样本的PAPP-A未完全表达与其在早期妊娠DS筛检应用中的表达(未完全表达)一致。PAPP-A的ROC AUC是0.59,表明它在此样本群中的分类能力相对较弱而且比许多其他蛋白质的分类能力低。我们的目的是发现和评估新的假定标志物,因此本研究中不包括PAPP-A的进一步评估。我们从蛋白质一览表中选出了12种蛋白质用于进一步发展多路复用SRM试验(表1),选择标准如下:
1. AUC曲线值> 0.60。这种过滤只包括可能用于区分21三体和正常样本的蛋白质。许多差异表达蛋白的AUC值较低(<50);最高的是血清淀粉样蛋白4,为0.71(表1)。
表1:SIEVE和Pinpoint分析得出的生物标志物候选的表达率
http://www.ivdchina.org/file/upload/201506/20141110164219.png
2. 高丰度蛋白质。这强调未经分馏、消耗或进一步浓缩的血清消化物中可通过SRM试验坚定辨识的蛋白质,从而保证一个易于开展和可能转换为一种临床研究环境的试验。
3. 参考文献。以前被报道与21三体或其他妊娠疾病有关的新颖蛋白质生物标志物。我们选择不把重点放在已用于常规临床用途的标志物(PAPP-A、fbHCG等等)上。
关于确定可接受差异表达目标蛋白合格的依据,我们认为比率没有分类能力重要;因此我们选择ROC AUC作为更精确的区分标准。另外,因为探索实验需要大量的时间和人力,我们决定在探索实验中检测大量生物复制品(与技术复制品相对的)以便更好地理解生物学变化。确实,发展所描述工作流程的关键在于利用高通量SRM试验来证明探索实验最初识别的目标生物标志物假定列表。基于我们以前利用所描述探索平台的经验,我们的变异系数通常小于15%。
http://www.ivdchina.org/file/upload/201506/20141110164245.png
图4。用SIEVE进行不标记定量分析。差异表达分析的蛋白质报告图。(顶部面板)所有原始文件中血清淀粉样蛋白4(SA4)缩氨酸EALQGVGGDMGR的整体强度图,红色=正常,蓝色=21三体。(底部面板)正常/21三体SA4数据集中所有已识别肽类比率须状图。所有肽类的平均比率是0.67±0.314,p-值为9.9 × 10^-20。
http://www.ivdchina.org/file/upload/201506/20141110164422.png
图5。SIEVE 数据集的IPA通路分析。SIEVE差异表达数据集(补充表1,支持信息)被输入IPA通路分析程序。合并IPA识别的前2名评分网络(抗原递呈/细胞介导免疫反应/体液免疫反应,网络得分63,以及心血管系统发展,网络得分47)来说明分子间相互作用。只显示了直接相互作用。绿色分子的21三体/正常比率<1而红色分子的比率>1。在该数据集中未观察到灰色分子。橙色突出分子与阿尔茨海默病(老年痴呆症)有关。
从表1中可以明显看出,我们选择作为候选的所有蛋白质在21三体比正常样本上下降了。
用Ingenuity通路分析(IPA)软件分析定量差异表达探索数据。为了确定与差异表达蛋白相关的生物重要性通路,用IPA分析整个数据集。IPA分析识别的前三名网络是(1)抗原递呈/细胞介导免疫反应/体液免疫反应,(2)心血管系统发展,以及(3)功能/细胞发展/细胞生长和增值和脂质代谢/小分子生物化学,其IPA网络得分分别是63、47和28。图5展示了前两名IPA合并网络。IPA分析确定神经学和炎性疾病为顶级机能紊乱,抗原递呈、脂质代谢和小分子生物化学为顶级分子、细胞和生理系统发展功能。这些数据与一种由于多基因和通路调节异常具有广泛和多样影响的病症-唐氏综合征的特点一致。
SRM目标试验发展。SIEVE探索M S / M S 数据库被输入Pinpoint软件以便形成一种多路复用方法用于所选12个差异表达蛋白子集的同时定量SRM试验(表1)。
图6b为Pinpoint软件的一个屏幕抓图,说明载脂蛋白B(ApoB)前体缩氨酸TGISPLALIK的定量SRM结果。顶部面板表示该缩氨酸轻重版本的亲体和碎片离子转变集合。监测到轻重TGISPLALIK共有5个独立碎片转变。(如需试验中监测到的所有亲体和碎片转变一览表,见补充表2,支持信息)。底部面板证明该缩氨酸轻重版本的所有转变按预期接受了共同洗脱。另外,轻重转变的碎片离子率一致,这证明缩氨酸标识涉及所有样本。
在血清基质背景中用1/x加权产生所有目标重肽类校准曲线。图6c是载脂蛋白CIII重缩氨酸GWVTDGFSS-LK[重K]的例子。血清基质中此目标缩氨酸的检测下限(LLOD)大约为250 柱上amol而准确定量限(LOQ)大约为柱上500amol-1fmol。LOQ是从变异系数小于或等于20%的标准曲线计算得出。LOD是从该缩氨酸被发现的曲线最低点计算得出。这些数字是所有监测肽类特有的。根据技术复制品点的CV(变异系数)确定的试验误差平均小于10%。在碎片离子率的基础上排除SRM干扰。在不同样本和从重到轻的肽类中多个转变的离子率必须一致。表1显示21三体对正常样本中目标肽类的定量SRM表达率和AUC值。SRM实验的差异表达结果,在极大程度上,与SIEVE数据一致。所有目标蛋白质的表达率<1,也就是说他们在21三体样本中未完全表达。SRM表达值范围是0.58-0.76。
http://www.ivdchina.org/file/upload/201506/20141110164622.png
图6.(A)目标蛋白质SRM试验进展。在梯度时长范围内预计TSQ Vantage获得的转变数量图。转变时序安排把MS扫描限制在以预测缩氨酸洗脱为中心的一个时窗。在这个例子中,这种方法允许在梯度的任何时间只有效扫描总数为206中的64次转变。转变时序安排使停留时间增加并使定量准确性最大化。(B)目标蛋白质SRM试验进展。载脂蛋白B缩氨酸TGISPLALIK SRM试验数据的Pinpoint分析。(顶部面板)蛋白质,缩氨酸和转变信息包括保留时间、信号(规范化为重缩氨酸)、以及21三体和正常样本之间的信号比。(底部面板)正常样本中肽类TGISPLALIK和TGISPLALIK[重K]的色谱重叠图。重合成(亲体离子510.8308)和轻内生(亲体离子506.8237)缩氨酸的峰点如图中清楚所示通过各自的碎片离子转变轨迹被准确地共同洗脱。(C)目标蛋白质SRM试验进展。30µg原始血清消化物背景中的载脂蛋白CIII合成缩氨酸GWVTDGFSSLK [重K]的校准曲线。8点曲线测量从柱上250amol到500 fmol的浓度,三重测定。预计LLOD为250-50amol而LOQ为1-5 fmol。线性相关系数为0.99,LOQ以上点的CV范围是0-20%。
讨论
本研究的目的主要包括两方面:以无痕的方式使无偏生物标志物探索与假设驱动的、目标试验发展结合,以及把本工作流程应用于DS以便帮助开发一种非侵害、早期检测方法。质谱分析法一直是寻找蛋白质组学生物标志物会选择的典型技术,把这种信息转换为有助于证明假定标志物的高通量试验并不简单。基于SRM的试验由于其选择性、敏感性、稳健性和速度为证明和落实源于高分辨率LC-MS/MS实验的假定生物标志物信息提供了一种高效的工具。然而,缩小能利用定量SRM试验检测成百上千个样本的探索实验中假定生物标志物的过长列表之间的差别受到了阻碍因为缺乏一种用于归类最佳候选物的客观有效机制。在本报告中,我们描述了生物信息学算法的发展和应用,包括ROC曲线新应用,使LC-MS/MS探索数据的有效开采成为可能,后来融入SRM方法,从而为用更大的临床样本群证明未来生物标志物做准备。
此处描述的工作流程应用于来自21三体和正常妊娠的一个小母体血清样本群。由于DS确诊需要会引发重大风险的侵入性治疗,因此需要开发可以检测这种病症而且最好可以在早期妊娠时检测的新的、非侵入性试验。1由于目前可用的血液测试缺乏特异性(2-5%假阳性率),未满足的DS早期标志物需要仍很关键。根据我们的探索分析结果,我们确定了300多种差异表达蛋白,包括目前用作DS筛查标志物的PAPP-A(补充表1,支持信息)。我们确定的大部分差异表达蛋白(FDR为0.02或更小)在21三体对正常样本中未完全表达。从初始列表中,我们确定了一组符合我们的相对高丰度和有希望AUC值标准的12种蛋白质(表1)。PAPP-A不在此列因为我们的目的是集中于新假定标志物,也因为其ROC AUC为0.59表明它对于本样本群中21三体对正常的分类能力相对较弱。最终目标列表包括12种未完全表达蛋白。注意到数据生物学变化非常大和生物样本之间的标准差范围是50-100%很重要。如上文所述,在SRM实验中我们只监测了每种蛋白质的一个缩氨酸。这种方法基于目标缩氨酸丰度代表总蛋白丰度的假设(假设胰蛋白酶消化是完全的)但是该假设对于每个蛋白质可能并不准确。另外,我们不知道目标蛋白质是否只以完整的形式存在(与多种缩短形式相对)。因此,很难决定探索对SRM实验比率的任何实测差异是否由所监测肽类数量或数据中较大的生物学变化引起。用更大的样本量进行SRM实验可能解决这个问题。
利用所描述方法,我们成功地开发了一种稳健的、15分钟多路复用SRM实验,用于提供全部定量信息但不需要从血清消化物中实行任何进一步消耗或浓缩的目标蛋白质。LC-MS/MS探索数据的IPA通路分析把假定生物标志物映射到几种代谢途径,免疫反应、脂质代谢和神经学病症最明显。
我们在本研究中确定的其中几种假定生物标志物也通过蛋白质组学技术在以前研究中确定过。最近,同重元素标记技术用于贫化血浆来进行有关6个早期妊娠DS和正常母体血浆样本的生物标志物探索。本研究确定了几种未完全表达生物标志物与目前的研究有共同之处包括载脂蛋白A1和α-2-巨球蛋白。然而,与目前研究相反,妊娠区带蛋白和血清淀粉样蛋白P被发现过分表达。在之前的一个研究中,作者用各种方法包括2D DIGE、MUDPIT、LC/LC-MS/MS和MALDI TOF-MS剖面作图寻找21三体和正常病人样本的早期和中期妊娠生物标志物。确定9种蛋白质成为与目前研究有共同之处的潜在生物标志物包括各种载脂蛋白、血清淀粉样蛋白A和α-2-巨球蛋白。一项更新的研究把重点放在用2D-DIGE寻找中期妊娠母体血浆中的假定生物标志物上。该研究还确定了与目前研究有共同之处的蛋白质包括富组氨酸糖蛋白(HRG)和血清淀粉样蛋白P。以前发表的蛋白质组学研究都没有在被分析样本中识别出PAPP-A。很明显,以MS为基础的DS相关生物标志物蛋白质组学研究报道的表达率具有很大程度的可变性。这可能由于许多因素包括样本量、制备和分析方法,其中大多数分析方法并不是严格定量的。蛋白质组学探索实验一致性的相对缺乏突出了对能处理更多样本的更规范化方法的需要。另外,使候选物快速分层和用正交方法进行证实的能力会增加探索实验结果的可信度。目前研究中所描述方法的主要优势是无标记LC-MS/MS探索结果的ROC分析与目标SRM试验伴随发展的强大结合。这使得在未贫化血清消化物中进行快速和准确的定量成为可能,从而促进假定生物标志物的高通量证实或排除测定。
关于DS生物学,来自目前研究的差异表达蛋白列表中载脂蛋白的广泛代表性支持DS脂质代谢调节异常的假设。很多研究记载了脂质代谢和载脂蛋白在DS以及老年痴呆症中扮演的核心角色,许多证据表明这两种病症具有相似的病理学和可能相似的机制。图5表示老年痴呆症相关蛋白质与来自我们在前两名IPA网络中确定的探索数据集的蛋白质有很多重叠。
总之,本报告概述的工作流程展现了蛋白质组学探索实验和适合临床研究环境中生物标志物确认的高通量、目标试验的发展之间的一座无痕桥梁。这种方法的实际应用会发现早期妊娠母体血清中21三体假定蛋白质组学生物标志物,然后确立一种定量、多路复用的高通量SRM试验。该试验可能,在未来研究中,被用于其他临床样本进行标志物确认和进一步研发。最后,需要更大的临床样本群来确定基于人群的研究中的流行率和发生率范围,最终达到增加DS筛选方法的敏感性尤其是选择性的目标。
缩写:LC,液相色谱法;MS/MS,串联质谱法;SPE,固相萃取;ESI,电喷雾离子化;ACN,乙腈;m/z,质荷比;SRM,选择反应监测,APO,载脂蛋白;DS,唐氏综合征;AD,老年痴呆症;LLOD,检测下限;LOQ,定量限;FDR,错误发现率;FPR,假阳性率,ROC, 接收器工作特性;PAPP-A,妊娠相关血浆蛋白质;bhCG,β-人体绒毛膜促性腺激素;AFP,α-胎甲球蛋白;uE3,非耦联雌三醇;FMF,家族性地中海热。
可利用支持信息。根据相对丰度和AUC从初始SIEVE探索数据集中选择13种假定标志物。为目标蛋白质的单个缩氨酸开发最优化SRM试验并对整个临床样本集进行三重测定。表中介绍了SIEVE和Pinpoint分析的对应比率。补充表1。无标记、差异分析和蛋白质辨识。用SIEVE算法结合SEQUEST和Percolator进行分析。分析来自所有临床样本的原始文件。补充表2。融入目标蛋白质SRM试验的肽类和转变。从SIEVE数据库中选择13种蛋白质作为假定标志物。把SIEVE数据库输入Pinpoint并利用列举的肽类和转变开发和最优化SRM试验。补充数据1。基于单一缩氨酸的蛋白质辨识。
此数据文件中提供了所有单一缩氨酸辨识的独立MS/MS光谱和离子赋值。该材料可以通过http://pubs.acs.org网站免费获得。
页:
[1]