平码五不中公式规律
  • / 33
  • 下载费用:30 金币  

肿瘤?标志物的组.pdf

关 键 ?#21097;?/dt>
肿瘤 标志
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201610885157.6

申请日:

2008.08.29

公开号:

CN106483290A

公开日:

2017.03.08

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G01N 33/574申请日:20080829|||公开
IPC分类号: G01N33/574 主分类号: G01N33/574
申请人: AIT奥地利技术研究所有限公司
发明人: K·维尔灵格; M·劳斯; A·克里格纳; C·诺伊哈默
地址: 奥地利维也纳
优?#28909;ǎ?/td> 2007.08.30 AT A1359/2007
专利代理机构: 中国国际贸?#29366;?#36827;委员会专利商标事务所 11038 代理人: 袁泉
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201610885157.6

授权公告号:

|||

法律状态公告日:

2017.04.05|||2017.03.08

法律状态类型:

实质审查的生效|||公开

摘要

本发明提供了特异于肿瘤标志物的组,具体而言是滤泡性甲状腺癌(FTC)以及乳突状甲状腺癌(PTC)的部分,以及用于鉴定任何遗传疾病的标志物的方法。

权利要求书

1.特异于至少3种肿瘤标志物的部分的组,所述肿瘤标志物选自肿瘤标志物PI-1到PI-
33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,优选地PIV-4或PIV-
5,以及PV-1到PV-11,优选地PV-1,PV-2和PV-4到PV-11。
2.根据权利要求1的组,特征在于组包括特异于至少3种肿瘤标志物的部分,所述肿瘤
标志物选自肿瘤标志物PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70以及PIV-1到PIV-
9,优选地PIV-4或PIV-5,以及PV-1到PV-11,优选地PV-1,PV-2和PV-4到PV-11。
3.根据权利要求1的组,特征在于组包括特异于选自肿瘤标志物PI-1到PI-33的至少3
种肿瘤标志物的部分。
4.根据权利要求1的组,特征在于组包括特异于选自肿瘤标志物FI-1到FI-147的至少3
种肿瘤标志物的部分。
5.根据权利要求1-4中任何一项的组,特征在于组包括特异于肿瘤标志物SERPINA1的
部分。
6.根据权利要求1-5中任何一项的组,特征在于组包括至少5种,优选地至少10种,还优
选地至少15种,更优选地至少20种,尤其优选地至少25种,最优选地30种特异于肿瘤标志物
并选自表1-6的部分。
7.根据权利要求1-6中任何一项的组,特征在于部分为特异于肿瘤标志物核酸的寡核
苷酸。
8.根据权利要求1-7中任何一项的组,特征在于部分为特异于肿瘤标志物蛋白质的抗
体或抗体片段,优选地选自Fab,Fab'Fab2,F(ab')2或scFv。
9.根据权利要求1-8中任何一项的组,特征在于将部分固定在固相支持物上,优选地以
微阵列的形式。
10.根据权利要求1-9中任何一项的组,特征在于组包括的至少10%,优选地至少20%,
更优选地至少40%,尤其优选地至少60%的组的总分析物结合部分是特异于选自PI-1到
PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,以及PV-1到PV-11
或选自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,PV-
1到PV-11中任何一个的组中至少一组或其任何组合的肿瘤标志物的部分。
11.根据权利要求1-9中任何一项的组,特征在于组包括多至50000个分析物结合部分,
优选地多至30000个分析物结合部分,更优选地多至个15000分析物结合部分,甚至更优选
地多至7500分析物结合部分。
12.用于在样?#20998;?#26816;测一?#21482;?#22810;种甲状腺癌症标志物的方法,包括使用权利要求1-10
中任何一项的组并检测样?#20998;?#32959;瘤标志物的存在或测量其发生量。
13.权利要求12的方法,特征在于样品包括细胞,优选地为哺乳类细胞,尤其优选地为
人细胞。
14.根据权利要求12或13的方法,特征在于检测或测量通过RNA-表达分析而进行,优选
地通过微阵列或定量PCR,或蛋白质分析,优选地通过组织微阵列检测,蛋白质微阵列检测,
mRNA微阵列检测,ELISA,多重测定法,免疫组化,或DNA分析,比较基因组杂交(CGH)-阵列或
单核苷酸多态性(SNP)-分析。
15.用于在病人中诊断癌症的方法,包括提供来自病人的样品,优选地是细胞样品,根
据权利要求12-14中任何一项的方法或通过用根据权利要求1-11中任何一项的组测量肿瘤
标志物信号来检测一?#21482;?#22810;种肿瘤标志物,将肿瘤标志物的所测量的信号值与健康样?#20998;?br />肿瘤标志物的?#21040;?#34892;比较,并且如果(a)超过50%,优选地超过60%,更优选地超过70%,最
优选地超过80%的值与健康样?#20998;?#30456;比的差异至少为测量方法的标?#30142;?优选地两倍的标
?#30142;?甚至更优选地三倍的标?#30142;?和/或(b)超过50%,优选地超过60%,更优选地超过
70%,最优选地超过80%的样品的值与健康样品的值相比的差异至少为1.5倍,诊断为癌
症。
16.用于鉴定疾病特异性标志物的方法,优选地为基因或基因表达模式,所述方法包
括:
●提供至少两种不同表达数据组的多种潜在疾病的特异性基因的基因表达数据,
●确定数据组的共同基因,
●将每个基因表达数据组进行标准化,优选地通过局部加权回归散点?#20132;?#27861;或分位数
标准化,
●将基因表达数据组合并为合并的数据组,并且优选地将合并的数据组进行标准化,
并整合合并的数据组,
●通过确定其最近缩小重心确定合并的数据组的基因,其包括确定将基因分配到疾病
的交叉证实的误差值以及通过减少合并的,优选地为标准化的数据组的?#31245;?#30340;数量而使误
差值最小化,
其中减少的数据组的基因为特异于疾病的标志物。
17.权利要求16的方法,特征在于表达数据包括至少两个不同微阵列数据组的数据,具
体而言具有研究特异性偏差。
18.权利要求16或17的方法,特征在于疾病为遗传?#20064;?优选地为具有基因表达改变的
?#20064;?尤其优选地为癌症。
19.权利要求16-18中任何一项的方法,特征在于所得的基因表达数据是原始的,未处
理的基因表达数据。
20.权利要求16-19中任何一项的方法,特征在于合并的步骤通过逐步合并两个基因表
达数据组以及整合合并的数据而进行,优选地通过DWD。
21.权利要求16-20中任何一项的方法,特征在于每个表达数据组包括至少10种,优选
地至少20种,更优选地至少30种,甚至更优选地至少40种,最优选地至少50种不同基因的数
据。
22.权利要求16-21中任何一项的方法,特征在于在没有先前的确定步骤中确定的基因
的合并组上重复确定步骤。
23.权利要求16-22中任何一项的方法,特征在于在确定步骤包括通过交叉-证实,确定
每个基因对重心的标准化表达值的差异的最大化阈值,且其中将具有低于阈值的标准化表
达值的基因从减少的组中去除。
24.用于在病人中诊断癌症的方法,包括提供来自病人的样品,优选地是细胞样品,根
据权利要求12-14中任何一项的方法或通过用根据权利要求1-11中任何一项的组测量肿瘤
标志物信号来检测一?#21482;?#22810;种肿瘤标志物,通过权利要求16-23中任何一项的鉴定方法将
肿瘤标志物的所测量的信号值与癌症样?#20998;?#32959;瘤标志物的?#21040;?#34892;比较,并且如果对于至少
50%的组的标志物,病人样品的值的最近缩小重心在对用癌症样品鉴定出的肿瘤标志物的
最近缩小重心的测量方法的标?#30142;?优选地为两倍的标?#30142;?甚至更优选地为三倍的标准
差之内,诊断为癌症。

说明书

肿瘤-标志物的组

本申请是申请日为2008年8月29日、申请号为200880111283.X、发明名称为“肿瘤-
标志物的组”的发明专利申请的分案申请。

本发明涉及癌症诊断以及为此的诊断方式领域。

甲状腺结节为碘缺乏地区的地方病,如?#20998;?#30340;高山地区,在那里其流?#26032;?#20026;10-
20%。其根据其组织学,分类为2?#33267;?#24615;类型——结节性甲状腺肿(Struma nodosa,SN)和滤
泡性甲状腺腺瘤(Follicular Thyroid Adenoma,FTA),以及恶性实体——滤泡性甲状腺癌
(Follicular Thyroid Carcinoma,FTC),乳突状甲状腺癌(Papillary Thyroid
Carcinoma,PTC),髓样甲状腺癌(Medullary Thyroid Carcinoma,MTC)及未分化甲状腺癌
(Anaplastic Thyroid Carcinoma,ATC)。传统地,良性和恶性甲状腺结节之间的区分是通
过?#20102;?#25195;描法以及细针抽吸后进行组织学检验而完成。尽管在甲状腺结节和甲状腺癌的诊
断和治疗上有很多进展,这些方法缺少特异性是众?#31169;?#30693;的,尤其在区分FTA和FTC上,这导
致大量的病人不必要地被当作恶性疾病治疗。

由于先前的方法有诊断限制性,尤其是细针抽吸后进行细胞学检验,许多研?#31354;?br />已经进行了表达谱研究,希望鉴定出新的诊断工具。这些分析尝试用大规模转录水平表达
谱技术如cDNA微阵列、寡核苷酸阵列以及基因表达系列分析(Serial Analysis of Gene
Expression,SAGE)鉴定在疾病发展或进程中具有重要作用的差异性表达蛋白质。典型地,
鉴定出数十或数百?#21482;?#22240;,其中许多预期为假阳性,只有一小部分能用作诊断/预后标志物
或治疗靶标(Griffith等人,J Clin Oncol 24(31):5043-5051(2006))。

在其他类型的癌症中,已经显示基因表达谱能为区分不同临床相关的肿瘤实体增
添重要价值。例如US 2006/183141 A描述了来自核心血清应答签名(core serum response
signature)的肿瘤标志物的分类。不同研究已经尝试基于基因表达谱为不同甲状腺癌实体
分类,每项研究都对5种实体中的2?#32440;?#34892;区分。然而,这些研究没有或很少有共同的基因,
而且将来自一项研究的分类物应用于来自另一项研究的数据一般产生很差的分类结果。

本发明的一个目标是提供可靠的区别性标志物用于癌症的诊断,尤其是辨别良性
甲状腺结节和恶性滤泡性甲状腺癌(FTC)以及乳突状甲状腺癌(PTC)。

因此,本发明提供了特异于至少3种肿瘤标志物的部分的组,所述肿瘤标志物选自
肿瘤标志物PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,fi-1到fi-147,PIV-1到PIV-
9,优选地为PIV-4或PIV-5,以及PV-1到PV-11,优选地为PV-1,PV-2和PV-4到PV-11。这些肿
瘤标志物涉及肿瘤中异常表达的不同基因,并?#20197;?#34920;1-6中给出,能通过其基因鉴定标记、
其描述性基因名称而对其鉴定,但最清楚的是通过其UniGeneID或其在常用序列数据库如
NCBI GenBank,EMBL-EBI数据库,EnsEMBL或日本DNA数据库中参考特定序列的登记号。这些
标志物已经以优选组(PI到PV,FI)的形式鉴定出来,但能以任何形式作为发明组的靶标而
合并。

表1:PTC标志物组PI-1到PI-33



表2:PTC标志物组PII-1到PII-64




表3:PTC标志物组PIII-1到PIII-70





表4:FTC标志物组FI-1到FI-147








表5:PTC标志物组PIV-1到PIV-9


表6:PTC标志物组PV-1到PV-11


本发明的组能用于检测癌症或肿瘤细胞,尤其是甲状腺癌,甚?#37327;?#29992;于区分良性
甲状腺结节和恶性滤泡性甲状腺癌(FTC)以及乳突状甲状腺癌(PTC)。在优选的实施方式
中,组包括特异于至少3种肿瘤标志物的部分,所述肿瘤标志物选自肿瘤标志物PI-1到PI-
33,PII-1到PII-64,PIII-1到PIII-70,以及PIV-1到PIV-9,优选地为PIV-4或PIV-5以及PV-
1到PV-11,优选地为PV-1、PV-2以及PV-4到PV-11,尤其选自肿瘤标志物PI-1到PI-33。这些
标志物对乳突状甲状腺瘤(PTC)和经诊断被定性为PTC的甲状腺癌具有特异性。

在类似的优选实施方式中,组包括特异于选自肿瘤标志物FI-1到FI-147的至少3
种肿瘤标志物的部分。这些标志物对滤泡性甲状腺瘤(FTC)和经诊断被定性为FTC的甲状腺
癌具有特异性。

尤其优选地,组包括特异于肿瘤标志物SERPINA1(丝氨酸(或半胱氨酸)蛋白酶抑
制子,A分枝(α-1抗蛋白酶,抗胰蛋白酶),?#31245;?;NM_000295,NM_001002236,NM_001002235)
的部分,其为PTC的一?#22336;?#24120;有效的标志物。此标志物作为该组的单个?#31245;?#33021;区分PTC和良
性状态。

优选地,组包括至少5?#21482;?#33267;少10种,优选地至少15种,更优选地至少20中,尤其优
选地至少25种,最优选地至少30种特异于以上表1-6的肿瘤标志物的部分。组可选自特异于
任何至少3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,25,30,33,35,40,45,50,
55,60,64,65,70,75,80,85,90,95,100,110,120,130,140,145,147,150,160,170,180,190
或200种以上肿瘤标志物的部分,例如,选自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-
70,FI-1到FI-147,PIV-1到PIV-9,优选地PIV-4或PIV-5,及PV-1到PV-11,优选地PV-1,PV-2
及PV-4到PV-11,具体而言选自PI-1,PI-2,PI-3,PI-4,PI-5,PI-6,PI-7,PI-8,PI-9,PI-10,
PI-11,PI-12,PI-13,PI-14,PI-15,PI-16,PI-17,PI-18,PI-19,PI-20,PI-21,PI-22,PI-
23,PI-24,PI-25,PI-26,PI-27,PI-28,PI-29,PI-30,PI-31,PI-32,PI-33,PII-1,PII-2,
PII-3,PII-4,PII-5,PII-6,PII-7,PII-8,PII-9,PII-10,PII-11,PII-12,PII-13,PII-14,
PII-15,PII-16,PII-17,PII-18,PII-19,PII-20,PII-21,PII-22,PII-23,PII-24,PII-25,
PII-26,PII-27,PII-28,PII-29,PII-30,PII-31,PII-32,PII-33,PII-34,PII-35,PII-36,
PII-37,PII-38,PII-39,PII-40,PII-41,PII-42,PII-43,PII-44,PII-45,PII-46,PII-47,
PII-48,PII-49,PII-50,PII-51,PII-52,PII-53,PII-54,PII-55,PII-56,PII-57,PII-58,
PII-59,PII-60,PII-61,PII-62,PII-63,PII-64,PIII-1,PIII-2,PIII-3,PIII-4,PIII-5,
PIII-6,PIII-7,PIII-8,PIII-9,PIII-10,PIII-11,PIII-12,PIII-13,PIII-14,PIII-15,
PIII-16,PIII-17,PIII-18,PIII-19,PIII-20,PIII-21,PIII-22,PIII-23,PIII-24,PIII-
25,PIII-26,PIII-27,PIII-28,PIII-29,PIII-30,PIII-31,PIII-32,PIII-33,PIII-34,
PIII-35,PIII-36,PIII-37,PIII-38,PIII-39,PIII-40,PIII-41,PIII-42,PIII-43,PIII-
44,PIII-45,PIII-46,PIII-47,PIII-48,PIII-49,PIII-50,PIII-51,PIII-52,PIII-53,
PIII-54,PIII-55,PIII-56,PIII-57,PIII-58,PIII-59,PIII-60,PIII-61,PIII-62,PIII-
63,PIII-64,PIII-65,PIII-66,PIII-67,PIII-68,PIII-69,PIII-70,FI-1,FI-2,FI-3,FI-
4,FI-5,FI-6,FI-7,FI-8,FI-9,FI-10,FI-11,FI-12,FI-13,FI-14,FI-15,FI-16,FI-17,
FI-18,FI-19,FI-20,FI-21,FI-22,FI-23,FI-24,FI-25,FI-26,FI-27,FI-28,FI-29,FI-
30,FI-31,FI-32,FI-33,FI-34,FI-35,FI-36,FI-37,FI-38,FI-39,FI-40,FI-41,FI-42,
FI-43,FI-44,FI-45,FI-46,FI-47,FI-48,FI-49,FI-50,FI-51,FI-52,FI-53,FI-54,FI-
55,FI-56,FI-57,FI-58,FI-59,FI-60,FI-61,FI-62,FI-63,FI-64,FI-65,FI-66,FI-67,
FI-68,FI-69,FI-70,FI-71,FI-72,FI-73,FI-74,FI-75,FI-76,FI-77,FI-78,FI-79,FI-
80,FI-81,FI-82,FI-83,FI-84,FI-85,FI-86,FI-87,FI-88,FI-89,FI-90,FI-91,FI-92,
FI-93,FI-94,FI-95,FI-96,FI-97,FI-98,FI-99,FI-100,FI-101,FI-102,FI-103,FI-104,
FI-105,FI-106,FI-107,FI-108,FI-109,FI-110,FI-111,112,FI-113,FI-114,FI-115,FI-
116,FI-117,FI-118,FI-119,FI-120,FI-121,FI-122,FI-123,FI-124,FI-125,FI-126,FI-
127,FI-128,FI-129,FI-130,FI-131,FI-132,FI-133,FI-134,FI-135,FI-136,FI-137,FI-
138,FI-139,FI-140,FI-141,FI-142,FI-143,FI-144,FI-145,FI-146,FI-147,PIV-1,PIV-
2,PIV-3,PIV-4,PIV-5,PIV-6,PIV-7,PIV-8,PIV-9,PV-1,PV-2,PV-3,PV-4,PV-5,PV-6,PV-
7,PV-8,PV-9,PV-10,PV-11的任何一个。优选地,组特异于选自PI,PII,PIII,PIV,PV或FI的
任何完整亚组。然而,还可能从这些亚组或合并的组中挑出任何小的数量,因为还能以可接
受的确定性进行良性和恶性状态之间的区别或癌症的诊断。例如在一个优选的实施方式
中,发明的组包括至少5种(或以上提到的任何数量)的特异于选自FI-1到FI-147的肿瘤标
志物的部分。图4和5显示对于PTC和FTC的这种诊断分类概率。例如,特异于来自表2(PII亚
组)任何数量的组,特异于5种标志物,只有4%的误差容限,即所有情况中96%会正确分类。
用至少20个?#31245;?#36798;到1%的误差值(99%确定性)。在FTC特异性标志物的情况下,用选自FI
亚组的至少11种不同的标志物能达到稳定的8%的误差值。

根据本发明的部分为适合于特异性识别发明的标志物的?#32959;印?#36825;?#22336;肿?#35782;别可以
是在核苷酸、肽或蛋白质水平上的。优选地,所述部分为特异于肿瘤标志物核酸的核酸,尤
其是寡核苷酸或引物。在另一种实施方式中,所述部分为抗体(单克隆或多克隆)或抗体片
段,优选地选自Fab,Fab'Fab2,F(ab')2或scFv(单链可变片段),其特异于肿瘤标志物蛋白
质。根据本发明,只要促进?#32959;?#35782;别,核酸的哪个序列部分或蛋白质的哪些表位被该部分识
别并不是至关重要的。本领域已知的部分,尤其是本文引用的参考文献(其全部作为参?#30142;?br />入本文)中公开的,都是合适的。

在一个优选的实施方式中,将组的部分固定在固相支持物上,优选地以微阵列或
纳米阵列的形式。术语“微阵列”,同样地“纳米阵列”,用于描述微观排列的阵列(纳米阵列
用于纳米规模的阵列)或指包括这种阵列的载体。两个定义不互相矛盾,且能在本发明的意
义中应用。优选地,组在芯片上提供,在其上对部分进行固定。芯片可以是合适于生物?#32959;?br />例如部分的固定化的任何材料,包括玻璃修饰的玻璃(?#33008;?#21270;修饰)或金属芯片。

根据本发明,提供了特异地用于肿瘤诊断的组。然而还可能提供更大的组,其中包
括用于其他目的附加部分,具体而言在微阵列建立中,其中可能固定化大量寡核苷酸。然而
优选的是提供有成本效益的组,其中包括用于单一目的的有限数量的部分。

因此,在一个优选的实施方式中,组包括至少10%,至少15%,至少20%,至少
25%,至少30%,至少35%,至少40%,至少45%,至少50%,至少55%,至少60%,至少65%,
至少70%,至少75%,至少80%,至少85%,至少90%,至少95%,尤其优选地至少100%的组
的总分析物结合部分,其为特异于选自PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,
FI-1到FI-147,PIV-1到PIV-9,以及PV-1到PV-11(所有标志物在以上表1-6中公开),或选自
PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,FI-1到FI-147,PIV-1到PIV-9,PV-1到PV-
11的任何一个的组中至少一组或其任何组合的肿瘤标志物的部分。这些优选的组合为例如
组PI-1到PI-33,PII-1到PII-64,PIII-1到PIII-70,PIV-1到PIV-9,以及PV-1到PV-11中的
所有标志物,尤其适合于PTC诊断。如本文使用的,“分析物结合部分”指能用于特异性检测
标志物的所有部分,所述标志物具体而言是标志物基因或基因产物,包括mRNA或表达的蛋
白质。基因优选地为哺乳类的基因,具体而言为人的基因。部分包括在能有多种诊?#20064;?#26631;的
任何“分析物结合部分”的该类术语中。例如,在微阵列的实施方式中,阵列包括至少10%的
特异于本发明标志物的寡核苷酸。根据目前的技术,用于在芯片上的基因(核酸?#32959;?如分
别为DNA-EST或互补DNA-EST)的检测方式使得阵列设计更简单,更强大,使用DNA?#32959;?用于
检测样?#20998;?#34920;达的mRNA)的基因芯片为本发明的优选的实施方式。这些基因芯片还使得能
够检测大量的基因产品,而使用蛋白质芯片检测(例如抗体芯片)大量的蛋白质更困?#36873;?#34507;
白质检测通常使用ELISA技术(即,基于-微量滴定板、珠子或芯片的ELISA)作为蛋白质芯片
的一种实施方式进行。蛋白质芯片可包括用于特异性结合来自根据表1-6的列表的基因的
基因产品的合适方式,例如亲和?#32959;?#22914;单克隆或多克隆抗体或凝集素。

在进一步的实施方式中,组包括多至50000种分析物结合部分,优选地多至40000,
多至35000,多至30000,多至25000,多至20000,多至15000,多至10000,多至7500,多至
5000,多至3000,多至2000,多至1000,多至750,多至500,多至400,多至300,或甚至更优选
地多至200种任何种类的分析物结合部分,如特异于任何基因或基因产物的寡核苷酸。

在一个进一步的方面,本发明涉及用于在样?#20998;?#26816;测一?#21482;?#22810;种甲状腺癌症标志
物的方法,包括使用发明的组和检测样?#20998;?#32959;瘤标志物的存在或测量其发生量。所检测的
标志物的发生率或模式能特异性鉴定这些标志物的存在,所述标志物能与癌症诊断相关或
作为健康样品的参考,或简单地作为受试者的遗传调查。

优选地,样品包括细胞,优选地为哺乳类细胞,尤其优选地为人细胞,其能由活检
组织或体液提供。具体而言肿瘤标志物的存在或量在例如细胞破碎之后在这些细胞中检测
或测量。

所述方法包括通过RNA-表达分析的检测或测量,优选地通过微阵列或定量PCR,或
蛋白质分析,优选地通过组织微阵列检测,蛋白质微阵列检测,mRNA微阵列检测,ELISA,多
重测定法,免疫组化,或DNA分析,比较基因组杂交(CGH)-阵列或单核酸多态性(SNP)-分析。
这些方法在本领域已知,并易于用于本发明的方法,如遗传标志物分析的广泛领域的实例。

在另一方面,本发明提供了用于在病人中诊断癌症的方法,包括提供病人的样品,
优选地为病人的细胞样品,通过使用根据本发明的组测量检测肿瘤标志物信号而检测一种
或多种肿瘤标志物,将所测量的肿瘤标志物的信号值与健康样?#20998;?#32959;瘤标志物的?#21040;?#34892;比
较,并且如果超过50%,优选地超过60%,更优选地超过70%,最优选地超过80%的值与健
康样品的值相比的差异至少为测量方法的标?#30142;?优选地两倍的标?#30142;?甚至更优选地三
倍的标?#30142;睿?#35786;断为癌症。?#30142;?#21463;试者和健康受试者样?#20998;?#38388;的遗传表达的差异可以为任
何种类,包括上调(例如原癌基因)或下调(例如肿瘤抑制基因)。有可能在健康样?#20998;校?#22522;因
不被表达,而在?#30142;?#26679;?#20998;?#21457;生表达。相反地,还可能是基因在?#30142;?#26679;?#20998;?#19981;表达而在健康
样?#20998;?#21457;生表达。

如果超过50%,优选地超过60%,更优选地超过70%,最优选地超过80%的样品的
值与健康样品的值的差异为至少1.5倍,至少2倍,至少3倍或至少4倍,?#37096;?#20197;诊断为癌症。
通常肿瘤标志物表达产物上调或下调2-6倍,但60倍的差异也是可能的。

在另一方面,本发明涉及用于鉴定基本特异性标志物(例如在表1-6中给出的)的
方法,优选地为基因或基因表达模式,包括:

●提供至少两种不同表达数据组的多种潜在的疾病特异性基因的基因表达数据,

●确定数据组的共同基因,

●将每个基因表达数据组标准化,优选地通过局部加权回归散点?#20132;?#27861;(lowess)
或分位数标准化,

●将基因表达数据组合并为合并数据组,优选地将合并数据组标准化,并整合合
并数据组,

●通过确定最近缩小重心(shrunken centroid)确定合并数据组的基因,其包括
确定将基因分配到疾病的交叉证实的误差值及通过减少合并(优选地为标准化的)数据组
?#31245;?#25968;量而使误差值最小化,

其中减少的数据组的基因为特异于疾病的标志物。交叉证?#30340;?#20351;用例如留一法
(leave-one-out)。优选地,确定步骤(分类步骤)包括通过交叉-证实确定每个基因标准化
的表达值与重心值的差异的最大阈值。然后具有低于阈值的标准化表达值的基因从减少
(或缩小)组中移除,具有与重心相比大于阈值的值的基因对该疾病有特异性。通过缩小重
心(shrunken centrois)方法进行的分类由例如Tibshirani等人(PNAS USA 99(10):105-
114(2004)),Shen等人(Bioinformatics 22(22)(2006):2635-42)及Wang等人
(Bioinformatics 23(8)(2007):972-9)公开,这些公开并入本文作为参考。

通过留出得自每个先前步骤的标志物能多次重复进行确定步骤。最近缩小重心法
会产生特异于该疾病的进一步标志物的新的结果组。优选地,确定步骤重复2,3,4,5,6,7,
8,9,10或更多次。根据合并数据组的大小,会给出进一步的特异性标志物。优选地,在每个
结果上进行交叉证实。能重复进行确定直到交叉证实指出的误差值为例如低于50%,60%,
70%或80%。在较低的值上,预期所有标志物都鉴定出来。

起始的基因表达数据组为原始的表达谱,例如得自多遗传微阵列分析的每个组。
预期大多数所测量的基因不涉及疾病,且本发明的方法能够从至少两个,优选地至少三个,
至少四个,至少五个,至少六个,至少七个或至少八个表达数据组中鉴定特征性的标志物基
因。因此起?#38469;?#25454;组的表达数据优选地包括至少两个不同微阵列数据组的数据,具体而言
具有研究或平台特异性偏差。这些偏差是通过在测量表达数据过程中只使用一个特异设置
而发生的,例如微阵列,其能显著的区别于其他数据组的设置。本发明具有的优点是在这些
组的合并过程中,克服了这些测量偏差的问题。进一步,所得的(起始)基因表达数据是原始
的,未处理的基因表达数据,即,在本发明的方法之前没有进行提炼或数据转换。

优选地,疾病为遗传?#20064;?优选地为具有基因表达改变的?#20064;?尤其优选地为癌
症。具有基因表达改变的其他类型的?#20064;?#21487;以为例如病原体感染,具体而言为病毒(包括逆
病毒)感染,辐射损伤和年龄相关?#20064;?br />

合并及整合合并的数据组的步骤去除了研究特异性偏差。在优选的实施方式中,
此步骤通过逐步地,每步合并两个的基因表达数据组以及整合合并的数据而进行,优选地
通过DWD(距离加权判别法,Distance Weighted Discrimination)。例如在3个数据组的情
况下,首先将组1与组2合并,融合的组1+2与组3合并。整合例如可以包括计算整合的数据组
的正常向量,接着计算将数据组(例如起?#38469;?#25454;组的)数据值的聚类分开的超平面,以及减
去数据组平均值,如DWD方法中的。原则上,任何移除偏差的数据整合方法能用于本发明的
方法。

优选地至少一个,优选地两个,三个,四个,五个,六个,七个或八个所得的表达数
据组包括至少10,优选地至少20,更优选地至少30,甚至更优选地至少40,至少50,至少70,
至少100,至少120,至少140,至少160或甚至至少200种不同基因的数据。本发明的方法尤其
适合于从大的数据组中进行过滤并鉴定其中的特征性标志物。所得的这些标志物的组还称
为“分类物”。

鉴定癌症特异性标志物的此方法,以及因此特异于癌症的部分,例如寡核苷酸或
抗体,还能用在诊断癌症的以上方法中。即,?#26434;?#20110;用于诊断方法的部分的组的标志物是根
据以上方法鉴定(也叫做“分类”)的,所述方法包括提炼及建立起?#38469;?#25454;组的测量值的重心
值。此模式然后能用于诊断癌症,如果病人样?#20998;?#26356;接近于肿瘤标志物的聚类的重心值。因
此,提供了用于在病人中进行癌症诊断的方法,包括提供来自病人的样品,优选地为细胞样
品,通过使用根据本发明的组进行测量肿瘤标志物信号来检测一?#21482;?#22810;种肿瘤标志物,通
过以上提到的鉴定方法将肿瘤标志物的所测量信号值与癌症样?#20998;?#30340;肿瘤标志物的?#24403;?br />较,并且如果对于至少50%,优选地至少60%,更优选地至少70%或甚至至少80%,最优选
地为90%的组的标志物,病人样品的值的最近缩小重心在对用癌症样品鉴定出的肿瘤标志
物的最近缩小重心的测量方法的标?#30142;?优选地为两倍的标?#30142;?甚至更优选地为三倍的
标?#30142;?#20043;内,诊断为癌症。

本发明进一步通过以下图和实例进行示例说明,而不特异性限制于其中。所有此
处引用的参考文献并入本文作为参考。

图:

图1:DWD-整合前后的第一批两种主要的组分。根据图例,数据组用颜色编码,肿
瘤实体由字母编码。

图2:所有基因的DWD整合数据的?#20302;?#26641;图。?#20302;?#26641;图的树枝颜色指示?#26434;?#26679;品的
数据组,树叶-标签的颜色指示了肿瘤实体。

图3:乳突状癌症和良性结节之间在四个不同数据组的差异只有一个基因
(SERPINA1)

图4显示了来自表2的标志物的演绎组(分类物)的PTC分类中平均误差概率的图
表。

图5显示了来自表4的标志物的演绎组(分类物)的FTC分类中平均误差概率的图
表。

实施例

实施例1:数据组

数据组从网站下载或者来自公共知识库(GEO,ArrayExpress)。表7显示了在本研
究中使用的数据组的总结(He等人,PNAS USA 102(52):19075-80(2005);Huang等人PNAS
USA 98(26):15044-49(2001);Jarzab Cancer Res 65(4):1587-97(2005);Lacroix Am J
Pathol 167(1):223-231(2005);J Clin Endocrinol Metab 90(5):2512-21(2005))。这
里,使用了三种不同类别的非-癌症组织:对侧(contralateral,c.lat)用于与肿瘤样品配
对的健康周围组织,其他疾病(other disease,o.d.)用于对其他疾病操作的甲状腺组织和
SN(结节性甲状腺肿)用于良性甲状腺结节。对于所有随后分析,将这些合并为健康的。

表7:用于趋势分析的微阵列数据


实施例2:?#19994;交?#22240;重叠

微阵列数据的任何趋势分析(meta-analysis)的第一步是?#19994;?#20998;析中所用的所有
微阵列平台所共享的基因的组。传统地,通过?#19994;?#20849;同的UniGene识别号来评估重叠。然而
这不考虑研究中基因的所有可能的剪接变异。例如,如果一个基因有2种剪接变体,其中之
一种实验中有差异表达而另一种没有,以及如果一个平台包括只对该差异表达变体有特异
性的寡核苷酸而另一个平台只有对另一种变体的寡核苷酸,则基于UniGene的匹配将融合
测量不同事务的探针。

要克服这个问题,此处采用的手段仅仅融合了注解于RefSeq识别号的相同组的探
针。为此,对于每个探针(组),通过Bioconductor注解包(hgu133a,hgu95a及hgu133plus2;
在网站www.bioconductor.org上可得)或通过在NCBI数据库BLAST搜索序列下载所有匹配
的RefSeq。然后,对于每个探针进行RefSeq的分类和和连结。这是阵列上所测量的实体的最
精确的代表。如果一组RefSeq由阵列上多种探针所代表,则使用中值。在所有阵列上存在
RefSeq的5707个不同组。

实施例3:预处理及数据整合

首先,如为每个平台所推荐的(局部加权回归散点?#20132;?#27861;用于双色实验,分位数标
准化用于单色实验)(Bolstad等人Bioinformatics 19(2):185-193(2003);Smyth等人
Methods 31(4):265-273(2003)),对每个数据组分别进行背?#38774;?#27491;及标准化,然后将其融
合并一起进行分位数标准化。尽管都进行了预处理,但显示不同微阵列平台上产生的数据
或相同平台的不同产生的数据可能由于平台的特异性偏差而不可比(Eszlinger等人Clin
Endocrinol Metab 91(5):1934-1942(2006))。这?#23588;?#21512;的数据的主要组分分析中也很明
显,如图1中所显示的。为了对这些偏差进行校正,开发了用于微阵列数据整合的方法。这些
方法中的一?#24535;?#26159;距离加权判别法(Distance Weighted Discrimination,DWD),其在别处
有详细描述(Benito等人Bioinformatics 20(1):105-114(2004))。简言之,DWD将数据点投
射到一类(数据组)的正常向量上——如通过修改的支持向量机(Support Vector
Machine,SVM)计算的分离超平面并减去这类(数据组)平均值。因此,对于多类问题(要融合
超过2个数据组),数据组需要顺序进行融合。对于6个数据组,这产生720种不同的可能性用
于融合,不包括树结构的手段,例如,不是(((1+2)+3)+4),而是考虑((1+2)+(3+4))。此处应
用的融合顺序是按更相似及更大的数据组应当首先合并,更不同的后合并,这一一般理念
进行选择的。还?#26723;?#27880;意的是,将样品加到DWD融合的数据组将改变整个数据组,就像将一
个新数字加到许多数字的向量会改变其平均值一样。

通过DWD的数据整合在图1中阐述,其显示了在最先的两个重要组分上的数据整合
方法的效应。在该分析中,DWD能够去除数据组之间的分离,如通过PC-作图及通过混合?#20302;?br />树图中树枝(见图2)所显示的。然而甚至在DWD-整合的数据组中,Lacroix数据仍然部分地
与其他数据分离。这最可能是平台的缘?#21097;籰acroix-数据是来自非-Affymetrix平台的唯一
数据。图2显示了各个整合的数据组的?#20302;?#26641;图。而且,DWD整合似乎不妨碍在肿瘤实体间进
行区分(见下列表8)。

实施例4:分类

对于探针选择,选择了分类及交叉-证实最近缩小重心方法(Tibshirani等人PNAS
USA 99(10):105-114(2004))(在Bioconductor包pamr中施行)。由于如下几个原因选择了
它:其允许多类别分类且一次运行特征选择、分类和交叉-证实。简言之,其使用不同收缩阈
值(即,不同的基因数目)计算几个不同的可能分类物,并从交叉-证实中?#19994;?#26368;好的阈值。
如果超过一个阈值产生相同的交叉-证?#21040;?#26524;,则挑选具有最小基因数量(最大阈值)的分
类物。

实施例5:乳突状甲状腺癌(PTC)

首先,作为对于每项研究的质量测量,分开取出每个数据组(在DWD-整合之前)并
进行pamr分类和留一法交叉-证实(leave-one-out cross-validation,loocv)。交叉-证实
的结果几乎完美,只有单个样品分类错误。然而来自He数据组的分类物是例外,这些分类物
中没有一个能应用于任何其他数据组。分类结果几乎不会比根据机会所预期的高。然而如
果使用DWD-整合的数据(下文),分类物则已经适合地更好(见表8)。

表8:将来自一项研究的分类物应用于另一项研究的分类结果。数据整合之前(左)
及DWD整合之后(右)


然后为完整的DWD-整合的数据组建立pamr-分类物并在留一法交叉-证实中进行
证实。这鉴定了一个(!)基因分类物,其在loocv中正确分类了99%的样品。区分的基因为
SERPINA1。图3显示了在DWD之前和之后PTC对SN的区分。能将多至422个基因加到分类物并
仍然产生99%的精确度(来自loocv)。如果将SERPINA1-探针从分析中移除,能在loocv?#24615;?br />次以99%的精确度建立一个分类物(随后命名的分类物),这次使用的是一个9-基因签名
(见表3)。移除这9个基因产生另一种9-基因分类物,其具有相似的表现(99%精确度),并且
进一步产生一?#24535;?#26377;99%精确度的11-基因分类物。这些进一步的分类物在例如用于PTC表
1-3,5和6(上文)中给出。

然而在非-整合的数据上进行相同分析得到类似的结果。考虑到PCA的结果(图1),
其中不同数据组所解释的方差显然比肿瘤实体所解释的方差大得多,可以想象由数据组引
入的偏差有助于(或妨碍)分类。因?#31169;?#34892;了研究-交叉证实,由此顺序地将一项研究从数据
组中取出,分类物从剩余样?#20998;?#24314;立并在消除的数据组上测试。在DWD-整合的数据中,预测
精确度分别从分类物中留出He,Huang,Jarzab和Reyes为100,100,98及100%。对于非-整合
的数据,结果是类似的(100,100,94及100%)。

表9:分类物2中的基因(留出SERPINA1后)


实施例6:滤泡性癌

对于FTC数据也进行了类似的分析,但交叉证实受到妨碍,因为得到数据非常受
限。再一次地,为每个数据组建立分类物(Lacroix和Weber)。他们在25和3997个基因上达到
了96%(Weber)及100%(Lacroix)的loocv-精确度。Lacroix-数据中的基因数量已经暗示
了过度拟合,这通过其他数据组(分别为25和35%的精确度)的交叉-证?#26723;?#21040;确定。而且,
这两种分类物之间的基因-重叠很低(根据阈值,在0-10%之间)。然而如果使用DWD将这2个
数据组合并,能建立147-基因分类物(上文表4),其能够正确鉴定样品(具有92%精确度)。

实施例7:?#33268;?br />

本发明代表了迄今分析的甲状腺癌微阵列数据的最大同期组群。其利用新型的合
并方法,使用用于微阵列数据整合和分类的最?#28388;?#27861;。然而,微阵列数据的趋势分析仍然提
出了一个挑战,主要因为单个微阵列研究的目标为至少部分不同的问题,且因此使用不同
的实验设计。此外,迄今可得到甲状腺肿瘤微阵列数据的数量仍然相对较低(例如,相比于
乳腺癌)。因此,在做趋势分析时被迫使用所有可得的数据,甚至如果病人同期群组代表着
相当异?#26159;?#28508;在有偏差的群体。更特异地,难以得到对照材料(来自健康病人)的均质集合。
这些通常取自因为其他甲状腺疾病做过?#36136;?#30340;病人,其反过来很可能引起在微阵列上测量
时基因表达发生变化。由于得到病人数据,例如年龄、性别、遗传背景等受限,均质的病人同
期组群的产生进一步受到妨碍。

在做微阵列数据的趋势分析时,许多研?#31354;?#23558;其手段基于了比较来自已发表的研
究的基因列表上(Griffith等人,上文引用的)。这非常有用,因为能包括分析中的所有研
究,?#20063;?#38480;于可得到原?#38469;?#25454;的研究。然而这些研究一般遵照了非常不同的分析策略,一些
比其他更严密。作者如何作出基因列表这不在趋势分析者的控制之下。因此这些分析可能
有偏差。

考虑到数据整合,根据原始的DWD文章,当每个数据组至少存在25-30个样品时DWD
表?#32959;?#22909;。在本研究中,6个数据组中有4个包括少于20个样品。在去除平台偏差上DWD仍然
表现相对好(见表8)。

将来自一项研究的分类物应用于另一项研究时,DWD极大地改进了PCA的结果(图
1),分?#27602;?#31867;(图2)以及分类精确度(表8)。在此基础上,令人惊奇地看到非-整合的数据在
交叉证实研究中相比于DWD-整合的数据表现地同样好。其一个解释为任何研究-特异性偏
差在评估更多研究时会变得不那么重要。鉴于研究偏差对一些基因的影响超过其他,由于
研究-偏差引入的方差,受影响更多的基因更不可能经受pamr-阈值的界定。然而如上文显
示的,有大量基因区分PTC和良性结节。只要这些基因中的一个(或几个)不受研究偏差的影
响,它(它们)就能经受阈?#21040;?#23450;,并且肿瘤实体间的区分仍然是可能的。

从图3中看到有个明显的矛盾:在DWD之前,PTC样品具有更高的SERPINA1表达,而
DWD之后则相反。然而如材料和方法部分?#24247;?#30340;,DWD?#29992;?#20010;样品减去类的平均数。这简单地
意味着在DWD之前,SERPINA1的研究偏差高于肿瘤类之间的表达差异。这还解释了为何在
非-整合的数据中,SERPINA1不是工作很好的分类物。

一项近期的由Griffith?#28909;私?#34892;的趋势分析及趋势回顾(Meta-Review)(上文引
用的)总结了在甲状腺疾病背景中具有诊断潜能的基因。他们发表了在分析甲状腺疾病的
超过一项高通量研究(微阵列,SAGE)中出现的基因列表,并应用了排序?#20302;場?#22312;他们的分析
中,SERPINA1打分为第三高,TFF3(留出SERPINA1时为分类物2的一部分)打分为第二。来自
分类物2的九个基因中的四个出现在Griffith等人的列表中(LRP4,TFF3,DPP4和FABP4)。

这些列表的大多数从微阵列分析中产生。然而甚至当将分类物中基因与用独立技
术(像cDNA文库产生)产生的基因列表相比时,有实质性的重叠。SERPINA1以及来自分类物2
的九个基因中的四个(TFF3,DPP4,CHI3L1和LAMB3)出现在他们的列表中。

对于滤泡性甲状腺疾病的情况,建立强大的分类物更?#36873;?#36825;主要因为得到数据受
限。而且,这两个数据组在所使用平台方面非常不同;所有其他数据组都在不同产生的
Affymetrix GeneChips微阵列上产生,而Lacroix数据在自定义的?#27493;?#20262;(Agilent)平台上
产生。然而表4的分类物(组)能够在loocv中正确鉴定大多数样品。

此处采用的趋势分析手段的效力由对于乳突状甲状腺癌和良性结节之间区别的
99%的loocv-精确度(交叉证实研究中97.9%的加权平均精确度)所证实。迄今这在最大、
最分散的数据组上实现了(来自4项不同研究的99个样品)。

一个样品被错误分类,尽管不可能正确地将此分析的样品分析对原始分析进行作
图,错误分类的样品来自与原始分析中被错误分类的样品相同的组(PTC,证实组)。根据
Jarzab等人,样品是异常值,因为其只包括≈20%肿瘤细胞。

关于本文
本文标题:肿瘤?标志物的组.pdf
链接地址:http://www.pqiex.tw/p-5994796.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 股票融资是什么 中小企业股票融资 股票行情大盘走势直播 股票市场 每日黑马股票推荐 股票行情今天查询 炒股软件哪个最好 2001年上证指数 股票涨跌测试器 世界各地股票指数