No019 专题:医疗大数据改变医学常识

编号019

专题:医疗大数据改变医学常识

相声串扰

如何分析医疗大数据

先生喜连川佑

── 利用医疗大数据进行治疗,分析方法很重要。

喜连川──我听说新生儿苯丙酮尿症和呆小病是可以通过基因型识别的主要原因,但另一方面,我也听说有很多疾病无法确定与基因型的关系。在我们这些远离医学的外行看来,基因组似乎只是疾病的一个特征。我相信,考虑到许多特征的高维研究未来将会继续下去。这不仅限于医学领域的具体努力,并且假设类似的努力将在更广泛的学术界传播。

中山──您说得对,还有许多其他属性需要考虑。

喜连川──科学始于观察,研究人员长期以来一直致力于根据这些观察结果推导出定律。不再可能期望事物像力学或电磁学那样简单地表达,许多研究人员现在意识到他们必须理解的世界极其复杂,他们必须改变他们的方法。这是被称为所谓第四科学的发展。换句话说,第一科学是观察科学,第二科学是理论科学,第三科学是计算科学(使用超级计算机进行模拟),第四科学是数据探索科学。这第四种科学是由吉姆·格雷 (Jim Gray) 大约 15 年前发现的*7提出的,但后来,所谓的深度学习诞生了,最近它被称为数据科学。通过深度学习,可以注入大量的特征,当然还剩下很多挑战,但一个新的世界正在被创造。换句话说,我认为将会创建越来越多的分析,其中包含基因组以外的各种特征。

中山──我认为毫无疑问基因组具有一定的重要性。然而,在那里寻找所有因素可能是不合理的。这就是为什么包含表达各种人类特征的价值的医疗大数据的潜力正在引起人们的关注。因此,我们对Kitsurekawa教授在深度学习和机器学习方面的知识寄予厚望。

在医疗保健中使用人工智能的可能性

喜连川──人工智能的具体构成目前尚不明确,但存在多种可能性。它被用于多种领域,包括图像、数值时间序列数据和诊断文本。机器学习的方法本身不仅是最近的深度学习,而且是以前广泛使用的贝叶斯理论。*8或 SVM(支持向量机)*9

中山──因此,首先,您正在分析通过内窥镜检查收集的图像。

喜连川──在我担任所长的国立信息研究所,我们很快建立了医疗大数据研究中心,并以所谓的医学影像为重点,与日本病理学会、放射学会、胃肠内窥镜学会、眼科学会、皮肤科学会和超声波学会合作进行图像分析研究。如果我们缩小目标范围,我们已经能够获得足够高的性能,并且在某些领域我们正在走向实际应用。尽管我们距离能够预测一切的系统还很遥远,但一旦识别出疾病并收集到足够的数据,性能就可以逐步提高。例如,眼科图像数据具有极其稳定和均匀的成像条件,非常适合机器学习。

中山──如果数据统一,分析的准确性可能会提高。

喜连川──眼底摄影作为研究的第一步非常容易使用,为此已经做了很多工作。自然,深沉的心灵*10也致力于此。尽管对青光眼的需求很大,但我们现在能够针对许多其他疾病进行定位和分类。目前还有其他方式*11

中山──图像数据的质量是实现这一目标的关键吗?

喜连川──最近美国流行一个短语,叫“数据驱动人工智能”,我很喜欢它。简而言之,AI的燃料是数据,没有数据,AI引擎就无法运行。这意味着数据起着非常重要的作用。拥有好的数据的国家,在人工智能方面就会变得更强大。

例如,今年是日本和芬兰建交 100 周年,芬兰为拥有 60 年的国家队列数据感到自豪。人们的大部分医疗数据都保存了很多年。 60年前,计算机在社会上还不太活跃,所以目前还不清楚其中有多少已经数字化,但据说它们拥有有价值的数据,大型制药行业也被它所吸引。大家知道,日本也拥有相当高质量的医疗数据。在 AMED 的支持下,我们决定采取前所未有的举措,与学术界合作进行医学影像分析研究。这创建了一个框架,使我们能够收集单个医生或医院无法收集的大量数据。

中山──眼科图像分析达到什么水平?

喜连川──眼部疾病分为 12 类,包括年龄相关性黄斑变性和糖尿病性视网膜病变等正常疾病。尝试通过图像分析来诊断特定图像对应哪种疾病的学习设备的性能目前已超过 90%。

【图1】医学影像大数据云平台概述
NII 提供
医学影像大数据云基础设施概述

中山──是不是分类准确率90%的结果,不是有病/无病的二元分析,而是对应12种疾病中哪一种的分析?这很实用。

喜连川──医生注释*12的帮助关键是,一个提供高质量标注数据的数据平台起着极其重要的作用。国立信息研究所拥有许多构建云、网络、安全、系统软件和数据库等平台所需的IT专家,同时拥有为学术界提供定期服务的记录,这一点也很重要。

实际上,我在东京大学构建和运营全球环境数据平台已有 30 多年了。实时注入来自国土交通省、X波段雷达、Himawari 8、AMeDAS、河流数据、GPV等的各种数据。此外,还开发了各种工具。容量达到数十PB。这种数据平台在日本是独一无二的。想要证明他们的算法是否真正有用的研究人员应该使用 DIAS(数据集成和分析系统)平台。*13在那里,可以进行各种实验,并进行进一步的改进。我能够充分利用我在系统开发方面的经验。

中山──通过重复试验和错误来提高准确性。关于前面提到的眼部病变诊断,假设如果由经验丰富的眼科医生来做,分类准确率将是100%,是否正确?

喜连川──这个问题的答案很复杂。即使你是一位经验丰富的医生,也可能很难对所有疾病都做到完美。如果人工智能变得更聪明,肯定能够弥补医生的弱点。从长远来看,这种新的数据驱动范式有望使人工智能性能越来越接近熟练程度。但另一方面,我并不认为经验丰富的医生的作用会减弱。对于罕见病等病例收集难度较大的病例,经验丰富的医生的洞察力仍然至关重要。

[脚注]

*7
吉姆·格雷:美国计算机科学家。吉姆·格雷(Jim Gray)是一个常见的名字,但他的真名是詹姆斯·尼古拉斯·格雷(James Nicholas Gray)。 1998年,他因其在事务处理方面的工作而获得了图灵奖。
*8
贝叶斯理论:基于 18 世纪英国数学家托马斯·贝叶斯提出的条件概率定理的理论。据此,可以利用该事件过去发生的频率来粗略地估计该事件发生的概率。
*9
SVM(支持向量机):一种监督学习算法,用于解决数据分类和回归等问题。
*10
心灵深处:开发“AlphaGo”并击败人类职业围棋选手的英国人工智能公司现已被 Google 收购。
*11
形态:医学成像设备的总称。其中包括 CT(计算机断层扫描)、MRI(磁共振诊断设备)和 US(超声诊断设备)。
*12
注释:标记各种形式的数据(例如文本、音频和图像)的工作。通过摄取标记数据,机器学习算法可以识别模式。
*13
DIAS(数据集成和分析系统)平台:文部科学省开发的数据整合分析系统。旨在积累和整合全球观测、预报信息等大数据,用于解决全球环境问题和大规模自然灾害。
我们为您带来 TELESCOPE 杂志的最新信息。推特