No019 专题:医疗大数据改变医学常识

编号019

专题:医疗大数据改变医学常识

大数据开启医疗可能性

相声“揭示技术的未来”特别会议”

大数据打开医疗可能性

中山武夫
京都大学研究生院
医学研究生院教授
喜连川佑
国家信息研究所所长,
东京大学工业科学研究所教授

21世纪是数据科学的时代。利用人工智能分析大数据。结果可能会提供超越传统科学限制的知识。医学界也是如此。有关人类健康、疾病及其治疗的大数据将极大地有助于提高医疗质量和效率。那么,我们如何利用医疗大数据呢?我们邀请了在京都大学医学研究生院进行流行病学研究、出版了日本第一本医疗大数据著作《医疗大数据带来的社会变革》的中山武雄和兼任国立信息学研究所所长、东京大学产业科学研究所教授、信息分析领军专家喜连川正,从各自的角度谈论了医疗大数据的可能性。

(构图/文本/Atsumi Takebayashi Photography/Honami Kawai <Amana>)

医学研究数据收集的范式转变

先生中山武夫

── 医疗大数据备受关注,但医学大数据到底是什么?

中山──长期以来,医学研究的重点不是人类,而是小鼠等动物。当然,在临床环境中,医生会尽最大努力检查和治疗他们面前的患者,即人类。然而,一旦这些医生离开病房并开始在实验室进行研究,他们就会改变主意并开始对动物进行研究。

流行病学,我的专业*1研究重点是人类。此外,为了了解人类的多样性,我们的目标是人类群体,而不是人类个体。然而,直到大约20年前,流行病学还被称为肮脏的科学。换句话说,纯科学是在排除各种噪音的环境中进行的科学,人们认为,处理充满噪音的对象(例如人类群体)的科学不能称为纯粹的科学。

当时针对的人口规模最多只有几千到几万。然而,在过去的10年里,数据环境发生了巨大的变化。例如,收据*2的数据现在可以用于研究。你可以说这是数据收集的范式转变。研究人员过去费尽心思收集的数据现在已经成为自然而然地聚集在一起的东西。在传统研究中,研究人员首先提出假设,然后深入现场,例如医院或当地社区,自行收集数据。然而,收据数据已经存在,无需特意收集。过去10年的一个重大变化是,在以前无法想象的研究中使用大量数据,真正的大数据已经成为可能。

提供大量数据用于研究

─ 以喜连川教授为所长的NII(日本国立情报学研究所)去年成立了医疗大数据研究中心*3已推出。

喜连川──该中心正在努力收集大量医学图像。为了发送和接收大量数据,我们将使用由NII构建和运营的SINET5(科学信息网络)。这是一个超高速通信网络,连接了全国约900所大学和研究机构等机构,其通信速度为100Gbps。典型家庭中的光纤线路约为 100Mbps,因此速度快了 1000 倍。

可以说速度提高了1000倍,可以发送1000倍的数据,而且通过这个网络,即使是大量的医学图像数据也可以毫无压力地发送和接收。

目前,医学会从医院等来源收集的匿名数据正在通过SINET5发送到“医学影像大数据云平台”。该云平台不仅可供医学研究人员访问,还可供IT研究人员访问,旨在让研究人员在NII的管理下自由使用数据。我相信这是日本第一个如此大规模的框架。

[图1]SINET5的特点
由 NII(国家信息研究所)提供
SINET5 功能

我们目前与日本放射线学会、病理学会、胃肠内窥镜学会、眼科学会、皮肤科学会、超声波学会建立了合作伙伴关系,目前已积累了约1000万张图像数据。我们的挑战是通过使用机器学习和深度学习对这些图像进行医学图像分析来创建疾病诊断支持系统。此外,我们正在东京大学的实验室构建一个系统,用于存储六年的收据数据。该收据数据使用了我们根据内阁府高级研究和开发支持计划(FIRST)独立开发的数据库技术。数据库容量已达2000亿条记录。即使数据量如此庞大,搜索过程一般在一分钟之内就能完成。

以令人难以置信的速度搜索令人难以置信的规模的数据是可能的,但我对大数据的定义是它无法在 Excel 中打开。

一年内的收据数据约为 400 亿条记录。 Excel 可以处理大约 5000 万条记录。我们希望像我们这样的数据库研究人员可以帮助医生利用这些数据。

[脚注]

*1
流行病学:医学领域,旨在通过调查特定人群中疾病的分布以及与健康相关的情况和事件,并进行必要的定量测量来探索健康障碍的原因,为健康维护和促进适当的医疗干预做出贡献。
*2
收据:医疗机构向保险公司收取的患者接受保险治疗的医疗费用明细表。列出了疾病名称和治疗细节。
*3
医疗大数据研究中心:为了利用网络、云、安全、人工智能等前沿信息技术促进医疗领域问题的解决,我们正在致力于构建医疗大数据云基础设施,并研究利用人工智能等机器学习的图像分析。
我们为您带来 TELESCOPE 杂志的最新信息。推特