江铖:乳腺癌识别By AI

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

江铖:乳腺癌识别By AI-LMLPHP

大家好，今天很高兴能给大家带来这方面的报告。正如大家所看到的，社会平均年龄在逐年增长，大家对健康的意识也是越来越高，与此同时伴随着AI技术的发展，AI医疗方向就成为了互联网领域的一大研究热点，腾讯在这方面也是做了很大的努力，在这周四广州举办的互联网＋会议上我们正式对外发布了我们的AI乳腺系统。作为该系统的研发人员之一我有幸见证了这个项目从无到有以及一次一次迭代的过程，所以希望在今天的会场上能够跟大家分享一下我们整个团队的经验。

江铖:乳腺癌识别By AI-LMLPHP

选择乳腺癌这个研究方向作为我们工作的开始主要是有两方面的原因。第一方面是对于女性来说乳腺癌是所有肿瘤当中发病率最高的一种，它的发病率大概在16%-17%之间，严重危害女性的健康。第二点是因为乳腺癌它虽然发病率很高，但是它的治愈率是比较高的，如果能在较早期发现的话它的治愈可能性是非常高的。对于美国来说目前五年的生存率是在89%，而中国在这方面只有83%。原因主要是中国人口基数过多，相对来说有经验的看片医生较为缺乏，这就产生一个供需的矛盾。目前应用AI技术就是为了缓解这个矛盾，能够最大限度地帮助到患者跟医生。

江铖:乳腺癌识别By AI-LMLPHP

对于乳腺的诊断先来做一些基础知识的了解。对乳腺来说诊断方式通常有以下五种，前四种是大部分医院采用的方式，首先对于一个来体检或者是觉得有异常的人，通常会对他先进行一个X光拍照，拍照之后对他进行一个诊断。影像科的医生读片之后作出判断，如果发现有不能确定的地方他们会建议进一步做超声和磁共振。如果这两个做下来依然有可疑的情况，可能就会建议做病理。病理能确认一个患者是否真的患有乳腺癌。在作出定性判断之后如果真的有，再判定恶性的程度是多高，给出一个打分。

然后在这个基础上还会对恶性肿瘤的亚型进行分类，对不同的亚型可以采用不同的治疗方案。近些年基因方面的研究也是比较热的，众所周知如果家族当中有人患有乳腺癌的话，其家族成员患上乳腺癌的概率相对其他人来说就会高一些，目前已经有研究证明有一种叫做BRCA的基因，携带这样基因的女性患乳腺癌的概率要远远高于平常人。所以通过这个基因可以帮助我们确定高发人群，并且能够有助于我们制订个性化的治疗方案。

从上面可以看到对乳腺癌的诊断是有非常多的模态的，我们的终极目标是能够把这些模态有机地结合起来，形成一个完整的整体，提高对乳腺癌的诊疗技术。我们最早开始的研究方向是钼靶，因为钼靶它是使用最为广泛，并且最为有效的一种方式。，我们现在对于钼靶的研究成果已经落地了三十多家三甲医院，并且已经初步得到了一些应用，也获得了一些反馈。在病理和磁共振方面我们也取得了阶段性的成果，而在超声方向我们目前是刚刚开始。

江铖:乳腺癌识别By AI-LMLPHP

下面就以我们做得相对完整的一个钼靶项目来开始今天的技术分享。这个乳腺钼靶主要实现了三方面的功能，第一方面实现了疑似病灶的定位，能够在给定的钼靶图上将两大潜在的恶性灶准确的标定出来。这样可以辅助医生从而减轻医生读片的压力，另一方面可以降低医生的漏诊率。第二是判断病灶恶性的概率，并在此基础上对整个单侧乳房都做出进一步的判定。最后就是前面提到的这些分析的基础上结合一些图像处理的方式提取乳腺的特征，并生成它的影像报告。

江铖:乳腺癌识别By AI-LMLPHP

我们来看一下这三方面的功能是怎么实现的呢？我们主要采用了下面这样一种技术框架，这个框架主要包含三层内容，在这个框架的前端主要是提供了对于钼靶影像的前处理层。中间的核心模块是我们的AI学习模型，第三层在是这两个模型的基础上通过医生的反馈，对前两层进行动态更新。下面我将每一个部分跟大家具体的讲一讲。

江铖:乳腺癌识别By AI-LMLPHP

首先在前处理模块，目前主要通过归一化、迁移学习方面的方法来实现对于不同X光厂商设备适配的这个过程。在进行了设备适配后，我们会对其进ROI提取。在前端处理之后就到了核心部分：学习模型由于乳腺钼靶的特殊性，我们没有办法直接用目前市面上已经有的神经网络来解决这个问题。于是我们就单独设计了这个模型。它有四大优点，第一个优点就是相对于传统的网络的单图输入，TMuNet模型采取了四图（ MLO-CC位）输入，左乳有两张，右乳有两张，因为X光拍摄的角度有CC位和MLO位两种方式。CC位是水平方式的拍摄，MLO的话是一个侧斜位的拍摄方式。通过左右乳进行对比，可以极大提升诊断的精准度。尽可能地解决同影异病和同病异影的问题。

江铖:乳腺癌识别By AI-LMLPHP

第二点我们采用了一种多尺度网络，通常在自然图像处理中图片在输入网络之前，会对其进行缩放，缩放之后再输入固定的网络。由于医学影像中的病灶对于同一个形态不同的尺寸，可能意味着良恶性的不同，如果单纯的做缩放有可能做出不一致的判断，所以采取了通过网络结构的设计来适配图片的方式。

江铖:乳腺癌识别By AI-LMLPHP

第三点就是渐进式的网络构建，这种方式有点相似于我们大脑进行学习的过程，对于一个复杂的问题，它不是一次性解决的，它是把问题分解成若干个相对简单的问题然后一层一层去解答。

这个网络也是基于这样的思想，首先我们会使用一个浅层网络对局部的病灶，比如说肿块、钙化进行病灶的分类。在此基础上逐步加深网络层次，实现对单幅图片的一个诊断，然后我们再进一步的对网络进行加深，从而实现四张图片诊断的功能。所以说我们的训练是一层一层的，我们的网络也是逐渐加深的过程。

第四点是自步学习的训练方式。人脑它在学习新的知识的时候通常是由易到难的，所以在样本训练的过程中，并不是一次性把所有的样本都投入网络进行训练。我们将这些样本按从易到难顺序分成了多个类别，然后我们在训练的过程当中也按由易到难的顺序逐步地把样本加进去，对模型进行训练。实验表明通过这样的过程，模型可以达到一个最好的效果。

江铖:乳腺癌识别By AI-LMLPHP

在采用前面四种这种方式得到了这样一个基础模型之后，我们还会根据医生的反馈以及一些新接入医院新的数据对我们的模型进行迁移学习，并做动态更新。在工程实践的过程当中我们总结发现AI见过的疑难病例的数量和种类很大程度上决定了这个AI系统的上限。因此我们非常注重我们这个数据集的运营。我们数据集会定期的从数据库和线上数据当中挖掘有价值的疑难病例，对其进行标注。同时对于这其中的一部分我们会请专家三甲医院特别知名的专家让他们来跟我们进行讨论，利用病理或者其他数据进行交叉确认。将这些数据加入到我们训练样本之后我们的模型就可以远远的超过那些没有这些数据的网络。

然后最终我们的这个模型达到了下面的精度，肿块探测方面可以在0.2误检率的情况下达到92%的敏感度。钙化检测精度更高，对于良恶性分类可以达到87%的敏感度和96%的特异度。

除了这些内容之外我们在病理和磁共振方向也开展了研究，目前已经取得了一些阶段性的成果。在超声方向我们也是投入了人力的，目前我们对超声还处在数据的准备过程当中。当然就像开始所提到的我们的终极目标是把这几种多模态的数据有机地结合起来，为患者跟医生提供我们力所能及的帮助。这就是我今天的报告，谢谢大家！

Q&A

Q：我想问一下四张图是怎么放到网络里的？还有一个问题就是MLO位和CC位是否对同一个病灶做了匹配？

A：我们是做了的。然后放进去的话主要是通过网络的增广来解决的，这方面里面具体的细节的话现在还不太方便透露。

Q：还有一个问题就是钙化点的标记和肿块的标记是分开标记的还是？

A：这个是需要分开的，因为他们的特征是不一样的。根据我们的经验来说对于钙化分类的话，它是比肿块更容易的。

此文已由作者授权腾讯云+社区发布，原文链接：https://cloud.tencent.com/developer/article/1178384?fromSource=waitui

欢迎大家前往腾讯云+社区或关注云加社区微信公众号（QcloudCommunity），第一时间获取更多海量技术实践干货哦~

海量技术实践经验，尽在云加社区！