赛情简介

时间

初赛(6月25日-7月25日,UTC+8),由广西壮族自治区人民政府主办。
报名成功后,参赛队伍通过天池平台下载数据至本地调试算法,在线提交结果。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。参赛地点不限。

赛题数据

本次大赛采用的影像数据为两千余份高危患者的低剂量肺部CT扫描,数据格式为mhd,可使用SimpleITK读取。每个三维影像包含一系列胸腔的多个轴向二维切片。影像包含的切片数量不定,随着扫描机器、扫描层厚和患者而变化。比赛会根据初赛、复赛难度系数不同,选择不同层厚的扫描、不同的病种作为赛题。 数据集由两名医生进行原始标注,通过标注检验后,由第三名医生进行消歧工作保证数据标注的一致性。
初赛数据标注样例如下所示:从左至右依次为结节、索条、动脉硬化或钙化、淋巴结钙化。
file
初赛环节允许选手下载数据,初赛提供的数据如下:肺部CT扫描共1837份,训练集1470份,测试A集145份,测试B集222份,层厚以5mm为主(占比超过80%)。在复赛环节,通过线上赛的方式,不允许选手下载数据,在线完成模型训练,同时在线赛也为选手模型的代码复现和成果落地过程中的工程化开发提供支持,复赛预计提供近1000份层厚均为2mm的CT扫描,同时在初赛的基础上检测更具有临床意义的病种。
本次大赛将合理划分训练集和测试集,隐藏部分测试标注数据作为模型测评依据。初赛的数据分为train、testa、testb三部分:train用来给选手训练模型,会提供给选手标注文件annotation.csv,其中记录了与CT扫描对应的标注信息:中心坐标+直径(单位为mm)+类别(1-结节,5-索条,31-动脉硬化或钙化,32-淋巴结钙化):testa用来进行第一阶段的评测;testb用来进行第二阶段的评测。

提交说明

参赛参赛者提交一个CSV文件,第一行标记每一列的名称,一共六列,分别为图像ID号,坐标,类别编号和概率。从第二行之后的每一行都标记一个检测到的病灶,坐标为检测到病灶的长方体的中心坐标x, y, z的数值。样例如下:

seriesuid,coordX,coordY,coordZ,class,probability
648345,75.52331,56.01691,-194.25451,0,6.5243e-05
648341,-35.59996,78.00007,-13.38142,3,0.00269234
335026,80.28378,198.88157,-572.70001,2,0.126734
648345,98.06670,-46.46664,-141.42198,1,0.012345
523736,25.06072,28.65361,-790.5,2,0.87

评估指标

赛题组会根据参赛者给出的坐标信息判断病灶是否检测正确。如果病灶落在以参考标准为中心的长方体(长方体各维度的边长为对应标注边长的1/2,限定边长最小为2mm)中,则认为检测正确。根据提供的每种病灶的检测概率,计算一个FROC曲线,Sensitivity在1/8, 1/4, 1/2, 1, 2, 4和8一共7个不同的误报情况下的平均值作为其中一种病灶的得分,最后的得分是四种病灶得分的平均值。

理解

可视化数据集

知乎的李兰青已经介绍得非常好,这种行文的博客风格我也很喜欢,学习之。

CT相关概念

HU

The Hounsfield unit (HU) scale is a linear transformation of the original linear attenuation coefficient measurement into one in which the radiodensity of distilled water at standard pressure and temperature (STP) is defined as zero Hounsfield units (HU), while the radiodensity of air at STP is defined as -1000 HU. In a voxel with average linear attenuation coefficient {\displaystyle \mu } , the corresponding HU value is therefore given by:

{\displaystyle HU=1000\times {\frac {\mu -\mu _{\textrm {water}}}{\mu _{\textrm {water}}-\mu _{\textrm {air}}}}}

attenuation coefficient

衰减系数,(attenuation coefficient) 通常是指某些物理量例如光子、声波、电子、粒子的数量或能量等等,在物体中单一方向行进贯穿的难易程度。以光线为例,衰减系数大,代表光线进入某特定物质时会快速变弱;衰减系数小,代表光线可以很容易穿透此物质,即此一物质是相当透明的。[1]
衰减系数其实是一种几率概念:假设 100 个光子每行进一公分,20 个光子与物质发生特定交互作用被吸收掉,衰减系数就是每公分损失 20%, 写成为长度单位的倒数,0.2 cm-1。以国际标准单位制来表示,可写成 20 m-1,单位为米分之一。
衰减系数大小与入射标的物的性质有关,例如入射光波长;也与贯穿作用物质本身的性质有关。

思路

  • 搞清楚CT图像的意义与常规操作;
  • 可视化.mhd文件,调整窗宽与窗位,尝试人工找到病灶;
  • 搭建模型,自动化实现上一步。

参考

https://tianchi.aliyun.com/competition/entrance/231724/information
https://tianchi.aliyun.com/forum/issueDetail?postId=63331
https://tianchi.aliyun.com/forum/issueDetail?postId=62363
https://zhuanlan.zhihu.com/p/52447853
http://shartoo.github.io/medical_image_process/
http://radiology.dxy.cn/bbs/topic/37014108?lily=zt
https://en.wikipedia.org/wiki/Hounsfield_scale

最后修改日期: 2019年7月9日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。