上海北大大学的研究人员创建了一个新的开放医学图像数据集,即MedMnist,并设计了“ MedMnist Grentific decathlon”,以促进医疗图像分析领域中汽车算法的研究。
项目地址:https://Medmnist.github.io/
纸张地址:https://arxiv.org/pdf/2010.14925v1.pdf
github地址:https://github.com/medmnist/medmnist
数据集下载地址:https://www.dropbox.com/sh/upxrsyb5v8jxbso/aadov0_6pc9tb3ciacro1uupa?dl=0
数据集在AI技术的开发中起着重要作用。但是,医疗数据集的创建面临许多困难,例如数据获取,数据注释等。
最近,上海Jiotong大学的研究人员创建了医学图像数据集MedMnist,其中包含10个预处理的开放医学图像数据集(数据来自多个不同的数据源,并且已预处理)。像MNIST数据集一样,MedMnist数据集在轻质2828图像上执行分类任务,其中涵盖了主要的医疗图像方式和不同的数据量表。根据研究人员的设计,MedMnist数据集具有以下特征:
教育:此数据集中的多模式数据来自具有创意共享许可证的多个开放医学图像数据集,可用于教育目的。
标准化:研究人员预处理数据并将其转换为相同的格式,因此用户不需要背景知识即可使用它。
多样性:多模式数据集涵盖了广泛的数据尺寸(从100到100,000)和任务(二进制/多分类,有序回归和多标签)。
轻量级:图像尺寸为2828,可以轻松快速设计原型并使用多模式机器学习和汽车算法进行实验。
受到医学分割的十项全能运动的启发,该研究还将MedMnist分类Decathlon设计为医学图像分类领域的汽车的基准。
它评估了所有10个数据集上汽车算法的性能,而无需手动微调算法。研究人员将几种基线方法的性能进行了比较,包括早期Stop Resnet [6],开源AutoML工具(自动- Sklearn [7]和Autokeras [8])和商业化的Automl工具(Google Automl Vision)。研究人员希望MedMnist分类十项全能可以促进医学图像分析领域的汽车研究。
十个预处理数据集
MEDMNIST数据集包含10个涵盖主要数据模式的预处理数据集(例如X射线,OCT,超声,CT),不同的分类任务(二进制/多分类,有序回归和多标签)和数据量表。如表1所示,数据集设计的多样性导致任务难度的多样化,这正是汽车基准所需的。研究人员对每个数据集进行了预处理,并将其分为训练验证测试子集。
这些数据集的数据模式涵盖了X射线,OCT,超声,CT,病理切片,皮肤镜检查和其他形式,涉及多个医疗领域,例如大肠癌,视网膜疾病,乳腺癌和肝肿瘤。
新的Automl医疗图像基准
如前所述,研究人员受到医学分割十项全能的启发,并设计了“ MedMnist分类Decathlon”,以创建轻量级的汽车基准进行医学图像分析。它评估了所有10个数据集上汽车算法的性能,而无需手动微调算法。研究人员比较了多种基线方法的性能,请参见下面的表2:
从表2可以看出,Google Automl Vision具有更好的总体性能,但并不总是最佳的,有时甚至会输给Resnet-18和Resnet-50。自动扫描在大多数数据集上表现不佳,表明典型的统计机器学习算法在此医疗图像数据集上的性能较差。 Autokeras在大规模数据集上的性能更好,并且在小型数据集上相对较差。没有算法可以在这十个数据集上实现良好的概括性能,这有助于探索自动算法对不同数据模式,任务和量表的数据集的概括效应。
接下来,让我们看一下训练集,验证集和测试集上不同方法的性能。如下图2所示,该算法容易在较小的数据集上过度拟合。
Google Automl Vision可以更好地控制过度拟合的问题,而自动- 斯克莱恩(Auto-Sklearn)严重拟合。从中,我们可以推断出对于学习算法,适当的减少偏见非常重要。我们还可以在MedMnist数据集上探索不同的正则化技术,例如数据增强,模型集成,优化算法等。
如何找到数据集?
1。很棒的数据
这是一个包含不同类别的多个数据集的GitHub存储库。
链接:https://github.com/awesomedata/awesome-public-datasets
2。数据是复数
这是电子表格中介绍的数据集资源,自2015年以来定期更新,最新一期是2020年10月28日的资源,因此一些资源非常新。
链接:https://docs.google.com/spreadsheets/d/1wzhplmchkjvwokp4juclhjfgqiy8fqfmemwkl2c64vk/edit#gid=0
3。Kaggle数据集
Kaggle数据集提供了有关许多数据集的预览和摘要信息,这是检索特定主题数据集的理想选择。
链接:https://www.kaggle.com/datasets
4。数据。世界
像Kaggle一样,Data.World提供了一系列用户限制的数据集,还为公司提供了一个平台,以存储和组织自己的数据。
链接:https://Data.world/
5。Google数据集搜索
链接:https://Datasetsearch.research.google.com/
6。opendal
Opendal也是一个数据集搜索工具,您可以在其中以多种方式进行搜索,例如根据创建时间或绘制地图上的地图上的区域来构建地图上的区域。
链接:https://opendatalibrary.com/
7。熊猫数据阅读器
Pandas数据阅读器可以帮助您从在线资源中获取数据,然后在Python Pandas DataFrame中使用它。这里的大多数数据是财务数据。
链接:https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
8。从API获取数据
使用Python从API中获取数据也是数据科学家使用的一种常见方法。有关特定的操作步骤,请参阅以下教程。
用户评论
屌国女农
厉害了!没想到连 AutoML 都不靠谱,以后还怎么用它?看来传统的机器学习方法还是稳当一些。
有10位网友表示赞同!
残留の笑颜
这个数据集中哪些任务做了测试?具体哪个 AutoML 算法效果没到预期?希望能看到更多详细的分析报告,这样才能更全面地了解情况。
有7位网友表示赞同!
执笔画眉
上海交大的研究成果果然厉害!这预警性很强啊,大家还是要把 AutoML 用在合适的地方,不能盲目相信它会解决一切问题。
有19位网友表示赞同!
从此我爱的人都像你
我觉得这个观点很有道理。AutoML 好像是黑盒,我们很难了解其决策过程,有时候结果让人难以納得。还是需要基础机器学习知识来辅助使用。
有12位网友表示赞同!
初阳
哈哈,我之前一直用 AutoML 搞自动模型优化,现在看来得重拾一下手动的调参技巧了!
有14位网友表示赞同!
万象皆为过客
AutoML 的确可以快速生成一些效果不错的基础模型,但想要达到更精确的结果依然需要人工干预和精细调优,这方面上海交大的研究很有价值。
有9位网友表示赞同!
╭摇划花蜜的午后
这个新闻让我有点失望,我一直认为 AutoML 应该是未来机器学习的趋势啊!难道说它真的不如传统方法?
有9位网友表示赞同!
龙卷风卷走爱情
我觉得吧,AutoML 还处于发展的初期阶段,离真正好用还有段距离。这本是一件好事,说明我们需要继续努力完善它。
有15位网友表示赞同!
爱情的过失
上海交大做研究真厉害!希望能够看到更多相关领域的研究成果,为发展 AutoML 提供更全面的解决方案。
有6位网友表示赞同!
﹎℡默默的爱
这个研究结果很客观,AutoML 确实存在一些局限性,比如泛化能力不足,处理非标准数据的能力也不强。未来需要针对这些问题进行改进。
有14位网友表示赞同!
厌归人
感觉现在还不能完全把 AutoML 当成“万能工具”,还是需要根据具体任务选择适合的方法。这篇文章提醒了我这一点。
有16位网友表示赞同!
莫名的青春
AutoML 的优点在于快速便捷,缺点就是不够精准。对于复杂项目来说,可能还需要结合其他的机器学习方法来使用,才能达到最佳效果。
有16位网友表示赞同!
如梦初醒
这个数据集研究结果很实证,很有参考价值!可以帮助我们更好地理解 AutoML 的局限性,避免盲目依赖它。
有19位网友表示赞同!
你瞒我瞒
AutoML 的未来发展方向是什么? 我觉得这篇文章的结论只是冰山一角,希望能看到更多关于 AutoML 优化和改进方向的研究成果。
有7位网友表示赞同!
安陌醉生
这种研究结果提醒大家,不要把 AutoML 当神来对待,要根据实际情况选择合适的工具,同时也要持续学习和进步。
有19位网友表示赞同!
白恍
对于科研领域来说,不断探索和批判性思考非常重要! 期待更多研究人员能像上海交大一样,敢于提出质疑并进行实证研究,推动 AutoML 的发展前进。
有5位网友表示赞同!