当前位置:首页 > 文学 > 正文

医学公共数据库

  • 文学
  • 2024-12-22 02:32:41
  • 36

网址:https://www.facs.org/quality-programs/cancer/ncdb

美国国家癌症数据库(National Cancer Database, NCDB)是经国家认证的,由美国外科医师学会和美国癌症学会联合组建的,它是一个基于医院登记数据的临床肿瘤学数据库,来源于超过1500多个癌症委员会认证的机构。NCDB数据库可用于分析和跟踪恶性肿瘤患者的治疗过程和结局。数据库代表了全美超过70%的新诊断癌症病例和超过三千四百万个历史记录。

网址:https://seer.cancer.gov/

SEER(Surveillance, Epidemiology, and EndResults Program)是美国癌症统计的权威来源。SEER数据库可提供癌症统计信息,以减轻美国人口中的癌症负担。SEER数据库由美国国家癌症研究所(National Cancer Institute,NCI)癌症控制和人口科学部(Division of Cancer Control andPopulation Sciences, DCCPS)的监视研究项目(SurveillanceResearch Program, SRP)提供支持。

TCGA-KICH癌症 CT 影像数据集

TCGA-CESC癌症 CT 影像数据集

TCGA-ESCA癌症 CT 影像数据集

网址:https://cancergenome.nih.gov/
美国癌症基因组图谱(The Cancer Genome Atlas, TCGA)是由美国国家癌症研究所(National Cancer Institute, NCI)和国家人类基因组研究所(NationalHuman Genome Research Institute, NHGRI)合作开发的,目前它包含了33种癌症的数据,每种癌症都涉及关键基因组变化的全面、多维的图谱。TCGA数据库储存有2.5PB的数据,对超过1.1万多名患者的肿瘤组织及配对正常组织进行描述,目前已被广泛应用于研究领域。这些数据已为独立研究人员进行的癌症研究或者TCGA研究网络出版物做出了超过1千多项的贡献。
在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理,以下是其中整理最为完整和可靠的:

GDAC: http://gdac.broadinstitute.org/
Cancer Browser: https://genome-cancer.ucsc.edu/
cBioportal: http://www.cbioportal.org/index.do

网址:http://molonc.bccrc.ca/aparicio-lab/research/metabric/

网址:https://ega-archive.org/dacs/EGAC00001000484

国际乳腺癌协会的分子分类数据库(Molecular Taxonomy of Breast Cancer International Consortium, METABRIC) 是一个加拿大-英国联合项目,旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤进一步分类。我们迄今为止已经根据肿瘤的基因指纹将乳腺癌重新分类为10个全新的类别。这些基因可以对乳腺癌生物学提供迫切需要的洞察力,使医生能够预测肿瘤是否会对某种特定的治疗产生反应。肿瘤是否有可能扩散到身体的其他部位,或者治疗后是否有可能复发。

网址:https://www.ncbi.nlm.nih.gov/geo/

基因表达库(Gene Expression Omnibus,GEO) 是一个支持微阵列实验的最小信息(MinimumInformation About a Microarray Experiment, MIAME)兼容数据提交的公共功能基因组数据存储库。可接受基于数组或序列的数据。提供相关工具帮助用户查询和下载实验和管理基因表达谱。

网址:http://www.who.int/healthinfo/mortality_data/en/

世界卫生组织死亡数据库(WHO Mortality Database)是对各个成员国的居民登记系统按照年龄、性别和死因汇编的每年死亡数据。

07 Orphanet

网址:http://www.orpha.net/consor/cgi-bin/index.php?lng=EN

Orphanet数据库是为所有用户提供罕见病和罕见病药物信息的开放门户,目的在于提高罕见病的诊断、护理和治疗效果。

遗传突变分类竞赛【Kaggle竞赛】

某人基因序列数据【Kaggle数据】

My Complete Genome: 6k Base-Pairs of Phenotype SNPs – Complete Raw Data – DNA 遗传基因序列原始数据

DGV
网址:http://dgv.tcag.ca/dgv/app/home
基因组变异数据库(Database of Genomic Variants, DGV)目的是提供人类染色体结构变异的概况信息,数据库记录了一系列基因变异与表型相关的信息,数据库信息持续更新中。

09 DECIPHER

网址:https://decipher.sanger.ac.uk/index
利用染色体组分资源建立人类染色体不平衡和表型数据库(Database of Chromosomal Imbalance and Phenotype in Humans using Ensemble Resources, DECIPHER)是目前分子遗传学中最重要的生物信息学数据库之一。用户可以通过检索数据库,发现一系列相关的遗传疾病信息,包括变异位点、临床表型等,提高临床诊断效能。DECIPHER数据库包含了超过200家研究中心上传的超过1万例的案例信息。

10 OMIM

网址:http://www.omim.org/
在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man, OMIM)是目前分子遗传学中最重要的生物信息学数据库之一。数据库持续更新,主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。

11 Comparative Toxicogenomics Database

网址:http://ctdbase.org/
比较基因组数据库(Comparative ToxicogenomicsDatabase, CTD)是一个强大的、公开可用的数据库,旨在提高人们对环境暴露如何影响人类健康的了解。它提供了关于化学基因/蛋白质相互作用、化学疾病和基因疾病关系的相关信息。这些数据与功能和路径数据相结合,以帮助验证关于环境影响疾病的机制假设。

网址:http://kmplot.com/analysis/

Kaplan MeierPlotter是一个包含5种癌症(乳腺癌、卵巢癌、肺癌、胃癌、肝癌)的mRNA表达谱芯片公共数据库,从中能够获得基因表达与疾病预后的信息。

转载:http://www.dxy.cn/bbs/topic/39055159?ppg=1

Github :哈佛 beamandrew机器学习和医学影像研究者-贡献的数据集https://github.com/beamandrew/medical-data

Academic torrents http://academictorrents.com/

Github :医学成像数据集 https://github.com/sfikas/medical-imaging-datasets

ISBI(生物医学成像国际研讨会) http://grand-challenge.org/All_Challenges/

数据下载链接:

http://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49

数据介绍:包含82个病例的胰腺数据集。

数据下载链接:http://medicaldecathlon.com/

数据介绍:282个训练病例,139个测试病例,同时分割胰腺和肿瘤,测试集label是hidden的。

数据下载链接:https://medpix.nlm.nih.gov/home

数据介绍:MedPix®是一个免费的开放式在线访问数据库,其中包含医学图像,教学案例和临床主题,集成了图像和文本元数据,包括12,000多个患者案例,9,000个主题和近59,000个图像。我们的主要目标受众包括医师和护士,专职医疗人员,医学生,护理生以及其他对医学知识感兴趣的人。内容材料按疾病位置(器官系统)组织;病理类别患者资料;以及通过图像分类和图像标题。该集合可按患者症状和体征,诊断,器官系统,图像形式和图像描述,关键字,特约作者和许多其他搜索选项进行搜索。

四、阿尔茨海默氏病神经影像数据
数据下载链接:http://adni.loni.usc.edu/data-samples/access-data/

数据介绍:阿尔茨海默氏病患者和健康对照的MRI数据库。还具有临床,基因组和生物制造商数据。
在这里插入图片描述

数据下载链接:

https://wiki.cancerimagingarchive.net/display/Public/CT+COLONOGRAPHY#dc149b9170f54aa29e88f1119e25ba3e

数据介绍:CT扫描诊断结肠癌。包括没有息肉,6-9mm息肉和大于10mm息肉的患者的数据。该系列中有825例带有XLS片的病例,提供了息肉描述及其在结肠段中的位置。
在这里插入图片描述

Ocular Disease Intelligent Recognition ODIR-5K

FIRE 视网膜眼底病变图像数据

用于视网膜提取的数字视网膜图像

数据下载链接:

https://www.isi.uu.nl/Research/Databases/DRIVE/download.php

数据介绍:用于视网膜图像中血管分割的比较研究,它由40张照片组成,其中7张显示出轻度早期糖尿病性视网膜病变的迹象
在这里插入图片描述
在这里插入图片描述

Eye
眼底图整理
眼底图像数据集整理(糖尿病视网膜病变/青光眼…)https://blog.csdn.net/qq_31622015/article/details/106653033
【医学影像系列三】青光眼诊断眼底图像数据集|代码|论文总结|结果汇总|名词解析|评价指标
https://blog.csdn.net/qq_31622015/article/details/109557628

OCT
光学相干断层扫描(OCT)和年龄相关性黄斑变性(AMD)https://www.kaggle.com/paultimothymooney/farsiu-2014

光学相干断层扫描(OCT)和糖尿病性黄斑水肿(DME)
https://www.kaggle.com/paultimothymooney/chiu-2015

年龄相关性黄斑变性(AMD)和糖尿病性黄斑水肿https://www.kaggle.com/paultimothymooney/kermany2018

dataset:https://data.mendeley.com/datasets/rscbjbr9sj/2

paper:https://www.cell.com/cell/fulltext/S0092-8674(18)30154-5#secsectitle0015

kaggle 2017 ,视网膜光学相干断层扫描(OCT)是一种成像技术,用于捕获活体患者视网膜的高分辨率横截面。

pytorch : https://www.kaggle.com/carloalbertobarbano/vgg16-transfer-learning-pytorch

http://www.adcis.net/en/third-party/messidor/

Messidor数据库包含数百个眼底图像,自2008年以来一直公开发布。它是由Messidor项目创建的,目的是评估自动病变分割和糖尿病视网膜病变分级方法。

图片格式:tif
TIF格式是一种压缩最小的图片处理格式,基本不损失图象信息,但其缺陷就是文件体积太大。

好多朋友问我这个,不知道为什么你们下不了 = =,这里下好了在下面
https://download.csdn.net/download/qq_31622015/13078201
https://download.csdn.net/download/qq_31622015/13078237
https://download.csdn.net/download/qq_31622015/13078210

DRIVE数据库用于对视网膜图像中的血管分割进行比较研究。它由40张照片组成,其中7张显示轻度早期糖尿病视网膜病变的迹象。

论文:https://ieeexplore.ieee.org/document/1282003
访问:http://www.isi.uu.nl/Research/Databases/DRIVE/download.php
https://drive.grand-challenge.org/DRIVE/

高分辨率视网膜图像,由临床医生按0-4严重等级注释,用于检测糖尿病视网膜病变。该数据集是完成的Kaggle竞赛 4 years ago 的一部分,该竞赛通常是公开数据集的重要来源。

https://www.kaggle.com/c/diabetic-retinopathy-detection

视网膜水肿 眼底病变数据集2018
视网膜水肿是一种常见的眼部病理改变,会导致不同程度的视力下降,从而影响正常的生活。尽早的发现水肿症状,能够对疾病的诊断和治疗起到重要的作用。如今临床上使用OCT(光学相干断层成像)辅助医生对视网膜水肿进行判断。我们提供了眼部OCT样本的图像数据集,由专业眼科医生分别对三种类型的水肿进行标注,数据量达到100个OCT体数据,每个体数据128张图片。

通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】

EGG 大脑电波形状数据【Kaggle数据】

人理解单词时大脑核磁共振影像数据

人识别物体时大脑核磁共振影像数据

EEG Brain Wave for Confusion 额叶波动的数据集

大脑MRI数据集

数据下载链接:http://www.oasis-brains.org/

数据介绍:OASIS影像研究开放获取系列(OASIS)是一个旨在向科学界免费提供大脑的MRI数据集的项目。有两个数据集:横截面和纵向集。年轻,中年,非痴呆和痴呆老年人的横断面MRI数据:此集合包括416名18至96岁的受试者的横断面集合。非痴呆和痴呆老年人的纵向MRI数据:该组纵向收集了150名年龄在60至96岁之间的受试者。两次或两次以上就诊时对每个受试者进行了扫描,相隔至少一年,共进行373次成像。
在这里插入图片描述

Isic Archive(黑色素瘤)

数据下载链接:

https://github.com/GalAvineri/ISIC-Archive-Downloader

数据介绍:该档案库包含分类皮肤损伤的23k图像。它包含了恶性和良性的例子。每个示例均包含病变的图像,有关病变的元数据(包括分类和分割)以及有关患者的元数据。
在这里插入图片描述
2. SIIM-ISIC Melanoma Classification皮肤
SIIM-ISIC Melanoma Classification数据库
名称	标注内容	类型	模态	数量	标签格式	文件格式
SIIM-ISIC Melanoma Classification	皮肤癌病变类别	分类	皮肤镜	88.3K张图片	类别	dicom

目前最大的皮肤镜图像集合,用来在皮肤病变图像中之别黑色素瘤,图片以DICOM格式提供,同时包含图像元数据,有的图像也以JPEG和TFRecord格式提供,TFRecords格式的图像已被调整为统一的1024x1024

心脏病心房图像及标注数据

####、心脏数据
Sunnybrook Cardiac Data – 2009 年心脏 MR 左心室分割挑战数据
在这里插入图片描述

数据下载链接:
http://www.cardiacatlas.org/studies/amrg-cardiac-atlas/

数据介绍:奥克兰MRI研究小组的Siemens Avanto扫描仪采集的正常患者心脏的完整带标签MRI图像集。

数据下载链接:http://www.cardiacatlas.org/studies/

数据介绍:Sunnybrook心脏数据(SCD)也称为2009心脏MR左心室分割挑战数据,由来自以下患者和病理混合的45幅cine-MRI图像组成:健康,肥大,伴有梗塞和心脏的心力衰竭
在这里插入图片描述

数据下载链接:
https://data.gov.uk/dataset/f13fbd0e-fc8a-4d42-82ef-d40f930e4b70/congenital-heart-disease-chd
数据介绍:先天性心脏病(CHD)图集代表来自患有各种先天性心脏病的成年人和儿童的MRI数据集,生理临床数据和计算机模型

从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】

医疗CT影像、年龄和对比标注数据【Kaggle竞赛】

癌症CT影像数据【Kaggle数据】

object-CXR - Automatic detection of foreign objects on chest X-rays

LNDb CT scan dataset (training)

Indiana University - Chest X-Rays

Chest X-Ray Images

TCIA RIDER NEURO 癌症MRI影像数据

TCIA-TCGA-OV 癌症CT影像数据

TCGA-COAD癌症CT影像数据

Lung Phantom 癌症 CT 影像数据集

TCIA-QIN-LUNG 肺癌 CT 影像数据集

RIDER Lung CT 肺癌CT影像

TCGA-LUAD 肺癌CT图像数据

Data Science Bowl 2017 肺癌识别数据

COVID-19 image dataset collection (volumes folder) March 30th 2020

Parkinson Classification 帕金森鉴别数据集

数据下载链接:

https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI#

数据介绍:肺图像数据库联合会图像收集(LIDC-IDRI)包括诊断性和肺癌筛查性胸部X线断层扫描(CT)扫描,并标明带注释的病变。它是可通过网络访问的国际资源,用于开发,培训和评估用于肺癌检测和诊断的计算机辅助诊断(CAD)方法。由美国国立癌症研究所(NCI)发起,并由美国国立卫生研究院(FNIH)基金会进一步推动,并在食品药品监督管理局(FDA)的积极参与下,这种公私合作伙伴关系证明了一项成功的研究成果。
在这里插入图片描述

Breast Ultrasound Images Dataset (Dataset BUSI)

RIDER Breast 乳腺癌 MRI 影像数据

QIN Beast 乳腺癌MRI影像数据

INbreast:数字化乳腺摄影数据库
数据库下载链接:
http://medicalresearch.inescporto.pt/breastresearch/index.php/Get_INbreast_Database

数据库介绍:INbreast数据库是一个乳腺摄影数据库,其中的图像是从位于大学医院(葡萄牙波尔图的乳腺癌中心,圣若昂医院)的乳腺癌中心获取的。INbreast共有115例(410幅图像),其中90例来自双乳女性(每例4幅图像),而25例来自乳房切除术患者(每例2幅图像)。包括几种类型的病变(肿块,钙化,不对称和变形)。专家还以XML格式提供了精确的轮廓。

SPIE-AAPM-NCI PROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数据)

SPIE-AAPM-NCI PROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度数据)

CaP前列腺癌数据集

数据下载链接:
http://www.ehealthlab.cs.ucy.ac.cy/index.php/facilities/32-software/218-datasets
数据介绍:

1、图像格式:关于数据集的某些技术方面,T2-W MRI,DCE MRI和DWI MRI,ADC将以DICOM格式交付。

2、关于MRSI数据将以RDA(西门子)或DICOM(GE)格式提供。

3、以DICOM格式提供每种形式的所有地面真实图像。

Ground Truth:

对于每种方式,都提供了一组Ground Truth。GT由四个不同类别组成:(i)前列腺,(ii)边缘区(PZ),(iii)中央腺体(CG),(iv)CaP。

十五、SCR数据库(胸部X光片中的分割)
数据下载链接:http://www.isi.uu.nl/Research/Databases/SCR/

数据介绍:所有胸部X光片均取自JSRT数据库,这是一个公开可用的数据库,其中包含247张PA胸片。在每幅图像中,都对肺野,心脏和锁骨进行了手动分割,以提供参考标准。

other

人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】

MURA 骨头X光数据集
MRNet-v1.0
google搜素MRNet申请,数据集会发到邮箱里

手术
CAMMA(医学活动的计算分析和建模)http://camma.u-strasbg.fr/

https://endovis.grand-challenge.org/endoscopic_vision_challenge/

HealthData.gov:来自美国联邦政府的数据集,旨在改善美国人口的健康状况。

大城市健康清单数据平台:来自26个城市的健康数据,包括34个健康指标,涵盖6个人口指标。

慢性病数据:美国各地慢性病指标数据。

人类死亡率数据库:超过35个国家的死亡率和人口数据。

MHealth(移动健康)数据集:在进行体育活动时,为10名不同形象的志愿者提供身体动作和生命体征记录。

医疗保险提供者使用和支付数据:医生和其他医疗保健专业人员向Medicare受益人提供的服务和程序数据。

生命科学数据库档案:日本生命科学家在长期稳定的国家公共产品中产生的数据集。存档使许多人可以更轻松地按统一格式按元数据搜索数据集,并使用明确的使用条款访问和下载数据集。

OASIS:开放获取系列成像研究(OASIS)是一个旨在使科学界免费获得大脑神经成像数据集的项目。他们编译并自由分发神经影像数据集,希望有助于未来在基础和临床神经科学方面的发现。

OpenfMRI:磁共振成像(MRI)数据集可供研究界公开使用。

ADNI:阿尔茨海默病神经影像学倡议(ADNI)研究人员从志愿者研究参与者那里收集了几种类型的数据。数据可免费提供给授权的调查员,但需要申请并事先批准。

GEO数据集:该数据库存储策划的基因表达数据集,以及基因表达综合(GEO)存储库中的原始系列和平台记录。

1000基因组计划:1000基因组项目是一项国际合作,已经建立了最详细的人类遗传变异目录。该项目的最后阶段对来自全球26个不同人群的2,500多人进行了测序。

瓶中基因组:数据集包括几个参考基因组,以便将整个人类基因组测序翻译成临床实践。

Medicare医院质量:医疗保险和医疗补助服务中心提供的Medicare.gov 医院比较网站上使用的官方数据集。这些数据使您可以比较全国4,000多家Medicare认证医院的护理质量。

医疗成本和利用项目(HCUP):数据集包含美国医院中不耐烦住院,急诊就诊和门诊手术的遭遇级信息。

MIMIC-III 临床监护数据

MIMIC重症监护数据库:MIMIC是由麻省理工学院计算生理学实验室开发的一个公开可用的数据集,包括与大约40,000名重症监护患者相关的未识别健康数据。数据集包括人口统计学,生命体征,实验室测试,药物等。

SEER癌症发病率:由美国政府提供的有关癌症发病率的数据,按年龄,种族和性别等人口统计群体划分。

BROAD Institute癌症项目数据集:按脑癌,白血病,黑色素瘤等项目分类的数据。

2020

今天上海交大的研究学者发文 MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis ,公布了其收集整理的10个医学领域的图像数据集MedMNIST,旨在促进AutoML(自动机器学习)在医学领域的技术研究。
项目主页:
https://medmnist.github.io/
论文地址:
https://arxiv.org/abs/2010.14925
Demo代码地址:
https://github.com/MedMNIST/MedMNIST

CelebA 人脸属性数据集

CACD 跨年龄人脸识别和检索数据集

Twitch Emotes Images Dataset

Deep Learning Face Attributes in the Wild

Illinois DOC labeled faces dataset

Vggface2: A dataset for recognising faces across pose and age

Caltech 10k Web Faces 面部图像数据集

FDDB 面部区域数据集

MUCT人脸数据库

PubFig 人脸数据集

IMDB-WIKI 人脸数据库

UMD Faces 面部数据集

UDM Faces 人脸数据集

IJB-B NIST 人脸数据集

WIDER 人脸数据集

LS3D-W 人脸对齐 2D / 3D 数据集

Caltech 10k Web Faces 人脸图像数据

VGG Face 人脸图像数据

CelebA 名人人脸图像数据

Faces in the Wild 人脸数据

NIST Mugshot Identification Database

FDDB_Face Detection Data Set and Benchmark

CMU Frontal Face Images

BioID Face 人脸数据

300 Face in Wild 图像数据

DC-IGN 论文人脸数据

Bao Face 人脸数据

Extended Yale Face Database B 人脸数据

Labeled Faces in the Wild 人脸数据

IMDB-WIKI 500k+ 人脸图像、年龄性别数据

人脸关键点标定竞赛数据【Kaggle竞赛】

人脸关键点标定竞赛数据【Kaggle竞赛】

UCF-QNRF 大规模人群计数数据集

Youtube face 人脸视频数据

NIST FIGS 指纹识别数据
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

HMDB_a large human motion database

Human Actions and Scenes Dataset

Buffy Stickmen V3 人体轮廓识别图像数据

Human Pose Evaluator 人体轮廓识别图像数据

Buffy pose 人类姿势图像数据

VGG Human Pose Estimation 姿势图像标注数据

MPII Human Shape人体轮廓数据

Biwi Kinect Head Pose 头部姿势数据

上半身人像数据 INRIA Person 数据集

HICO-DET 人物检测和动作识别数据集

MADS 人体动作数据集

MPII 人体姿势估计数据集

LSP (Leeds Sports Pose) 人体姿态估计数据集

FLIC 影视人体检测数据集

MPII Human Pose Dataset

CMU Hand 手势数据集

Microsoft Research Action 人类动作视频数据

UCF50 Action Recognition 动作识别数据

UCF101 Action Recognition 动作识别数据

UT-Interaction 人类动作视频数据

UCF YouTube 人类动作视频数据

细胞病理识别

软组织肉瘤CT图像数据【Kaggle数据】

Ocular Disease Intelligent Recognition ODIR-5K

The PatchCamelyon benchmark dataset (PCAM)

PDB 蛋白质结构数据集(全球版)

食物营养成分数据 【Kaggle数据】

上述内容,如有侵犯版权,请联系作者,会自行删文。

有话要说...