BioBERT: a pre-trained biomedical language representation model for biomedical text mining
在bert-base上继续训练,使用pubmed文章和摘要等数据。
8卡,98304 per iteration,mini-batch 192,训练时间23天
下游任务微调,batch size 10,16,32,64;learning rate 5e-5, 3e-5, 13-5
有很多版本,使用transformers库轻松验证,和相应脚本在基础上再进行预训练。
数据量:通过github下载验证,大约5亿+,需要自己处理next sentence预测任务
Conceptualized Representation Learning for Chinese Biomedical Text Mining
alibaba训练的中文MC-bert
两种,masking技术,消融实验也分析是有用的。但是whole span mask会存在一些误差(mask短语,短路提取和生物医学领域判断回造成误差)。
训练了100k step, 学习率:1e-5, 没有使用lr warmup,作者说会导致灾难遗忘。
训练数据20M+
Publicly Available Clinical BERT Embeddings
使用MIMIC-III v1.4 database临床文本,200万
Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction
使用数据Cerner Health Facts (general EHR) 需要申请 https://business.okstate.edu/chsi/data-requests.html
提供了可视化工具演示电子病历中的依赖语义,增加可解释性。
暂时不需要,有时间再看。