多码网
返回 AI
AI

Awesome bioie

什么是 BioIE? 它包括从_非结构化_(或至少结构不一致的)生物、临床或其他生物医学数据中提取结构化信息的任何努力. 数据源通常是一些用技术语言编写的文本文档的集合. 如果由此产生的信息是可验​​证的并且跨来源是一致的,那么我们可以将其视为_知识_. 从生物数据中提取信息和产生知识需要适应为其他类型的非结构化数据开发的方法.

Awesome bioie

Awesome BioIE Logo
Awesome
如何从非结构化生物医学数据和文本中提取信息.

什么是 BioIE? 它包括从_非结构化_(或至少结构不一致的)生物、临床或其他生物医学数据中提取结构化信息的任何努力. 数据源通常是一些用技术语言编写的文本文档的集合. 如果由此产生的信息是可验​​证的并且跨来源是一致的,那么我们可以将其视为_知识_. 从生物数据中提取信息和产生知识需要适应为其他类型的非结构化数据开发的方法.

此处包含的资源优先是那些无需货币成本和有限许可要求即可获得的资源. 方法和数据集应可公开访问并积极维护.

也可以看看 awesome-nlp, awesome-biologyAwesome-Bioinformatics.

请阅读 contribution guidelines 在贡献之前. 请通过提出一个添加您喜欢的资源 pull request.

Research Overviews

Groups Active in the Field

Organizations

  • AMIA - 许多(但肯定不是全部)研究生物医学信息学的人都是美国医学信息学协会的成员. AMIA 出版期刊 JAMIA(见下文).
  • IMIA - 国际医学信息学协会. 出版 IMIA 医学信息学年鉴.

Journals and Events

BioIE 的跨学科性质意味着该领域的研究人员可以通过多种方式分享他们的发现和工具. 他们可能会在期刊上发表论文,这在生物医学和生命科学领域很常见. 他们可以发表会议论文,并在被接受后,在活动中进行海报和/或口头陈述; 这是计算机科学和工程领域的常见做法. 会议论文通常以会议论文集的形式发表. 预印本出版也是一种越来越流行和被机构接受的发表研究结果的方式. 围绕这些正式的书面产品的是 open science、开放数据和开放源代码:BioIE 研究人员开发的代码、数据和软件是社区的宝贵资源.

Journals

对于预印本,请尝试 arXiv,尤其是计算与语言 (cs.CL) 和信息检索 (cs.IR) 科目; bioRxiv ; 或者 medRxiv,尤其是健康信息学学科领域.

  • Database - 它的副标题是“生物数据库和管理杂志”. 开放访问.
  • NAR - 核酸研究. 具有广泛的生物分子重点,但特别值得注意的是其年度数据库问题.
  • JAMIA - 美国医学信息学协会杂志. 关注“临床护理、临床研究、转化科学、实施科学、成像、教育、消费者健康、公共卫生和政策领域的文章”.
  • JBI - 生物医学信息学杂志. 默认情况下不开放访问,尽管它确实有一个开放访问的“X”版本.
  • Scientific Data - 一份开放获取的 Springer Nature 期刊,出版“具有科学价值的数据集的描述,以及促进科学数据共享和重用的研究”.

Conferences and Other Events

  • ACM-BCB - 关于生物信息学、计算生物学和健康信息学的 ACM 会议. 自2010年起每年举办一次.
  • BIBM - IEEE 生物信息学和生物医学国际会议.
  • PSB - 太平洋生物计算研讨会.

Challenges

BioIE 中的一些活动是围绕正式任务和挑战组织的,在这些任务和挑战中,小组根据给定的数据集开发自己的计算解决方案.

Tutorials

该领域的变化非常快,以至于几年前的教程都缺少关键细节. 下面列出了一些最近的教育资源. 对文本挖掘技术有良好的基础理解非常有帮助,对 Python 和/或 R 语言有一些基本经验也是如此. 从 NLTK tutorials 然后试用教程 Flair framework 将提供自然语言处理、文本挖掘和现代机器学习驱动方法的优秀示例,全部使用 Python. 但是,大多数示例不包含任何生物医学内容,因此最好的选择可能是边做边学.

Guides

Video Lectures and Online Courses

Code Libraries

  • Biopython - paper - code - 主要用于生物信息学和计算分子生物学目的的 Python 工具,也是一种获取数据的便捷方式,包括来自 PubMed 的文档/摘要(参见文档的第 9 章).
  • Bio-SCoRes - paper - 生物医学共指解析框架.
  • medaCy - 用于构建预测医学自然语言处理模型的系统. 建立在 spaCy 框架.
  • ScispaCy - paper - 的一个版本 spaCy 科学和生物医学文件的框架.
  • rentrez - 用于访问 NCBI 资源的 R 实用程序,包括 PubMed.
  • Med7 - paper - code - 用于使用药物相关概念进行 NER 的 Python 包和模型(用于 spaCy).

Repos for Specific Datasets

  • mimic-code - 与 MIMIC-III 数据集相关的代码(见下文). 包括一些有帮助 tutorials.

Tools, Platforms, and Services

  • cTAKES - paper - code - 处理电子病历文本的系统. 广泛使用和开源.
  • CLAMP - paper - 旨在与临床报告中的文本一起使用的自然语言处理工具包. 看看他们 live demo 首先看看它做了什么. 可免费用于学术研究.
  • DeepPhe - 用于处理描述癌症表现的文档的系统. 基于 cTAKES(见上文).
  • DNorm - paper - 一种疾病规范化方法,即,将提及的疾病名称和首字母缩略词与唯一的概念标识符联系起来. 可下载版本包括 NCBI 疾病语料库和 BC5CDR(参见下面的注释文本数据).
  • PubTator Central - paper - 一个网络平台,可识别 PubMed 文章和 PubMed Central 全文中的五种不同类型的生物医学概念. 完整的注释集是可下载的(见 Annotated Text Data 以下).
  • Pubrunner - A framework for running text mining tools on the newest set(s) of documents from PubMed.
  • SemEHR - paper - 用于电子健康记录 (EHR) 的 IE 基础设施. 建立在 CogStack project.
  • TaggerOne - paper - 执行概念规范化(另见上面的 DNorm). 可以针对特定概念类型进行训练,并且可以独立于其他规范化功能执行 NER.
  • TabInOut - paper - 来自文献中表格的 IE 框架.

Annotation Tools

  • Anafora - paper - 具有裁决和进度跟踪功能的注释工具.
  • brat - paper - code - The brat rapid annotation tool. Supports producing text annotations visually, through the browser. Not subject specific; appropriate for many annotation projects. Visualization is based on that of the stav tool.
  • MedTator - paper - code - 旨在具有最小依赖性的注释工具.

Techniques

Text Embeddings

This paper from Hongfang Liu's group at Mayo Clinic 演示了在生物医学或临床文本上训练的文本嵌入如何能够(但并不总是)在生物医学自然语言处理任务上表现更好. 话虽这么说,预训练嵌入可能适合您的需求,尤其是训练特定领域的嵌入可能需要大量计算.

Word Embeddings

  • BioASQword2vec - paper - 使用流行的从生物医学文本(> 1000 万 PubMed 摘要)派生的 Qord 嵌入 word2vec 工具.
  • BioWordVec - paper - code - 源自生物医学文本(> 2700 万 PubMed 标题和摘要)的词嵌入,包括基于 MeSH 的子词嵌入模型.

Language Models

BERT models

GPT models

  • BioGPT - paper - 在 1500 万份 PubMed 摘要上预训练的 GPT-2 模型,以及针对多项生物医学任务的微调版本.

Other models

  • Flair embeddings from PubMed - 通过 Flair 框架和嵌入方法可用的语言模型. 截至 2015 年,培训了超过 5% 的 PubMed 摘要样本,或总共超过 120 万份摘要.

Datasets

下面列出的一些数据集需要 UMLS Terminology Services (UTS) account 访问. 请注意,授予 UTS 帐户的许可证要求用户提交有关他们使用 UMLS 资源的年度报告. 这不像听起来那么具有挑战性.

Biomedical Text Sources

以下资源包含生物医学科学中的索引文本文档. * OHSUMED - paper - 1987 年至 1991 年间的 348,566 个 MEDLINE 条目(标题和有时是摘要).包括 MeSH 标签. 主要是具有历史意义. * PubMed Central Open Access Subset - 一组 PubMed Central 文章可在传统版权以外的许可下使用,但确切的许可因出版物和来源而异. 文章以 PDF 和 XML 格式提供. * CORD-19 - 关于 COVID-19 的学术手稿语料库. 文章主要来自 PubMed Central 和预印本服务器,尽管该集合还包括没有全文可用性的论文元数据.

Annotated Text Data

  • SPL-ADR-200db - paper - 包含标准化信息和文本注释的试点数据集,约 200 种 FDA 批准药物的约 5,000 种已知不良反应.
  • BioCreAtIvE 1 - paper - 15,000 个句子(10,000 个训练和 5,000 个测试)注释了蛋白质和基因名称. 1,000 篇全文生物医学研究文章,注释有蛋白质名称和基因本体术语.
  • BioCreAtIvE 2 - paper - 15,000 个句子(10,000 个训练和 5,000 个测试,与第一个语料库不同)注释了蛋白质和基因名称. 542 个摘要链接到 EntrezGene 标识符. 各种研究文章注释了蛋白质-蛋白质相互作用的特征.
  • BioCreAtIvE V CDR Task Corpus (BC5CDR) - paper - 2014 年或之后发表的 1,500 篇文章(标题和摘要),注释了 4,409 种化学物质、5,818 种疾病和 3116 种化学-疾病相互作用. 需要注册.
  • BioCreative VI CHEMPROT Corpus - paper - >2,400 篇文章注释了各种关系类型的化学-蛋白质相互作用. 需要注册.
  • CRAFT - paper - 67 篇以各种方式注释的生物医学全文文章,包括概念和引用. 现在是第 5 版,包括将概念链接到 MONDO 疾病本体的注释.
  • n2c2 (formerly i2b2) Data - 哈佛医学院生物医学信息学系 (DBMI) 管理自 2006 年以来运行的国家 NLP 临床挑战和整合生物学信息学和床边挑战的数据.它们需要注册才能访问和使用. 数据集包括各种主题. 见 list of data challenges 用于个别说明.
  • NCBI Disease Corpus - paper - 一个包含 793 个生物医学摘要的语料库,其中注释了疾病名称和相关概念,来自 MeSH 和 OMIM.
  • PubTator Central datasets - paper - 可通过 RESTful API 或 FTP 下载访问. 包括超过 2900 万份摘要和约 300 万份全文文档的注释.
  • Word Sense Disambiguation (WSD) - paper - 203 个歧义词和 37,888 个自动提取的生物医学研究出版物中使用它们的实例. 需要UTS账户.
  • Clinical Questions Collection - 也称为 CQC 或爱荷华州收集,这些是医生在办公室访问期间提出的数千个问题以及相关的答案.
  • BioNLP ST 2013 datasets - 来自六个共享任务的数据,尽管有些可能不容易访问; 尝试使用 CG 任务集 (BioNLP2013CG) 进行广泛的实体和事件注释.
  • BioScope - paper - 来自医学和生物文件的句子语料库,注释否定、推测和语言范围.
  • BioRED - paper - 一组超过 6.5K 的生物医学关系注释,以及新发现的标签.

Protein-protein Interaction Annotated Corpora

蛋白质-蛋白质相互作用缩写为 PPI. 以下套装可在 BioC format . 旧套件(AIMed、BioInfer、HPRD50、IEPA 和 LLL)可由 WBI corpora repository 最初是从原始集派生 group at Turku University.

  • AIMed - paper - 为 PPI 注释的 225 个 MEDLINE 摘要.
  • BioC-BioGRID - paper - 120 篇带 PPI 和遗传相互作用注释的全文文章. 用于 BioCreative V BioC 任务.
  • BioInfer - paper - 1,100 个来自生物医学研究摘要的句子,注释了关系(包括 PPI)、命名实体和句法依赖性. Additional information and download links are here.
  • HPRD50 - paper - 人类蛋白质参考数据库引用的 50 篇科学摘要,为 PPI 注释.
  • IEPA - paper - 来自生物医学研究摘要的 486 个句子,注释了成对的共生化学物质,包括蛋白质(因此,PPI 注释).
  • LLL - paper - 来自关于细菌_枯草芽孢杆菌_的研究文章的 77 句话,注释了蛋白质-基因相互作用(因此,非常接近 PPI 注释). Additional information is here.

Other Datasets

  • Columbia Open Health Data - paper - 从电子健康记录中提取的条件、药物、程序和患者人口统计数据的流行和共现频率的数据库. 不包括原始记录文本.
  • Comparative Toxicogenomics Database - paper - 化学品、基因产物、表型、疾病和环境暴露之间的人工关联数据库. 用于组装相关概念的本体,例如化学品的类型.
  • MIMIC-III - paper - 来自约 60,000 名重症监护病房入院者的去识别化健康数据. 需要完成在线培训课程(CITI 培训)并在使用前接受数据使用协议.
  • MIMIC-IV - 对 MIMIC-III 多模式患者数据的更新,现在涵盖了最近几年的入院情况,以及新的数据结构、急诊科记录和 MIMIC-CXR 图像的链接.
  • eICU Collaborative Research Database - paper - 来自超过 20 万重症监护病房入院观察的数据库,具有一致的结构. 需要注册、完成培训课程和数据使用协议.

Ontologies and Controlled Vocabularies

  • Disease Ontology - paper - 人类疾病的本体论. 与 MeSH、ICD、NCI 叙词表、SNOMED 和 OMIM 有交叉链接. 公共区域. 可用时间 GitHub 并在 OBO Foundry.
  • RxNorm - paper - 临床药物和药物包装的标准化名称,具有组合的成分、强度和形式,以及来自语义网络的指定类型(见下文). 每月发布.
  • SPECIALIST Lexicon - paper - 包含许多生物医学术语的通用英语词典. 自 1994 年以来每年更新一次,截至 2019 年仍在更新.是 UMLS 的一部分,但不需要 UTS 帐户即可下载.
  • UMLS Metathesaurus - paper - 超过 380 万个概念、1400 万个概念名称和超过 200 个生物医学词汇和标识符来源之间的映射. 它很大. 它可能有助于准备 Metathesaurus 的一个子集 MetamorphoSys installation tool 但我们仍在谈论 2019 版本所需的约 30 Gb 磁盘空间. See the manual here . 需要UTS账户.
  • UMLS Semantic Network - paper - 涵盖生物医学概念和词汇的 133 种语义类型和 54 种语义关系列表. Metathesaurus 是否太复杂,无法满足您的需求? 尝试这个. 不需要 UTS 帐户即可下载.

Data Models

你需要一个 data model ? 如果您正在处理生物医学数据,那么答案可能是“是”.

Credits

Credits 对于策展人和消息来源.

License

CC0

License

相关项目