NCBI使用指南

什么是NCBI？

美国国家生物技术信息中心（ National Center for Biotechnology Information，NCBI ）

National Center for Biotechnology Information (nih.gov)

https://www.ncbi.nlm.nih.gov/

从网址上可以看出来它属于美国国立卫生研究院National Institutes of health（NIH）下属的美国国家医学图书馆National Library of Medicine（nlm）。

NCBI设置有与生物技术和生物医学相关的一系列数据库，是生物信息学工具和服务的重要资源。主要数据库包括DNA序列GenBank (nih.gov)，和生物医学文献书目数据库PubMed (nih.gov)。其他数据库包括NCBI表观基因组数据库。所有这些数据库都可以通过Entrez搜索引擎在线获取。

NCBI怎么用呢？

要了解怎么用首先要看下NCBI的主页

NCBI主页能多年不变，证明了其首页功能的合理性。

NCBI主页主要常用的就是红线画的板块

How To|如果你有任何不会用的都可以去这里搜索教程。
搜索栏|你能搜索NCBI中的各种数据库
中间部分|提交、下载、学习、开发、分析、研究数据
左边快捷栏|你能看到NCBI所有资源目录
右边热门资源|你能快速使用NCBI的热门资源

常用数据库

当你只有一段DNA、RNA、蛋白序列的时候，你想知道它是什么，这时候BLAST: Basic Local Alignment Search Tool (nih.gov)就是一个很好的工具

BLAST（Basic Local Alignment Search Tool）能够快速比较核酸或蛋白质之间的相似性

帮助你快速找到相似的基因或者蛋白。

对于单核苷酸多态性（SNP）Home - SNP - NCBI (nih.gov)你能快速搜索到SNP位点

GenBank是NIH基因序列数据库，是所有公开可用的DNA序列的注释集合

GenBank是国际核苷酸序列数据库协作的一部分，该协作包括DNA DataBank of Japan（DDBJ），European Nucleotide Archive（ENA）和NCBI的GenBank。这三个组织每天交换数据。

你能够在GenBank上上传和下载各种基因序列

Assembly提供有关组装基因组结构、组装名称和其他元数据、统计报告以及基因组序列数据链接的信息。你能得到各种物种的参考基因组。

RefSeq提供了一组全面、集成、非冗余、注释良好的序列，包括基因组DNA、转录本和蛋白质。RefSeq 序列构成了医学、功能和多样性研究的基础。它们为基因组注释、基因鉴定和表征、突变和多态性分析、表达研究和比较分析提供了稳定的参考。

Conserved Domains)保守域数据库是用于注释蛋白质中功能单元的资源。其域模型集合包括由NCBI构建的一组，该数据库利用3D结构来提供对序列/结构/功能关系的解释。

Structure三维结构提供了有关大分子的生物学功能和进化历史的丰富信息。它们可用于检查序列-结构-函数关系、相互作用、活动位点等。

Gene整合了来自各种物种的信息。记录可能包括命名法、参考序列（RefSeqs）、图谱、通路、变异、表型以及与全球基因组、表型和位点特异性资源的链接。

GEO(Gene Expression Omnibus)GEO 是一个公共功能基因组学数据存储库，接受基于数组和序列的数据。提供的工具可帮助用户查询和下载实验和精选的基因表达谱。

Protein蛋白质数据库是来自多个来源的序列的集合，包括来自GenBank，RefSeq和TPA中注释编码区域的翻译，以及来自SwissProt，PIR，PRF和PDB的记录。蛋白质序列是生物结构和功能的基本决定因素。

ClinVar一个可搜索的基因数据库，专注于已经完全测序的基因组，并且有一个活跃的研究社区来贡献基因特异性数据。信息包括命名法、染色体定位、基因产物及其属性（例如，蛋白质相互作用）、相关标记、表型、相互作用以及与引文、序列、变异细节、图谱、表达报告、同源物、蛋白质结构域内容和外部数据库的链接。

ClinVar汇总了来自SNOMED CT，GeneReviews，Genetic Home Reference，Office of Rare Diseases，MeSH和OMIM®等来源的具有遗传基础的医疗条件的名称。

ClinVar还汇总了来自Human Phenotype Ontology（HPO），OMIM和其他来源的相关特征的描述。跟踪每个信息源，并可用于查询。