数据分析
-
数据分析
1、测序碱基错误率评估
测序错误率决定碱基质量,受测序仪本身、测序试剂、样品等多因素影响,原始测序序列raw reads含有带接头的reads及低质量的reads。为了保证信息分析准确,需对原始序列进行筛选,得到clean reads。
2、GCAT含量分布
GC含量分布检查用于检测有无AT、GC分离现象,该现象可能是测序或者建库所引起。对于DGE测序来说,会导致reads前6-7个碱基有较大的波动,属于正常情况。
3、序列基因组比对
统计比对到基因组各个染色体的reads密度,从密度分布图中,可以更加直观看出样本中转录本在个染色体不同区域的基因的表达情况。
4、IGV可视化
采用IGV软件对基因组上比对序列文件可视化,可直观查看染色体、基因上具体序列细节。
5、相关性分析
样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高
6、主成分分析
主成分分析用于评估生物重复及处理条件间的整体差异。将多个变量通过线性变换以选出较少个数重要变量,进而评估实验设计的合理性。
7、火山图
火山图用于直观展示两组实验中,基因表达量的上调、下调情况。
8、差异基因聚类热图
将表达模式相同或相近的基因进行聚类分析,进而识别未知基因的功能或已知基因的未知功能;这些同类的基因可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。
9、趋势分析
趋势分析,将不同时间点或状态点的基因表达值进行聚类,通过计算基因落入时间表达谱或状态表达谱的显著水平,识别显著性的变化趋势表达谱和与这些变化趋势相关的基因。
10、差异基因GO富集
对差异基因进行GO富集,直观的反映出在生物过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)富集的GO term上差异基因的个数分布情况。
11、GO有向无环图
DAG有向无环图展现富集到的GO术语之间的关系。
12、差异基因PATHWAY富集
将差异基因进行PATHWAY富集,对得到通路注准差异基因信息,上调基因的KO节点标红色,下调基因的KO节点标绿色。
13、蛋白互作网络
在数据库中获得差异基因表达蛋白之间的关系,进行蛋白互作网络的分析。
14、基因共表达网络分析
基因共表达网络分析(Gene Co-expression Network Analysis)是根据基因在不同样本中的表达量的变化,将表达模式相似的基因进行聚类,从而得到不同的module(cluster)及其相互关系。
15、火山图
此火山图用于直观展示两组实验中,lncRNA表达量的上调、下调情况。
16、差异lncRNA聚类热图
将表达模式相同或相近的lncRNA进行聚类分析,进而识别未知lncRNA的功能或已知lncRNA的未知功能;这些同类的lncRNA可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。
17、趋势分析
趋势分析,将不同时间点或状态点的lncRNA表达值进行聚类,通过计算lncRNA落入时间表达谱或状态表达谱的显著水平,识别显著性的变化趋势表达谱和与这些变化趋势相关的lncRNA。
18、novel lncRNA鉴定
多种算法鉴定得到的lncRNA数量Venn图。
19、序列保守性分析
对lncRNA的序列进行保守性分析。
20、位点保守性分析
对lncRNA的序列中的位点进行保守性分析。
21、SNP、InDel分析
SNP是基因组上由单个核苷酸变异形成的遗传标记,InDel是样本中发生的小片段的插入缺失,此图展示的是SNP与InDel在基因组上分布密度。
22、可变剪切分析
mRNA前体经不同的剪接方式或选择不同的剪接位点将产生多种mRNA剪切异构体,可变剪切是调节基因表达和蛋白质多样性的重要机制。
23、融合基因分析
mRNA在转录后会发生基因融合现象,产生融合蛋白,对机体的正常代谢产生影响,许多疾病与基因融合有关。
以上分析皆为标准分析,生因生物可根据具体项目、具体需求提供个性化分析。