知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > ICGC >

SNP突變數據整理perl腳本ICGC數據庫

時間:2019-07-30 11:26來源:生信自學網 作者:樂偉 點擊:
從ICGC數據庫下載了SNP數據之后,我們需要提取我們需要的數據,整理成突變數據矩陣
得到突變數據之后,數據里面含有病人ID、實驗ID等信息,還有我們非常關注的突變影響的基因,原始下載的是ensembl ID,我們希望把ensembl ID轉換為我們常見的gene symbol,以便做后續的分析。

這一步操作,需要實現兩個目的,一個是刪除沒有發生氨基酸改變的突變;一個是ensembl ID轉換為gene symbol。操作用到的是perl腳本,腳本是我們生信自學網原創的Perl腳本。

my $gtfFile="human.gtf";
my $outFile="mutation.ann.txt";
my $snpFile=$ARGV[0];
chomp($snpFile);

my %ensemblHash=();
open(RF,"$gtfFile") or die $!;
while(my $line=<RF>)
{
	chomp($line);
	if($line=~/gene_id \"(.+?)\"\;.+gene_name "(.+?)"\;.+gene_biotype \"(.+?)\"\;/)
	{
		      my $ensembl=$1;
		      my $symbol=$2;
		      my $biotype=$3; 
		      $ensemblHash{$ensembl}=$symbol;
	}
...
...
獲取源碼請聯系微信:18520221056
或者購買生信自學網課程:
接下需要把突變矩陣提取出來,突變矩陣行名是gene,列名是實驗ID和樣本ID結合,數據就是突變信息。同時我們也希望知道每個基因在樣本突變的頻率,也就是在分析的時候,需要做一下統計分析。

在統計基因突變的表格里,我們看到了幾個常見的突變基因,比如TP53,說明生信分析的結果是有研究價值的,也符合已發表的文獻和報導。

use strict;
use warnings;

my $file="mutation.ann.txt";
my %hash=();
my @sampleArr=();
my %sampleHash=();
my $gene="all";
my %fieldHash=();
	
open(RF,"$file") or die $!;
while(my $line=<RF>){
		next if($line=~/^\n/);
		chomp($line);
		my @arr=split(/\t/,$line);
		if($.==1){
				for(my $i=0;$i<=$#arr;$i++){
							$fieldHash{$arr[$i]}=$i;
				}
				next;
...
...
獲取源碼請聯系微信:18520221056
購買課程獲取源碼

購買ICGC數據庫挖掘新課程:
《ICGC數據庫挖掘SNP突變數據》

責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
加生信自學網群
BioWolf二維碼生成器
頂一下
(1)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
TCGA腫瘤微環境
推薦內容
單基因發文套路
m6A