2个表之间的高级别数据匹配
我是R的新手,我需要解决此问题的建议: 我有2个表.表的开始如下: 表1: SNP Gene Pval Best_SNP Best_Pval rs2932538 ENSG00000007341 5.6007 rs10488631 ENSG00000064419 7.7461 rs12537284 ENSG00000064419 4.5544 rs3764650 ENSG00000064666 12.3401 rs10479002 ENSG00000072682 5.0141 rs6704644 ENSG00000072682 6.2306 rs2900211 ENSG00000072682 9.9022 表2: Best_SNP Gene Best_Pval rs9028922 ENSG00000007341 10.7892 rs8233293 E
6 2024-03-31
编程技术问答社区
将SNP ID映射到基因组坐标
我有几个 snp IDS(即),我想从 ucsc Genome网站. 中,从我希望使用R实现此目标.如何做? 解决方案 这是使用bioconductor软件包biomaRt的解决方案.这是先前发布的代码的略微校正和重新格式版. library(biomaRt) # biomaRt_2.30.0 snp_mart = useMart("ENSEMBL_MART_SNP", dataset="hsapiens_snp") snp_ids = c("rs16828074", "rs17232800") snp_attributes = c("refsnp_id", "chr_name", "chrom_start") snp_locations = getBM(attributes=snp_attributes, filters="snp_filter", values=snp_ids, mart=snp_mart) snp
14 2024-03-31
编程技术问答社区
如何沿染色体图形绘制位置
我想生成一个图块,描绘我工作的生物体,缩放的14个线性染色体,并在每个染色体沿指定的位置进行彩色条.理想情况下,我想使用R,因为这是我唯一具有经验的编程语言. 我已经探索了各种做到这一点的方式使用GenomeGraphs,但我发现这比我想要/显示的数据要复杂得多,比我拥有的数据要比拥有的数据要多得多(例如显示细胞遗传带),并且通常是针对人类染色体的特定数据. 我本质上想要的只是以下尺寸的14个灰色条: chromosome size 1 640851 2 947102 3 1067971 4 1200490 5 1343557 6 1418242 7 1445207 8 1472805
18 2024-03-31
编程技术问答社区
补充一个DNA序列
假设我有一个DNA序列.我想获得补充.我使用了以下代码,但我没有得到它.我在做什么错? s=readline() ATCTCGGCGCGCATCGCGTACGCTACTAGC p=unlist(strsplit(s,"")) h=rep("N",nchar(s)) unlist(lapply(p,function(d){ for b in (1:nchar(s)) { if (p[b]=="A") h[b]="T" if (p[b]=="T") h[b]="A" if (p[b]=="G") h[b]="C" if (p[b]=="C") h[b]="G" } 解决方案 使用chartr是为此目的而构建的: > s [1] "ATCTCGGCGCGCATCGCGTACGCTACTAGC" > chartr("ATGC","TACG",s) [1] "TAGAGCCGCGCGTAGCGCATGCGATGATCG" 只要给它两个相
18 2024-03-31
编程技术问答社区
如何将SNPs列表映射到基因?
我已经搜索了这个问题的答案已有一段时间了.一开始似乎并不难解决,但现在似乎很具有挑战性. 我正在寻找一种提交SNP(RS#)列表的方法,并恢复这些标记映射的基因列表. 到目前为止,我主要有方法可以将SNP映射到疾病,途径等,或者使用基因获取代表性SNP的列表. 另外,我是计算生物学的新手,因此我很高兴不依赖编程的解决方案. 解决方案 http://www.scandb.org 从顶部的菜单中选择"查询",然后选择" SNP". 似乎正在完成这项工作!
20 2024-03-29
编程技术问答社区
如何在bash中比较两个范围列表?
使用Bash脚本(Ubuntu 16.04),我正在尝试比较2个范围列表:File1中的任何范围中的任何数字是否与File2中的任何范围中的任何数字一致?如果是这样,请在第二个文件中打印行.在这里,我将每个范围作为2个删除列的每个范围(在File1中,第1行表示范围1-4,即1、2、3、4).真实文件很大. file1: 1 4 5 7 8 11 12 15 file2: 3 4 8 13 20 24 所需的输出: 3 4 8 13 我最好的尝试是: awk 'NR=FNR { x[$1] = $1+0; y[$2] = $2+0; next}; {for (i in x) {if (x[i] > $1+0); then {for (i in y) {if (y[i]
10 2024-03-28
编程技术问答社区
在R中对基因列表进行基因本体论(GO)分析(用ENTREZID)?
我对GO分析非常新,我有点困惑如何做我的基因列表. 我有一个基因列表(n = 10): gene_list SYMBOL ENTREZID GENENAME 1 AFAP1 60312 actin filament associated protein 1 2 ANAPC11 51529 anaphase promoting complex subunit 11 3 ANAPC5 51433 anaphase promoting complex subunit 5 4 ATL2 64225 atlastin GTPase 2 5 AURKA 6790 aurora kinase A 6 CCNB2 9133
30 2024-01-26
编程技术问答社区
警告消息澄清
我正在使用 snpassoc r软件包用于查找数据SNP之间的关联连续变量结果.我运行分析,得到结果;但是,我收到警告消息,这是: Warning in terms.formula(formula, data = data) : 'varlist' has changed (from nvar=3) to new 4 after EncodeVars() -- should no longer happen! 我的模型是: model
8 2023-11-27
编程技术问答社区
如何编辑300GB的文本文件(基因组学数据)?
我有一个300 GB文本文件,其中包含具有超过250k记录的基因组数据.有一些具有不良数据的记录,我们的基因组学计划" popoolution"使我们能够用星号评论"不良"记录.我们的问题是,我们找不到将加载数据的文本编辑器,以便我们可以评论不良记录.有什么建议么?我们有Windows和Linux框. 更新:更多信息 程序popoolution(还有一个想法...是否有一种方法可以使我们可以在不一次打开整个文本文件的情况下将星号添加到线路上.鉴于我们必须重复该过程未知次数,这可能非常有用. 解决方案 基于您的更新: 还有一个想法...是否有一种方法可以让我们添加 无需一次打开整个文本文件即可到达行的星号. 考虑到我们将不得不重复一遍,这可能非常有用 处理未知的次数. 在这里您有一种方法:如果您知道行号,则可以在该行的开头添加星号: sed 'LINE_NUMBER s/^/*/' file 请参阅一个示例: $ cat file aa bb
30 2023-10-18
编程技术问答社区
当Z分数很大时,如何在R中从Z分数中计算P值(P值远低于零)?
在遗传学中,很小的p值很常见(例如10^-400),当z得分较大时,我正在寻找一种获得很小的p值(两尾)的方法例如: z=40 pvalue = 2*pnorm(abs(z), lower.tail = F) 这给我一个非常重要的值而不是很小的值. 解决方案 无法处理p值小于10^(-308)(.Machine$double.xmin)的p值并不是真正的错误,而是对使用双重精度的任何计算系统的一般限制(64--位)浮子存储数字信息. 通过计算日志刻度来解决问题并不难,但是您无法将结果存储为r中的数字值;相反,您需要将结果存储为Mantissa Plus Exponent. pvalue.extreme
8 2023-09-29
编程技术问答社区
生成具有给定的成对相关关系的随机变量。
我想生成2个连续的随机变量Q1,Q2(定量性状,每个是正常的)和2个二进制随机变量Z1,Z2(二进制特征)(二进制特征),在所有可能的对之间具有给定的成对相关性他们. 说 (Q1,Q2):0.23 (Q1,Z1):0.55 (Q1,Z2):0.45 (Q2,Z1):0.4 (Q2,Z2):0.5 (Z1,Z2):0.47 请帮助我在r. 中生成此类数据 解决方案 这是粗略的,但可能会让您朝着正确的方向开始. library(copula) options(digits=3) probs
20 2023-09-04
编程技术问答社区
对同一列表中的 80 个因果关系结果运行多个自变量回归模型的最有效方法是什么?
用于20个自变量列表的回归模型的最有效方法是什么(例如遗传变异,这些遗传变异将单独测试)和40个因变量?我是R的初学者!我找到了一个解决方案,但是只有当我有1个自变量时,它才能起作用.不确定如果有很多( -variables/) 感谢您的时间. 解决方案 这是一个有点密集的解决方案,它使用MESS软件包中的mfastLmCpp()函数.它运行多种仪器的简单线性回归,我们只是将其包装在apply()调用中,以使其与多个因变量一起使用. N
16 2023-08-21
编程技术问答社区
如何根据成对距离矩阵生成纽维克树输出结果
我想从遗传数据中产生系统发育树.我在R和python中发现了一些看起来很棒的树木图包,例如GGTREE在R中.但是这些需要已经以树格式的数据输入,例如纽克. 我认为大多数人都从VCF文件开始并生成Fasta文件,但是我的起点是基因型表 - 我与单倍体生物体一起工作,因此每个位置均为0(参考)或1(非REF).由此,我在R中使用DIST()在R中计算成对的遗传距离. # Generate dataframe with example genotypes Variant
24 2023-07-28
编程技术问答社区
包 "GeneR "不可用
我正在尝试安装生成库(http://www.bioconductor.org/packages/release/bioc/html/gener.html): 我正在使用Win7和最新的R 2.14.2. 安装过程中的错误: > source("http://bioconductor.org/biocLite.R") trying URL 'http://www.bioconductor.org/packages/2.9/bioc/bin/windows/contrib/2.14/BiocInstaller_1.2.1.zip' Content type 'application/zip' length 32947 bytes (32 Kb) opened URL downloaded 32 Kb package ‘BiocInstaller’ successfully unpacked and MD5 sums checked The downloaded package
40 2023-07-23
编程技术问答社区
反向互补的基础
我是R编程的新手,我正在尝试为反向和互补基础编写一个程序.目的是设计DNA底漆.因此,我的DNA序列具有A t c g,并且与t的补充. t = a; c = g; g = c. 我已经弄清楚了如何逆转它,但是对于补充,我只能以1个基础来回答它,但不能是所有序列,我不知道如何结合反向和补充功能.这是我的代码,我对此完全感到困惑.有人可以帮我解决这个问题吗?你将成为我的救世主! strReverse
14 2023-07-23
编程技术问答社区
在R-应用循环中按范围合并
我在这里发布了一个问题:匹配范围合并r 基于一个文件中的一个数字落入第二个文件中的一个范围.到目前为止,我在将代码拼凑在一起以实现这一目标的情况下没有成功.我正在使用的问题是,我正在使用的代码按行比较文件.这是一个问题,因为1.)一个文件比另一个文件长得多,并且2.)我需要较短文件中的行中的行中的行中的各个范围内的范围对 - 不仅仅是同一行中的范围. 我一直在处理原始问题中发布的函数,我觉得应该有一种将其应用于更通用的循环,该循环将第一个文件中的每一行与第二个文件中的每一行进行比较,但是我还没有弄清楚.如果有人有任何建议,我将不胜感激. ****编辑. 数据的性质是这样:尽管大多数是,但每个范围不一定是唯一的.它们的大小也不相等,有些完全落在其他内部. findInterval因此会产生错误,因为无法对范围进行排序以属于"非饮食"顺序. 这是每个数据框架的前6行: file1test
16 2023-07-18
编程技术问答社区
如何用python中的matplotlib创建曼哈顿图?
不幸的是,我自己还没有找到解决方案.我如何创建曼哈顿地块在Python中使用,例如Matplotlib/Pandas.问题在于,在这些图中,X轴是离散的. from pandas import DataFrame from scipy.stats import uniform from scipy.stats import randint import numpy as np # some sample data df = DataFrame({'gene' : ['gene-%i' % i for i in np.arange(1000)], 'pvalue' : uniform.rvs(size=1000), 'chromosome' : ['ch-%i' % i for i in randint.rvs(0,12,size=1000)]}) # -log_10(pvalue) df['minuslog10pvalue'] = -np.log10(df.pvalue) df
110 2023-06-21
编程技术问答社区
Neo4j cypher查询X染色体的祖先
在遗传家谱中,X染色体数据是有用的,与某些祖先相连.这在以下网址很好地说明了: x-dna sastaritance图表 我的neo4j数据库都有每个人的节点,以及与父母联系的关系.每个节点都有财产性别(对于人的性别; m或f).女性有两个X染色体,一个来自父母.男性有一个X染色体,总是来自母亲. 您可以使用Reled来查看祖先继承所涉及的性别: match p=(n:Person{RN:1})-[:father|mother*..20]->m return m.fullname as FullName ,reduce(status ='', q IN nodes(p)| status + q.sex) AS c order by length(p), c 所以,从男性开始(RN:1),C的结果是他的父亲和母亲的MF,MMM为祖父和MFM的外祖父等.这种模式表明,当C包含MM(顺序两个MS),这些MM并不促进起始人的X-chromosom. 我想删除具有M
40 2023-04-20
编程技术问答社区