added count for targets for all genes and ran multiple classification models for all of the genes and target as a start

2022-03-04 19:16:04 +00:00 · 2022-03-04 19:16:04 +00:00 · 877862acb7
commit 877862acb7
parent 89158bc669
8 changed files with 948 additions and 0 deletions
--- a/ml_data/.Rhistory
+++ b/ml_data/.Rhistory
@ -0,0 +1,335 @@
+source("~/git/LSHTM_analysis/config/alr.R")
+# source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+#source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+##################################################
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+if( (length(colnames_order) == ncol(merged_df3)) &&  (all(colnames_order %in%colnames(merged_df3))) ){
+cat("\nProceeding with rearranging columns in merged_df3")
+merged_df3_o = merged_df3[ , colnames_order]
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3_o, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3_o)
+, "\nncols:" , ncol(merged_df3_o))
+}else
+cat("length mismatch:"
+, colnames(merged_df3)[!colnames(merged_df3)%in%(colnames_order )]
+)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+# source("~/git/LSHTM_analysis/config/alr.R")
+source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+# source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+active_aa_pos
+merged_df3['position']%in%active_aa_pos
+merged_df3$position%in%active_aa_pos
+merged_df3['active_aa_pos'] <- merged_df3['position']
+merged_df3['active_aa_pos']
+identical(merged_df3['active_aa_pos'] , merged_df3['position'])
+(merged_df3['active_aa_pos'] == merged_df3['position'])
+all(merged_df3['active_aa_pos'] == merged_df3['position'])
+merged_df3['active_aa_pos'] <- merged_df3['position']
+if (merged_df3$position%in%active_aa_pos){
+merged_df3['active_aa_pos'] = 1
+}else{
+merged_df3['active_aa_pos'] = 0
+}
+merged_df3['active_aa_pos']
+table(merged_df3$active_aa_pos)
+merged_df3['active_aa_pos'] <- merged_df3['position']
+merged_df3$active_aa_pos <- merged_df3$osition
+merged_df3$active_aa_pos
+merged_df3$active_aa_pos <- merged_df3$position
+merged_df3$active_aa_pos
+merged_df3$postion%in%active_aa_pos
+merged_df3$postion%in%active_aa_pos
+merged_df3$postion
+erged_df3$position%in%active_aa_pos
+merged_df3$position
+active_aa_pos
+which(merged_df3$position%in%active_aa_pos)
+c =which(merged_df3$position%in%active_aa_pos)
+merged_df3$position[c]
+active_aa_pos
+merged_df3$position%in%active_aa_pos
+merged_df3$active_aa_pos <- merged_df3$position
+merged_df3$active_aa_pos %in% active_aa_pos
+ifelse(merged_df3$active_aa_pos %in% active_aa_pos , "1", "0")
+table(merged_df3$active_aa_po)
+str(merged_df3$active_aa_po)
+str(merged_df3$active_aa_pos)
+#TODO later!
+merged_df3$active_aa_pos <- merged_df3$position
+merged_df3$active_aa_pos
+ifelse(merged_df3$active_aa_pos %in% active_aa_pos , 1, 0)
+str(merged_df3$active_aa_pos)
+#str(merged_df3$active_aa_pos)
+table(merged_df3$active_aa_pos)
+#str(merged_df3$active_aa_pos)
+foo = merged_df3$active_aa_pos
+merged_df3$active_aa_pos
+ifelse(merged_df3$active_aa_pos %in% active_aa_pos , 1, 0)
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+#str(merged_df3$active_aa_pos)
+foo = merged_df3$active_aa_pos
+#str(merged_df3$active_aa_pos)
+table(merged_df3$active_aa_pos)
+length(active_aa_pos)
+which(merged_df3$position%in%active_aa_pos)
+which(merged_df3$position%in%active_aa_pos)
+which(!merged_df3$position%in%active_aa_pos)
+which(merged_df3$position%in%active_aa_pos)
+active_aa_pos)
+active_aa_pos
+merged_df3$position[209,]
+merged_df3[209,]
+merged_df3$position[209]
+merged_df3[209]
+merged_df3[209,]
+active_aa_pos
+merged_df3$position[!merged_df3$position%in%active_aa_pos]
+merged_df3$position[!active_aa_pos%in%merged_df3$position]
+active_aa_pos
+active_aa_pos[!active_aa_pos%in%merged_df3$position]
+#str(merged_df3$active_aa_pos)
+table(merged_df3$active_aa_pos)
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+# source("~/git/LSHTM_analysis/config/alr.R")
+source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+# source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+#str(merged_df3$active_aa_pos)
+table(merged_df3$active_aa_pos)
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+table(merged_df2$active_aa_pos)
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+# source("~/git/LSHTM_analysis/config/alr.R")
+source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+# source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/config/alr.R")
+# source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+# source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+#source("~/git/LSHTM_analysis/config/alr.R")
+#source("~/git/LSHTM_analysis/config/embb.R")
+source("~/git/LSHTM_analysis/config/gid.R")
+#source("~/git/LSHTM_analysis/config/katg.R")
+#source("~/git/LSHTM_analysis/config/pnca.R")
+#source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+gene
+drug
+######################################################
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+#source("~/git/LSHTM_analysis/config/alr.R")
+#source("~/git/LSHTM_analysis/config/embb.R")
+#source("~/git/LSHTM_analysis/config/gid.R")
+source("~/git/LSHTM_analysis/config/katg.R")
+#source("~/git/LSHTM_analysis/config/pnca.R")
+#source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+gene; drug
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+#source("~/git/LSHTM_analysis/config/alr.R")
+#source("~/git/LSHTM_analysis/config/embb.R")
+#source("~/git/LSHTM_analysis/config/gid.R")
+#source("~/git/LSHTM_analysis/config/katg.R")
+source("~/git/LSHTM_analysis/config/pnca.R")
+#source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+gene; drug
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+#----------------------------------------------------
+#source("~/git/LSHTM_analysis/config/alr.R")
+#source("~/git/LSHTM_analysis/config/embb.R")
+#source("~/git/LSHTM_analysis/config/gid.R")
+#source("~/git/LSHTM_analysis/config/katg.R")
+#source("~/git/LSHTM_analysis/config/pnca.R")
+source("~/git/LSHTM_analysis/config/rpob.R")
+#----------------------------------------------------
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+######################################################
+gene; drug
+merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
+table(merged_df3$active_aa_pos)
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+cat("\nWriting output file:", mdf3_outName)
+write.csv(merged_df3, mdf3_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df3)
+, "\nncols:" , ncol(merged_df3))
+#=========================================================
+merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
+table(merged_df2$active_aa_pos)
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+cat("\nWriting output file:", mdf2_outName)
+write.csv(merged_df2, mdf2_outName, row.names = F)
+cat("\nnrows:"   , nrow(merged_df2)
+, "\nncols:" , ncol(merged_df2))
--- a/ml_data/del/ml_data_v1.R
+++ b/ml_data/del/ml_data_v1.R
@ -0,0 +1,65 @@
+#!/usr/bin/env Rscript
+
+# target var options:
+# drtype: MDR, etc, full data
+# pyrazinamide: 0 and 1, loss of data
+# mutation_info_labels: DM and OM, full data
+##################################################
+# ONLY ONCE
+#source("~/git/LSHTM_analysis/config/pnca.R")
+#source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+#write.csv(colnames(merged_df3), "data_colnames.csv")
+#---------------------------------------------------
+colnames_order_pnca = read.csv("~/git/ML_AI_training/ml_data/colnames_order.csv"
+                          , header = F)
+# reorder columns by name
+colnames_order_pnca <- colnames_order_pnca$V1
+###################################################
+#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
+#config_gene = c("alr", "embb")
+#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
+
+#source("~/git/LSHTM_analysis/config/alr.R")
+# FIXME: "cycloserine"        "mcsm_ppi2_affinity" "mcsm_ppi2_scaled"   "mcsm_ppi2_outcome"  "interface_dist"    
+# source("~/git/LSHTM_analysis/config/embb.R")
+# source("~/git/LSHTM_analysis/config/gid.R")
+# source("~/git/LSHTM_analysis/config/katg.R")
+source("~/git/LSHTM_analysis/config/pnca.R")
+# source("~/git/LSHTM_analysis/config/rpob.R")
+##################################################
+source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
+
+######################################################
+mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
+mdf3_outName
+
+if( (length(colnames_order) == ncol(merged_df3)) &&  (all(colnames_order %in%colnames(merged_df3))) ){
+  cat("\nProceeding with rearranging columns in merged_df3")
+  merged_df3_o = merged_df3[ , colnames_order]   
+  cat("\nWriting output file:", mdf3_outName)
+  write.csv(merged_df3_o, mdf3_outName, row.names = F)
+  cat("\nnrows:"   , nrow(merged_df3_o)
+      , "\nncols:" , ncol(merged_df3_o))
+  
+  }else
+  cat("length mismatch:"
+      , colnames(merged_df3)[!colnames(merged_df3)%in%(colnames_order )]
+  )
+
+mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
+mdf2_outName
+
+if( (length(colnames_order) == ncol(merged_df2)) &&  (all(colnames_order %in%colnames(merged_df2))) ){
+  cat("\nProceeding with rearranging columns in merged_df3")
+  merged_df2_o = merged_df2[ , colnames_order]   
+  cat("\nWriting output file:", mdf2_outName)
+  write.csv(merged_df2_o, mdf2_outName, row.names = F)
+  cat("\nnrows:"   , nrow(merged_df2_o)
+      , "\nncols:" , ncol(merged_df2_o))
+  
+}
+
+  
+  
+
+