repurposing corr_data.R into a function to allow required params to be passed in

2022-01-29 17:24:15 +00:00 · 2022-01-29 17:24:15 +00:00 · 5346431256
commit 5346431256
parent 7317156bba
4 changed files with 126 additions and 50 deletions
--- a/scripts/plotting/corr_data.R
+++ b/scripts/plotting/corr_data.R
@ -2,6 +2,7 @@
 #########################################################
 # TASK: Script to format data for corr plots
 #########################################################
+#library(dplyr)

 #=================================================
 #         Data for Corrplots
@ -12,6 +13,10 @@ cat("\n=========================================="

 # use data
 #merged_df2
+geneL_normal = c("pnca")
+geneL_na_dy = c("gid")
+geneL_na = c("rpob")
+geneL_ppi2 = c("alr", "embb", "katg", "rpob")

 #----------------------------
 # columns for corr plots:PS
@ -19,11 +24,55 @@ cat("\n=========================================="
 # NOTE: you can add mcsm_ppi column as well, and it will only select what it can find!
 big_df_colnames = data.frame(names(merged_df2))

-corr_cols_select <- c("mutationinformation", drug, "mutation_info_labels"
-                   , "duet_stability_change", "ligand_affinity_change", "ddg_foldx", "asa", "rsa"
-                   , "rd_values", "kd_values", "log10_or_mychisq", "neglog_pval_fisher","af"
-                   , "deepddg", "ddg_dynamut", "ddg_dynamut2", "mcsm_na_affinity"
-                   , "ddg_encom", "dds_encom", "ddg_mcsm", "ddg_sdm", "ddg_duet", "ligand_distance")
+core_cols = c("mutationinformation", drug, "mutation_info_labels"
+              , "duet_stability_change", "ligand_affinity_change", "ddg_foldx", "asa", "rsa"
+              , "rd_values", "kd_values", "log10_or_mychisq", "neglog_pval_fisher","af"
+              , "deepddg" , "ddg_dynamut2"
+              , "consurf_score"
+              #, "consurf_scaled"
+              , "snap2_score"
+              #, "snap2_scaled", "snap2_accuracy_pc"
+              , "ligand_distance")
+
+if (tolower(gene)%in%geneL_normal){
+  corr_cols_select = core_cols
+}
+if (tolower(gene)%in%geneL_na_dy){
+  additional_cols = c("mcsm_na_affinity"
+                    , "ddg_dynamut"
+                    , "ddg_encom", "dds_encom"
+                    , "ddg_mcsm", "ddg_sdm"
+                    , "ddg_duet"
+                    #, "mcsm_na_scaled"
+                    #, "ddg_dynamut_scaled"
+                    #, "ddg_encom_scaled", "dds_encom_scaled"
+                    #, "ddg_mcsm_scaled", "ddg_sdm_scaled"
+                    #, "ddg_duet_scaled"
+                    )
+  
+  corr_cols_select = c(core_cols, additional_cols)
+  
+}
+
+if (tolower(gene)%in%geneL_na){
+  additional_cols = c("mcsm_na_affinity"
+                      #, "mcsm_na_scaled"
+                      )
+  
+  corr_cols_select = c(core_cols, additional_cols)
+  
+}
+
+if (tolower(gene)%in%geneL_ppi2){
+  additional_cols = c("mcsm_ppi2_affinity")
+  corr_cols_select = c(core_cols, additional_cols)
+}
+
+# corr_cols_select <- c("mutationinformation", drug, "mutation_info_labels"
+#                    , "duet_stability_change", "ligand_affinity_change", "ddg_foldx", "asa", "rsa"
+#                    , "rd_values", "kd_values", "log10_or_mychisq", "neglog_pval_fisher","af"
+#                    , "deepddg", "ddg_dynamut", "ddg_dynamut2", "mcsm_na_affinity"
+#                    , "ddg_encom", "dds_encom", "ddg_mcsm", "ddg_sdm", "ddg_duet", "ligand_distance")

 #===========================
 # Corr data for plots: PS
@ -36,9 +85,8 @@ corr_df_m2 = merged_df2[,colnames(merged_df2)%in%corr_cols_select]
 # formatting: some cols
 # Add pretty colnames
 #-----------------------
-corr_df_m2_f <- corr_df_m2 %>% 
-  rename(
-      DUET       = duet_stability_change
+corr_df_m2_f <- corr_df_m2 %>% dplyr::rename(
+      'DUET'       = duet_stability_change
    , 'mCSM-lig' = ligand_affinity_change
    , FoldX      = ddg_foldx
    , DeepDDG    = deepddg