fixed source to contain plotting cols and pos_count correctly

2022-08-22 14:33:06 +01:00 · 2022-08-22 14:33:06 +01:00 · 13999a477d
commit 13999a477d
parent 4147a6b90f
6 changed files with 66 additions and 39 deletions
--- a/scripts/functions/combining_dfs_plotting.R
+++ b/scripts/functions/combining_dfs_plotting.R
@ -41,7 +41,7 @@ geneL_ppi2    = c("alr", "embb", "katg", "rpob")

 combining_dfs_plotting <- function(  my_df_u
                                   , gene_metadata
-                                   , gene # ADDED
+                                   #, gene # ADDED
                                   , lig_dist_colname = ''
                                   , lig_dist_cutoff = ''){

@ -686,8 +686,11 @@ combining_dfs_plotting <- function(  my_df_u
  min( merged_df3['avg_lig_affinity_scaled']); max( merged_df3['avg_lig_affinity_scaled'])
  
  ###################################################################
-  # Rectify pos_count column in merged_df3
-  # The one in merged_df2 is correct
+  #--------------------------------------------
+  # merged_df3: Rectify pos_count column
+  # Rename existing pos_count colum to reflect
+  # that it is correct according to merged_df2
+  #--------------------------------------------
  
  nc_pc_CHANGE = which(colnames(merged_df3)== "pos_count"); nc_pc_CHANGE
  colnames(merged_df3)[nc_pc_CHANGE] = "df2_pos_count_all"
@ -707,16 +710,25 @@ combining_dfs_plotting <- function(  my_df_u
  nc_change = which(colnames(merged_df3) == "n")
  colnames(merged_df3)[nc_change] <- "pos_count"
  class(merged_df3)
+
+  ####################################################################
+  #-------------------------------------------------
+  # merged_df2: Rename existing pos_count 
+  # column to df2_pos_count_all like in above df
+  #-------------------------------------------------
+  nc_pc_CHANGE_df2 = which(colnames(merged_df2)== "pos_count"); nc_pc_CHANGE_df2
+  colnames(merged_df2)[nc_pc_CHANGE_df2] = "df2_pos_count_all"
+  head(merged_df2$pos_count)
+  head(merged_df2$df2_pos_count_all)
+  
  ####################################################################
  # ADD: distance to Nucleic acid column for na genes
-  
-  
+  # already done in plotting_data
  ####################################################################
-  #TODO
  # Choose few columns to return as plot_df
  
-  
-  
+  merged_df3 = merged_df3[, colnames(merged_df3)%in%c(plotting_cols, "pos_count", "df2_pos_count_all")]
+  merged_df2 = merged_df2[, colnames(merged_df2)%in%c(plotting_cols, "df2_pos_count_all")]
  
  ####################################################################
  return(list(  merged_df2
--- a/scripts/functions/dm_om_data.R
+++ b/scripts/functions/dm_om_data.R
@ -121,7 +121,7 @@ dm_om_wf_lf_data <- function(df
  mmcsm_lig_dn2 = paste0("mmCSM-lig"); mmcsm_lig_dn2
  
  
-  na_dist_dn   = paste0("NA Dist(", angstroms_symbol, ")"); na_dist_dn
+  na_dist_dn   = paste0("Dist to NA (", angstroms_symbol, ")"); na_dist_dn
  mcsm_na_dn   = paste0("mCSM-NA ", stability_suffix); mcsm_na_dn
  
  ppi2_dist_dn = paste0("PPI Dist(", angstroms_symbol, ")"); ppi2_dist_dn
@ -174,7 +174,8 @@ dm_om_wf_lf_data <- function(df
    )
    
    display_common_colnames = c(snp_colname
-                                , mut_colname            , "dst_mode"          , mut_info_label_colname
+                                , mut_colname
+                                , "dst_mode"          , mut_info_label_colname
                                , aa_pos_colname
                                
                                , "duet_stability_change" , duet_dn            , "duet_outcome"
--- a/scripts/functions/plotting_data.R
+++ b/scripts/functions/plotting_data.R
@ -7,14 +7,10 @@ library(data.table)
 library(dplyr)

 # ADDED: New
-geneL_normal  = c("pnca")
-geneL_na      = c("gid", "rpob")
-geneL_ppi2    = c("alr", "embb", "katg", "rpob")
+# geneL_normal  = c("pnca")
+# geneL_na      = c("gid", "rpob")
+# geneL_ppi2    = c("alr", "embb", "katg", "rpob")

-if (tolower(gene)%in%geneL_na){
-  infilename_nca = paste0("/home/tanu/git/Misc/mcsm_na_dist/"
-                          , tolower(gene), "_nca_distances.csv")
-}
 #========================================================
 # plotting_data(): formatting data for plots
 # input args: 
@ -31,8 +27,9 @@ if (tolower(gene)%in%geneL_na){

 plotting_data <- function(df
                          , gene # ADDED
-                          , lig_dist_colname 
-                          , lig_dist_cutoff) {
+                          , lig_dist_colname = 'ligand_distance'
+                          , lig_dist_cutoff = 10
+                          ) {
  my_df       = data.frame()
  my_df_u     = data.frame()
  my_df_u_lig = data.frame()
@ -89,11 +86,15 @@ plotting_data <- function(df
  #                      all = T)
  # 
  # } 
-  
+  geneL_na=c("gid","rpob")
+
  if (tolower(gene)%in%geneL_na){
+    infilename_nca = paste0("/home/tanu/git/Misc/mcsm_na_dist/"
+                            , tolower(gene), "_nca_distances.csv")
    distcol_nca_name = read.csv(infilename_nca, header = F)
-    
+
    if (tolower(gene)=='rpob'){
+      
      print('WARNING: running special-case handler for rpoB')
      
      # create 5uhc equivalent column for mutationinformation