changes made to combining_dfs_plotting.R

2021-06-23 16:15:15 +01:00 · 2021-06-23 16:15:15 +01:00 · 8277b489d6
commit 8277b489d6
parent 4f4734f565
9 changed files with 258 additions and 126 deletions
--- a/scripts/functions/plotting_data.R
+++ b/scripts/functions/plotting_data.R
@ -16,20 +16,18 @@ library(dplyr)
  ## my_df_u_lig
  ## dup_muts
 #========================================================
-plotting_data <- function(infile_params, mcsm_lig_cutoff = 10) {
+plotting_data <- function(df, lig_dist_colname = 'ligand_distance', lig_dist_cutoff = 10) {
 my_df       = data.frame()
 my_df_u     = data.frame()
 my_df_u_lig = data.frame()
 dup_muts    = data.frame()
  
-cat(paste0("\nInput file to prepare for plotting:", infile_params, "\n") )
-
 #===========================
 # Read file: struct params
 #===========================
-my_df = read.csv(infile_params, header = T)
+#df = read.csv(infile_params, header = T)

-cat("\nInput dimensions:", dim(my_df)) 
+cat("\nInput dimensions:", dim(df)) 

 #==================================
 # add foldx outcome category
@ -43,17 +41,17 @@ cat("\nInput dimensions:", dim(my_df))
 # adding foldx scaled values
 # scale data b/w -1 and 1
 #------------------------------
-n = which(colnames(my_df) == "ddg"); n 
+n = which(colnames(df) == "ddg"); n 

-my_min = min(my_df[,n]); my_min 
-my_max = max(my_df[,n]); my_max 
+my_min = min(df[,n]); my_min 
+my_max = max(df[,n]); my_max 

-my_df$foldx_scaled = ifelse(my_df[,n] < 0
-                            , my_df[,n]/abs(my_min)
-                            , my_df[,n]/my_max) 
+df$foldx_scaled = ifelse(df[,n] < 0
+                         , df[,n]/abs(my_min)
+                         , df[,n]/my_max) 
 # sanity check
-my_min = min(my_df$foldx_scaled); my_min 
-my_max = max(my_df$foldx_scaled); my_max
+my_min = min(df$foldx_scaled); my_min 
+my_max = max(df$foldx_scaled); my_max

 if (my_min == -1 && my_max == 1){
  cat("\nPASS: foldx ddg successfully scaled b/w -1 and 1"
@ -67,9 +65,9 @@ if (my_min == -1 && my_max == 1){
 # adding foldx outcome category
 # ddg<0 = "Stabilising" (-ve)
 #------------------------------
-c1 = table(my_df$ddg < 0)
-my_df$foldx_outcome = ifelse(my_df$ddg < 0, "Stabilising", "Destabilising")
-c2 = table(my_df$ddg < 0)
+c1 = table(df$ddg < 0)
+df$foldx_outcome = ifelse(df$ddg < 0, "Stabilising", "Destabilising")
+c2 = table(df$ddg < 0)

 if ( all(c1 == c2) ){
  cat("\nPASS: foldx outcome successfully created")
@ -83,19 +81,19 @@ if ( all(c1 == c2) ){
 #==================================

 # check for duplicate mutations
-if ( length(unique(my_df$mutationinformation)) != length(my_df$mutationinformation)){
+if ( length(unique(df$mutationinformation)) != length(df$mutationinformation)){
  cat(paste0("\nCAUTION:", " Duplicate mutations identified"
             , "\nExtracting these...\n"))
  #cat(my_df[duplicated(my_df$mutationinformation),])
-  dup_muts = my_df[duplicated(my_df$mutationinformation),]
+  dup_muts = df[duplicated(df$mutationinformation),]
  dup_muts_nu = length(unique(dup_muts$mutationinformation))
  cat(paste0("\nDim of duplicate mutation df:", nrow(dup_muts)
             , "\nNo. of unique duplicate mutations:", dup_muts_nu
             , "\n\nExtracting df with unique mutations only\n"))
-  my_df_u = my_df[!duplicated(my_df$mutationinformation),]
+  my_df_u = df[!duplicated(df$mutationinformation),]
 }else{
  cat(paste0("\nNo duplicate mutations detected\n"))
-  my_df_u = my_df
+  my_df_u = df
 }

 upos = unique(my_df_u$position)
@ -105,15 +103,14 @@ cat("\nNo. of unique mutational positions:"); cat(length(upos), "\n")
 #===============================================
 # extract mutations <10 Angstroms and symbol
 #===============================================
-table(my_df_u$ligand_distance<mcsm_lig_cutoff)
+table(my_df_u$ligand_distance<lig_dist_cutoff)

-my_df_u_lig = my_df_u[my_df_u$ligand_distance <mcsm_lig_cutoff,]
+my_df_u_lig = my_df_u[my_df_u$ligand_distance <lig_dist_cutoff,]

 cat(paste0("There are ", nrow(my_df_u_lig), " sites lying within 10\u212b of the ligand\n"))

 # return list of DFs
-
-#return(list(my_df, my_df_u, my_df_u_lig, dup_muts))
+my_df = df
 #df_names = c("my_df", "my_df_u", "my_df_u_lig", "dup_muts")
 all_df = list(my_df, my_df_u, my_df_u_lig, dup_muts)
 #all_df = Map(setNames, all_df, df_names)