added corr data to get_plotting_dfs.R and generate corr plots

2021-06-28 17:25:45 +01:00 · 2021-06-28 17:25:45 +01:00 · b614962e45
commit b614962e45
parent 639ccf1cd7
4 changed files with 252 additions and 19 deletions
--- a/scripts/plotting/get_plotting_dfs.R
+++ b/scripts/plotting/get_plotting_dfs.R
@ -231,6 +231,221 @@ str(wide_df_or_mult)

 position_or_mult = as.numeric(colnames(wide_df_or_mult))

+####################################################################
+#                        Data for Corrplots
+####################################################################
+cat("\n=========================================="
+    , "\nCORR PLOTS data: PS"
+    , "\n===========================================")
+
+df_ps = merged_df2
+
+#--------------------
+# adding log cols 
+#--------------------
+df_ps$log10_or_mychisq = log10(df_ps$or_mychisq)
+df_ps$neglog_pval_fisher = -log10(df_ps$pval_fisher)
+
+##df_ps$log10_or_kin = log10(df_ps$or_kin)
+##df_ps$neglog_pwald_kin = -log10(df_ps$pwald_kin)
+
+#df_ps$mutation_info_labels = ifelse(df_ps$mutation_info == dr_muts_col, 1, 0)
+
+#----------------------------
+# columns for corr plots:PS
+#----------------------------
+# subset data to generate pairwise correlations
+cols_to_select =  c("mutationinformation"
+                    , "duet_scaled"
+                    , "foldx_scaled"
+                    #, "mutation_info_labels"
+                    , "asa"
+                    , "rsa"
+                    , "rd_values"
+                    , "kd_values"
+                    , "log10_or_mychisq"
+                    , "neglog_pval_fisher"
+                    ##, "or_kin"
+                    ##, "neglog_pwald_kin"
+                    , "af"
+                    ##, "af_kin"
+                    , "duet_outcome"
+                    , drug)
+
+corr_data_ps = df_ps[cols_to_select]
+
+dim(corr_data_ps)
+
+#--------------------------------------
+# assign nice colnames (for display)
+#--------------------------------------
+my_corr_colnames = c("Mutation"
+                     , "DUET"
+                     , "Foldx"
+                     #, "Mutation class"
+                     , "ASA"
+                     , "RSA"
+                     , "RD"
+                     , "KD"
+                     , "Log (OR)"
+                     , "-Log (P)"
+                     ##, "Adjusted (OR)"
+                     ##, "-Log (P wald)"
+                     , "MAF"
+                     ##, "AF_kin"
+                     , "duet_outcome"
+                     , drug)
+
+length(my_corr_colnames)
+
+colnames(corr_data_ps)
+colnames(corr_data_ps) <- my_corr_colnames
+colnames(corr_data_ps)
+
+start = 1
+end = which(colnames(corr_data_ps) == drug); end # should be the last column
+offset = 1
+
+#===========================
+# Corr data for plots: PS
+# big_df ps: ~ merged_df2
+#===========================
+
+#corr_ps_df2 = corr_data_ps[start:(end-offset)] # without drug
+corr_ps_df2 = corr_data_ps[start:end]
+head(corr_ps_df2)
+
+#===========================
+# Corr data for plots: PS
+# short_df ps: ~merged_df3
+#===========================
+corr_ps_df3 = corr_ps_df2[!duplicated(corr_ps_df2$Mutation),]
+
+na_or = sum(is.na(corr_ps_df3$`Log (OR)`))
+check1 = nrow(corr_ps_df3) - na_or
+
+##na_adj_or = sum(is.na(corr_ps_df3$`adjusted (OR)`))
+##check2 = nrow(corr_ps_df3) - na_adj_or 
+
+if (nrow(corr_ps_df3) == nrow(merged_df3) && nrow(merged_df3_comp) == check1) {
+  cat( "\nPASS: No. of rows for corr_ps_df3 match"
+       , "\nPASS: No. of OR values checked: " , check1)
+} else {
+  cat("\nFAIL: Numbers  mismatch:"
+      , "\nExpected nrows: ", nrow(merged_df3)
+      , "\nGot: ", nrow(corr_ps_df3)
+      , "\nExpected OR values: ", nrow(merged_df3_comp)
+      , "\nGot: ", check1)
+}
+
+#=================================
+# Data for Correlation plots: LIG
+#=================================
+cat("\n=========================================="
+    , "\nCORR PLOTS data: PS"
+    , "\n===========================================")
+
+df_lig = merged_df2_lig
+
+table(df_lig$ligand_outcome)
+
+#--------------------
+# adding log cols 
+#--------------------
+df_lig$log10_or_mychisq = log10(df_lig$or_mychisq)
+df_lig$neglog_pval_fisher = -log10(df_lig$pval_fisher)
+
+##df_lig$log10_or_kin = log10(df_lig$or_kin)
+##df_lig$neglog_pwald_kin = -log10(df_lig$pwald_kin)
+
+#----------------------------
+# columns for corr plots:PS
+#----------------------------
+# subset data to generate pairwise correlations
+cols_to_select =  c("mutationinformation"
+                    , "affinity_scaled"
+                    #, "mutation_info_labels"
+                    , "asa"
+                    , "rsa"
+                    , "rd_values"
+                    , "kd_values"
+                    , "log10_or_mychisq"
+                    , "neglog_pval_fisher"
+                    ##, "or_kin"
+                    ##, "neglog_pwald_kin"
+                    , "af"
+                    ##, "af_kin"
+                    , "ligand_outcome"
+                    , drug)
+
+corr_data_lig = df_lig[, cols_to_select]
+
+dim(corr_data_lig)
+
+#--------------------------------------
+# assign nice colnames (for display)
+#--------------------------------------
+my_corr_colnames = c("Mutation"
+                     , "Ligand Affinity"
+                     #, "Mutation class"
+                     , "ASA"
+                     , "RSA"
+                     , "RD"
+                     , "KD"
+                     , "Log (OR)"
+                     , "-Log (P)"
+                     ##, "Adjusted (OR)"
+                     ##, "-Log (P wald)"
+                     , "MAF"
+                     ##, "MAF_kin"
+                     , "ligand_outcome"
+                     , drug)
+
+length(my_corr_colnames)
+
+colnames(corr_data_lig)
+colnames(corr_data_lig) <- my_corr_colnames
+colnames(corr_data_lig)
+
+start = 1
+end = which(colnames(corr_data_lig) == drug); end # should be the last column
+offset = 1
+
+#=============================
+# Corr data for plots: LIG
+# big_df lig: ~ merged_df2_lig
+#==============================
+#corr_lig_df2 = corr_data_lig[start:(end-offset)] # without drug
+corr_lig_df2 = corr_data_lig[start:end]
+head(corr_lig_df2)
+
+#=============================
+# Corr data for plots: LIG
+# short_df lig: ~ merged_df3_lig
+#==============================
+corr_lig_df3 = corr_lig_df2[!duplicated(corr_lig_df2$Mutation),]
+
+na_or_lig = sum(is.na(corr_lig_df3$`Log (OR)`))
+check1_lig = nrow(corr_lig_df3) - na_or_lig
+
+if (nrow(corr_lig_df3) == nrow(merged_df3_lig) && nrow(merged_df3_comp_lig) == check1_lig) {
+  cat( "\nPASS: No. of rows for corr_lig_df3 match"
+       , "\nPASS: No. of OR values checked: " , check1_lig)
+} else {
+  cat("\nFAIL: Numbers  mismatch:"
+      , "\nExpected nrows: ", nrow(merged_df3_lig)
+      , "\nGot: ", nrow(corr_ps_df3_lig)
+      , "\nExpected OR values: ", nrow(merged_df3_comp_lig)
+      , "\nGot: ", check1_lig)
+}
+
+# remove unnecessary columns
+identical(corr_data_lig, corr_lig_df2)
+identical(corr_data_ps, corr_ps_df2)
+
+rm(df_ps, df_lig, corr_data_ps, corr_data_lig)
+
 ########################################################################
 #                           End of script
-########################################################################
+########################################################################
+rm(foo)