LSHTM_analysis/scripts/plotting/basic_barplots_PS.R

getwd()
setwd("~/git/LSHTM_analysis/scripts/plotting")
getwd()

#########################################################
# TASK:

#########################################################


########################################################################
# 		Installing and loading required packages and functions		   #
########################################################################
#source("Header_TT.R")
#https://stackoverflow.com/questions/38851592/r-append-column-in-a-dataframe-with-frequency-count-based-on-two-columns

########################################################################
#		 Read file: call script for combining df for PS			   	   #
########################################################################
#source("../combining_two_df.R")
#?????????????

#########################################################
#%% variable assignment: input and output paths & filenames
drug = "pyrazinamide"
gene = "pncA"
gene_match = paste0(gene,"_p.")
cat(gene_match)

#=============
# directories
#=============
datadir = paste0("~/git/Data")
indir = paste0(datadir, "/", drug, "/input")
outdir = paste0("~/git/Data", "/", drug, "/output")

#======
# input
#======
#in_filename = "mcsm_complex1_normalised.csv"
in_filename_params = paste0(tolower(gene), "_all_params.csv")
infile_params = paste0(outdir, "/", in_filename_params)
cat(paste0("Input file 1:", infile_params) )

#=======
# output
#=======
# plot 1
basic_bp_duet = "basic_barplot_PS.svg"
plot_basic_bp_duet  =  paste0(outdir, "/plots/", basic_bp_duet)

# plot 2
pos_count_duet = "position_count_PS.svg"
plot_pos_count_duet = paste0(outdir, "/plots/", pos_count_duet)

#%%===============================================================
###########################
# Read file: struct params
###########################
cat("Reading struct params including mcsm:", in_filename_params)

my_df = read.csv(infile_params
                 #, stringsAsFactors = F
                 , header = T)

cat("Input dimensions:", dim(my_df))

# clear variables
rm(in_filename_params, infile_params)

# quick checks
colnames(my_df)
str(my_df)

# check for duplicate mutations
if ( length(unique(my_df$mutationinformation)) != length(my_df$mutationinformation)){
  cat(paste0("CAUTION:", " Duplicate mutations identified"
             , "\nExtracting these..."))
  dup_muts = my_df[duplicated(my_df$mutationinformation),]
  dup_muts_nu = length(unique(dup_muts$mutationinformation))
  cat(paste0("\nDim of duplicate mutation df:", nrow(dup_muts)
             , "\nNo. of unique duplicate mutations:", dup_muts_nu
             , "\n\nExtracting df with unique mutations only"))
  my_df_u = my_df[!duplicated(my_df$mutationinformation),]
}else{
  cat(paste0("No duplicate mutations detected"))
  my_df_u = my_df
}

upos = unique(my_df_u$position)
cat("Dim of clean df:"); cat(dim(my_df_u))
cat("\nNo. of unique mutational positions:"); cat(length(upos))

########################################################################
#               end of data extraction and cleaning for plots          #
########################################################################

#================
# Data for plots
#================
# REASSIGNMENT as necessary
df  = my_df_u
rm(my_df)

# sanity checks
str(df)
library(ggplot2)
#%%=======================================================================
#****************
# Plot 1:Count of stabilising and destabilsing muts
#****************
#svg("basic_barplots_PS.svg")
svg(plot_basic_bp_duet)
print(paste0("plot filename:", basic_bp_duet))

my_ats = 25 # axis text size
my_als = 22 # axis label size

theme_set(theme_grey())

# uncomment as necessary for either directly outputting results or
# printing on the screen
g = ggplot(df, aes(x = duet_outcome))
prinfFile = g + geom_bar(aes(fill = duet_outcome)
                         , show.legend = TRUE) +
  geom_label(stat = "count"
             , aes(label = ..count..)
             , color = "black"
             , show.legend = FALSE
             , size = 10) +
  theme(axis.text.x = element_blank()
        , axis.title.x = element_blank()
        , axis.title.y = element_text(size=my_als)
        , axis.text.y = element_text(size = my_ats)
        , legend.position = c(0.73,0.8)
        , legend.text = element_text(size=my_als-2)
        , legend.title = element_text(size=my_als)
        , plot.title = element_blank()) +
  labs(title = ""
       , y = "Number of SNPs"
      #, fill="DUET Outcome"
      ) +
  scale_fill_discrete(name = "DUET Outcome"
                      , labels = c("Destabilising", "Stabilising"))

print(prinfFile)
dev.off()
#%%=======================================================================
#****************
# Plot 2: frequency of positions
#****************
library(data.table)
#setDT(df)[, .(pos_count := .N), by = .(position)]
setDT(df)[, pos_count := .N, by = .(position)]

# this is cummulative
table(df$pos_count)

# use group by on this
library(dplyr)

snpsBYpos_df <- df %>%
  group_by(position) %>%
  summarize(snpsBYpos = mean(pos_count))

table(snpsBYpos_df$snpsBYpos)

#!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
# FIXME, get this mutation_info, perhaps useful!
foo = select(df, mutationinformation
             , wild_pos
             , wild_type
             , mutant_type
             #, mutation_info # comes from meta data, notused yet
             , position
             , pos_count)

#write.csv(foo, "/pos_count_freq.csv")
#!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

#svg("position_count_PS.svg")
svg(plot_pos_count_duet)
print(paste0("plot filename:", plot_pos_count_duet))

my_ats = 25 # axis text size
my_als = 22 # axis label size

my_x = sort(unique(snpsBYpos_df$snpsBYpos))


g = ggplot(snpsBYpos_df, aes(x = snpsBYpos))
prinfFile = g + geom_bar(aes (alpha = 0.5)
                         , show.legend = FALSE) +
  scale_x_continuous(breaks = unique(snpsBYpos_df$snpsBYpos)) +
  #scale_x_continuous(breaks = my_x) +
  geom_label(stat = "count", aes(label = ..count..)
             , color = "black"
             , size = 10) +
  theme(axis.text.x = element_text(size = my_ats
                                   , angle = 0)
        , axis.text.y = element_text(size = my_ats
                                     , angle = 0
                                     , hjust = 1)
        , axis.title.x = element_text(size = my_als)
        , axis.title.y = element_text(size = my_als)
        , plot.title = element_blank()) +

  labs(x = "Number of SNPs"
       , y = "Number of Sites")

print(prinfFile)
dev.off()
########################################################################
#               			end of DUET barplots
########################################################################