ML_AI_training/ml_data/del/ml_data_v1.R

#!/usr/bin/env Rscript

# target var options:
# drtype: MDR, etc, full data
# pyrazinamide: 0 and 1, loss of data
# mutation_info_labels: DM and OM, full data
##################################################
# ONLY ONCE
#source("~/git/LSHTM_analysis/config/pnca.R")
#source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
#write.csv(colnames(merged_df3), "data_colnames.csv")
#---------------------------------------------------
colnames_order_pnca = read.csv("~/git/ML_AI_training/ml_data/colnames_order.csv"
                          , header = F)
# reorder columns by name
colnames_order_pnca <- colnames_order_pnca$V1
###################################################
#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
#config_gene = c("alr", "embb")
#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)

#source("~/git/LSHTM_analysis/config/alr.R")
# FIXME: "cycloserine"        "mcsm_ppi2_affinity" "mcsm_ppi2_scaled"   "mcsm_ppi2_outcome"  "interface_dist"
# source("~/git/LSHTM_analysis/config/embb.R")
# source("~/git/LSHTM_analysis/config/gid.R")
# source("~/git/LSHTM_analysis/config/katg.R")
source("~/git/LSHTM_analysis/config/pnca.R")
# source("~/git/LSHTM_analysis/config/rpob.R")
##################################################
source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")

######################################################
mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
mdf3_outName

if( (length(colnames_order) == ncol(merged_df3)) &&  (all(colnames_order %in%colnames(merged_df3))) ){
  cat("\nProceeding with rearranging columns in merged_df3")
  merged_df3_o = merged_df3[ , colnames_order]
  cat("\nWriting output file:", mdf3_outName)
  write.csv(merged_df3_o, mdf3_outName, row.names = F)
  cat("\nnrows:"   , nrow(merged_df3_o)
      , "\nncols:" , ncol(merged_df3_o))

  }else
  cat("length mismatch:"
      , colnames(merged_df3)[!colnames(merged_df3)%in%(colnames_order )]
  )

mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
mdf2_outName

if( (length(colnames_order) == ncol(merged_df2)) &&  (all(colnames_order %in%colnames(merged_df2))) ){
  cat("\nProceeding with rearranging columns in merged_df3")
  merged_df2_o = merged_df2[ , colnames_order]
  cat("\nWriting output file:", mdf2_outName)
  write.csv(merged_df2_o, mdf2_outName, row.names = F)
  cat("\nnrows:"   , nrow(merged_df2_o)
      , "\nncols:" , ncol(merged_df2_o))

}