ML_AI_training/ml_data/ml_data.R

#!/usr/bin/env Rscript

# target var options:
# drtype: MDR, etc, full data
# pyrazinamide: 0 and 1, loss of data
# mutation_info_labels: DM and OM, full data
##################################################

###################################################
#config_gene = c("alr", "embb", "gid", "katg", "pnca", "rpob")
#config_gene = c("alr", "embb")
#sapply(config_gene, function(x) source(paste0("~/git/LSHTM_analysis/config/", x, ".R")), USE.NAMES = F)
#----------------------------------------------------
#source("~/git/LSHTM_analysis/config/alr.R")
#source("~/git/LSHTM_analysis/config/embb.R")
#source("~/git/LSHTM_analysis/config/gid.R")
#source("~/git/LSHTM_analysis/config/katg.R")
#source("~/git/LSHTM_analysis/config/pnca.R")
source("~/git/LSHTM_analysis/config/rpob.R")
#----------------------------------------------------
source("~/git/LSHTM_analysis/scripts/plotting/get_plotting_dfs.R")
######################################################
gene; drug

merged_df3$active_aa_pos = ifelse(merged_df3$position %in% active_aa_pos , 1, 0)
table(merged_df3$active_aa_pos)

mdf3_outName = paste0(outdir, "/", tolower(gene), "_merged_df3.csv")
mdf3_outName

cat("\nWriting output file:", mdf3_outName)
write.csv(merged_df3, mdf3_outName, row.names = F)
cat("\nnrows:"   , nrow(merged_df3)
    , "\nncols:" , ncol(merged_df3))

#=========================================================
merged_df2$active_aa_pos = ifelse(merged_df2$position %in% active_aa_pos , 1, 0)
table(merged_df2$active_aa_pos)

mdf2_outName = paste0(outdir, "/", tolower(gene), "_merged_df2.csv")
mdf2_outName

cat("\nWriting output file:", mdf2_outName)
write.csv(merged_df2, mdf2_outName, row.names = F)
cat("\nnrows:"   , nrow(merged_df2)
    , "\nncols:" , ncol(merged_df2))