saving work for yesterday where uq runs were repeated

2022-06-20 14:57:11 +01:00 · 2022-06-20 14:57:11 +01:00 · 4ab99dcbd2
commit 4ab99dcbd2
parent efeaf52cde
11 changed files with 10993 additions and 10660 deletions
--- a/scripts/ml/alr_config.py
+++ b/scripts/ml/alr_config.py
@ -32,15 +32,36 @@ from ml_data import *
 # TT run all ML clfs: baseline mode
 from MultModelsCl import MultModelsCl

-#%%###########################################################################
-
-print('\n#####################################################################\n')
-
-print('TESTING cmd:'
+############################################################################
+print('\n#####################################################################\n'
+      , '\nRunning ML analysis: UQ [without AA  index but with active site annotations]'
      , '\nGene name:', gene
-      , '\nDrug name:', drug
-      , '\nTotal input features:', X.shape
-      , '\n', Counter(y))
+      , '\nDrug name:', drug)
+
+#==================
+# Specify outdir 
+#==================
+
+outdir_ml = outdir + 'ml/uq_v1/'
+
+print('\nOutput directory:', outdir_ml)
+
+#%%###########################################################################
+print('\nSanity checks:'
+      , '\nTotal input features:', len(X.columns)
+      , '\n'
+      , '\nTraining data size:', X.shape
+      , '\nTest data size:', X_bts.shape
+      , '\n'
+      , '\nTarget feature numbers (training data):', Counter(y)
+      , '\nTarget features ratio (training data:', yc1_ratio
+      , '\n'
+      , '\nTarget feature numbers (test data):', Counter(y_bts)
+      , '\nTarget features ratio (test data):', yc2_ratio
+      
+      , '\n\n#####################################################################\n')
+
+print('\n================================================================\n')

 print('Strucutral features (n):'
      , len(X_ssFN)
@ -50,11 +71,11 @@ print('Strucutral features (n):'
      , '\nOther struc columns:', X_str
      , '\n================================================================\n')

-print('AAindex features (n):'
-      , len(X_aaindexFN)
-      , '\nThese are:\n'
-      , X_aaindexFN
-      , '\n================================================================\n')
+# print('AAindex features (n):'
+#       , len(X_aaindexFN)
+#       , '\nThese are:\n'
+#       , X_aaindexFN
+#       , '\n================================================================\n')

 print('Evolutionary features (n):'
      , len(X_evolFN)
@ -75,20 +96,15 @@ print('Categorical features (n):'
      , categorical_FN
      , '\n================================================================\n')

-if ( len(X.columns) ==  len(X_ssFN) + len(X_aaindexFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
+#if ( len(X.columns) ==  len(X_ssFN) + len(X_aaindexFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
+if ( len(X.columns) ==  len(X_ssFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
    print('\nPass: No. of features match')
 else:
    sys.exit('\nFail: Count of feature mismatch')

 print('\n#####################################################################\n')
-################################################################################
-#==================
-# Specify outdir 
-#==================

-outdir_ml = outdir + 'ml/v2/'
-
-################################################################################
+###############################################################################
 #==================
 # Baseline models 
 #==================