saving work for yesterday where uq runs were repeated

This commit is contained in:
Tanushree Tunstall 2022-06-20 14:57:11 +01:00
parent efeaf52cde
commit 4ab99dcbd2
11 changed files with 10993 additions and 10660 deletions

View file

@ -32,15 +32,36 @@ from ml_data import *
# TT run all ML clfs: baseline mode
from MultModelsCl import MultModelsCl
#%%###########################################################################
print('\n#####################################################################\n')
print('TESTING cmd:'
############################################################################
print('\n#####################################################################\n'
, '\nRunning ML analysis: UQ [without AA index but with active site annotations]'
, '\nGene name:', gene
, '\nDrug name:', drug
, '\nTotal input features:', X.shape
, '\n', Counter(y))
, '\nDrug name:', drug)
#==================
# Specify outdir
#==================
outdir_ml = outdir + 'ml/uq_v1/'
print('\nOutput directory:', outdir_ml)
#%%###########################################################################
print('\nSanity checks:'
, '\nTotal input features:', len(X.columns)
, '\n'
, '\nTraining data size:', X.shape
, '\nTest data size:', X_bts.shape
, '\n'
, '\nTarget feature numbers (training data):', Counter(y)
, '\nTarget features ratio (training data:', yc1_ratio
, '\n'
, '\nTarget feature numbers (test data):', Counter(y_bts)
, '\nTarget features ratio (test data):', yc2_ratio
, '\n\n#####################################################################\n')
print('\n================================================================\n')
print('Strucutral features (n):'
, len(X_ssFN)
@ -50,11 +71,11 @@ print('Strucutral features (n):'
, '\nOther struc columns:', X_str
, '\n================================================================\n')
print('AAindex features (n):'
, len(X_aaindexFN)
, '\nThese are:\n'
, X_aaindexFN
, '\n================================================================\n')
# print('AAindex features (n):'
# , len(X_aaindexFN)
# , '\nThese are:\n'
# , X_aaindexFN
# , '\n================================================================\n')
print('Evolutionary features (n):'
, len(X_evolFN)
@ -75,20 +96,15 @@ print('Categorical features (n):'
, categorical_FN
, '\n================================================================\n')
if ( len(X.columns) == len(X_ssFN) + len(X_aaindexFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
#if ( len(X.columns) == len(X_ssFN) + len(X_aaindexFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
if ( len(X.columns) == len(X_ssFN) + len(X_evolFN) + len(X_genomicFN) + len(categorical_FN) ):
print('\nPass: No. of features match')
else:
sys.exit('\nFail: Count of feature mismatch')
print('\n#####################################################################\n')
################################################################################
#==================
# Specify outdir
#==================
outdir_ml = outdir + 'ml/v2/'
################################################################################
###############################################################################
#==================
# Baseline models
#==================