Clinical-Genomics
diff --git a/‎mutant/modules/sarscov2_report.py
+66-20 b/‎mutant/modules/sarscov2_report.py
+66-20
diff --git a/‎mutant/standalone/classifications.csv
+32 b/‎mutant/standalone/classifications.csv
+32
diff --git a/‎mutant/standalone/spike_mutations.csv
+24 b/‎mutant/standalone/spike_mutations.csv
+24
diff --git a/‎mutant/standalone/voc_strains.json
-21 b/‎mutant/standalone/voc_strains.json
-21
diff --git a/‎requirements-pip.txt
+1 b/‎requirements-pip.txt
+1
diff --git a/‎tests/testdata/MIC3109_artic.json
+1-1 b/‎tests/testdata/MIC3109_artic.json
+1-1
diff --git a/‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_S123_1.fastq.gz ‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_12CS123456_1.fastq.gz b/‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_S123_1.fastq.gz ‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_12CS123456_1.fastq.gz
diff --git a/‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_S123_2.fastq.gz ‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_12CS123456_2.fastq.gz b/‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_S123_2.fastq.gz ‎tests/testdata/fasta_files/MIC3109A1/123456_ABC12DE_MIC3109A1_FGHIJ34_12CS123456_2.fastq.gz
diff --git a/‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_S123_1.fastq.gz ‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_34CS123456_1.fastq.gz b/‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_S123_1.fastq.gz ‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_34CS123456_1.fastq.gz
diff --git a/‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3019A2_FGHIJ34_S123_2.fastq.gz ‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_34CS123456_2.fastq.gz b/‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3019A2_FGHIJ34_S123_2.fastq.gz ‎tests/testdata/fasta_files/MIC3109A2/567890_ABC12DE_MIC3109A2_FGHIJ34_34CS123456_2.fastq.gz
@@ -7,6 +7,7 @@
 import csv
 import glob
 import json
+import pandas
 import re
 import os
 import sys
@@ -48,7 +49,7 @@ def create_all_files(self):
         self.create_concat_consensus()
         self.create_deliveryfile()
         self.create_fohm_csv()
-        self.load_vanilla_artic_results()
+        self.load_lookup_dict()
         self.create_sarscov2_resultfile()
         self.create_sarscov2_variantfile()
         self.create_jsonfile()
@@ -134,7 +135,6 @@ def create_sarscov2_resultfile(self):
         if self.articdata == dict():
             print("No artic results loaded. Quitting sarscov2_resultfile")
             sys.exit(-1)
-        results = self.articdata
         indir = self.indir
 
         summaryfile = os.path.join(
@@ -153,14 +153,15 @@ def create_sarscov2_resultfile(self):
                     "Lineage",
                     "PangoLEARN_version",
                     "VOC",
-                    "Variants",
+                    "Mutations",
+                    "Region Code",
                 ]
             )
-            for sample, data in results.items():
+            for sample, data in self.articdata.items():
                 selection = "-"
                 row = [
                     sample,
-                    selection,
+                    data["selection_criteria"],
                     ticket,
                     data["pct_n_bases"],
                     data["pct_10X_bases"],
@@ -169,6 +170,7 @@ def create_sarscov2_resultfile(self):
                     data["pangoLEARN_version"],
                     data["VOC"],
                     data["VOC_aa"],
+                    data["region_code"],
                 ]
                 summary.writerow(row)
 
@@ -210,12 +212,45 @@ def create_jsonfile(self):
         ) as outfile:
             json.dump(self.articdata, outfile)
 
-    def load_vanilla_artic_results(self):
-        """Parse artic output directory for analysis results. Returns dictionary data object"""
+
+
+    def load_lookup_dict(self):
+        """ Loads articdata with data from various sources. Atm, artic output and the case          config input file """
+        self.load_artic_results()
+        self.load_case_config()
+
+    def load_case_config(self):
+        """ Appends additional data to articdata dictionary """
+        casekeys = self.caseinfo[0].keys()
+
+        packing = dict(zip(casekeys, "-"*len(casekeys)))
+
+        #Packs with keys. Time consuming but not really
+        for k, v in self.articdata.items():
+            self.articdata[k].update(packing)
+        #Writes caseconfig data where relevant
+        for entry in self.caseinfo:
+            k = entry['Customer_ID_sample']
+            if k in self.articdata.keys():
+                self.articdata[k].update(entry)
+
+
+    def load_artic_results(self):
+        """Parse artic output directory for analysis results. Returns dictionary data object        """
         indir = self.indir
         voc_pos = range(475, 486)
-        voc_pos_aa = get_json("{0}/standalone/voc_strains.json".format(WD))['voc_pos_aa']
-        voc_strains = get_json("{0}/standalone/voc_strains.json".format(WD))['voc_strains']
+        muts = pandas.read_csv("{0}/standalone/spike_mutations.csv".format(WD), sep=",")
+        # Magical unpacking into single list
+        voc_pos_aa = sum(muts.values.tolist(), [])
+
+        classifications = pandas.read_csv("{0}/standalone/classifications.csv".format(WD), sep=",")
+        voc_strains = { 'lineage':'','spike':'','class':''}
+        voc_strains['lineage'] = classifications['lineage'].tolist()
+        voc_strains['spike'] = classifications['spike'].tolist()
+        voc_strains['class'] = classifications['class'].tolist()
+
+        #voc_pos_aa = get_json("{0}/standalone/voc_strains.json".format(WD))['voc_pos_aa']
+        #voc_strains = get_json("{0}/standalone/voc_strains.json".format(WD))['voc_strains']
 
         artic_data = dict()
         var_all = dict()
@@ -251,16 +286,16 @@ def load_vanilla_artic_results(self):
             for line in content:
                 sample = line[0].split("_")[-1]
                 if float(line[2]) > 95:
-                    passed = "TRUE"
+                    qc_flag = "TRUE"
                 else:
-                    passed = "FALSE"
+                    qc_flag = "FALSE"
                 artic_data[sample] = {
                     "pct_n_bases": line[1],
                     "pct_10X_bases": line[2],
                     "longest_no_N_run": line[3],
                     "num_aligned_reads": line[4],
                     "artic_qc": line[7],
-                    "qc": passed,
+                    "qc": qc_flag,
                 }
         # Parse Pangolin report data
         with open(paths[2]) as f:
@@ -269,21 +304,16 @@ def load_vanilla_artic_results(self):
             for line in content:
                 sample = line[0].split(".")[0].split("_")[-1]
                 lineage = line[1]
-                if lineage in voc_strains:
-                    voc = "Yes"
-                elif lineage == "None":
-                    voc = "-"
-                else:
-                    voc = "No"
+
                 artic_data[sample].update(
                     {
                         "lineage": lineage,
                         "pangolin_probability": line[2],
                         "pangoLEARN_version": line[3],
                         "pangolin_qc": line[4],
-                        "VOC": voc,
                     }
                 )
+
         # Parse Variant report data
         if os.stat(paths[1]).st_size != 0:
             with open(paths[1]) as f:
@@ -317,7 +347,23 @@ def load_vanilla_artic_results(self):
                         artic_data[sample].update({"variants": var_all[sample]})
                 else:
                     artic_data[sample].update({"variants": "-"})
-        self.articdata = artic_data
+
+
+        #Classification
+        for key, vals in artic_data.items():
+            #Packing
+            artic_data[key].update( {"VOC": "No" } )
+
+            #Check for lineage
+            if artic_data[key]["lineage"] in voc_strains['lineage']:
+                index = voc_strains['lineage'].index(artic_data[key]['lineage'])
+                #Check for spike
+                if pandas.isna(voc_strains['spike'][index]) or voc_strains['spike'][index] in artic_data[key]['VOC_aa']:
+                    artic_data[key].update( {"VOC":voc_strains['class'][index]} )
+
+
+
+        self.articdata.update(artic_data)
 
     def create_deliveryfile(self):
 
 
@@ -0,0 +1,32 @@
+lineage,spike,class
+B.1.1.7,,VOC
+B.1.1.7,E484,VOC
+B.1.351,,VOC
+P.1,VOC
+B.1.525,,VOI
+B.1.427,,VOI
+B.1.429,,VOI
+P.3,,VOI
+B.1.616,,VOI
+B.1.617.1,,VOI
+B.1.617.2,,VOI
+B.1.617.3,,VOI
+B.1.620,,VOI
+B.1.621,,VOI
+B.1.214.2,,VUM
+A.23.1,E484K,VUM
+A.27,,VUM
+A.28,,VUM
+C.16,,VUM
+C.37,,VUM
+B.1.351,P384L,VUM
+B.1.351,E516Q,VUM
+B.1.1.7,L452R,VUM
+C.36,L452R,VUM
+AT.1,,VUM
+B.1.526,,VUM
+B.1.526.1,,VUM
+B.1.526.2,,VUM
+B.1.1.318,,VUM
+P.2,,VUM
+
@@ -0,0 +1,24 @@
+Spike_mutations_of_interest
+N501Y
+D614G
+E484K
+K417N
+K417T
+Q677H
+L452R
+V482A
+H655Y
+G669S
+E484Q
+T478K
+S477N
+R346K
+Q414K
+N450K
+ins214TDR
+Q613H
+N501T
+L452Q
+F490S
+P384L
+E516Q
@@ -1,3 +1,4 @@
 black
 click==7.1.2
+pandas
 pyyaml
@@ -26,7 +26,7 @@
         "lab_code": "SE999 Langistan",
         "priority": "standard",
         "Customer_ID_project": 123456,
-        "Customer_ID_sample": "12CS123456",
+        "Customer_ID_sample": "34CS123456",
         "customer_id": "cust001",
         "application_tag": "VWGDPTR001",
         "date_arrival": "2000-03-16 00:00:00",
-Original file line number
+Diff line change
 black
 click==7.1.2
 +pandas
 pyyaml