pytorch · May 15, 2024
diff --git a/‎examples/stateful/Readme.md
+8-1 b/‎examples/stateful/Readme.md
+8-1
diff --git a/‎examples/stateful/model-config.yaml
+1 b/‎examples/stateful/model-config.yaml
+1
diff --git a/‎frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
+19-1 b/‎frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
+19-1
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java
+28-4 b/‎frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java
+28-4
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/job/Job.java
-12 b/‎frontend/server/src/main/java/org/pytorch/serve/job/Job.java
-12
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
+13 b/‎frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
+13
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
+13-1 b/‎frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
+13-1
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/util/ConfigManager.java
+41 b/‎frontend/server/src/main/java/org/pytorch/serve/util/ConfigManager.java
+41
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
+6-1 b/‎frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
+6-1
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java
+5-5 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java
+5-5
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
+1-4 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
+1-4
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
+16-16 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
+16-16
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatchAggregator.java
+25-2 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatchAggregator.java
+25-2
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
+1-1 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
+1-1
diff --git a/‎frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java
+2-6 b/‎frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java
+2-6
diff --git a/‎test/pytest/test_example_stateful_http.py
+162 b/‎test/pytest/test_example_stateful_http.py
+162
diff --git a/‎ts/context.py
+11-2 b/‎ts/context.py
+11-2
@@ -82,6 +82,7 @@ maxWorkers: 2
 batchSize: 4
 sequenceMaxIdleMSec: 60000
 maxSequenceJobQueueSize: 10
+sequenceBatching: true
 
 handler:
   cache:
@@ -122,8 +123,14 @@ cd -
 torchserve --ncs --start --model-store models --model stateful.mar --ts-config config.properties
 ```
 
-* Run sequence inference
+* Run sequence inference via GRPC client
 ```bash
 cd ../../
 python ts_scripts/torchserve_grpc_client.py  infer_stream2 stateful seq_0 examples/stateful/sample/sample1.txt,examples/stateful/sample/sample2.txt,examples/stateful/sample/sample3.txt
 ```
+
+* Run sequence inference via HTTP
+```bash
+cd ../../
+curl -H "ts_request_sequence_id: seq_0" http://localhost:8080/predictions/stateful -T examples/stateful/sample/sample1.txt
+```
@@ -4,6 +4,7 @@ batchSize: 4
 maxNumSequence: 4
 sequenceMaxIdleMSec: 10
 maxSequenceJobQueueSize: 10
+sequenceBatching: true
 
 handler:
   cache:
 
@@ -56,7 +56,7 @@ public class ModelConfig {
     private boolean useJobTicket;
     /**
      * the max idle in milliseconds of a sequence inference request of this stateful model. The
-     * default value is 0 (ie. this is not a stateful model.)
+     * default value is 0.
      */
     private long sequenceMaxIdleMSec;
     /**
@@ -73,6 +73,8 @@ public class ModelConfig {
      * loading and inference.
      */
     private boolean useVenv;
+    /** sequenceBatching is a flag to enable https://github.com/pytorch/serve/issues/2743 */
+    private boolean sequenceBatching;
 
     public static ModelConfig build(Map<String, Object> yamlMap) {
         ModelConfig modelConfig = new ModelConfig();
@@ -212,6 +214,14 @@ public static ModelConfig build(Map<String, Object> yamlMap) {
                                         v);
                             }
                             break;
+                        case "sequenceBatching":
+                            if (v instanceof Boolean) {
+                                modelConfig.setSequenceBatching((boolean) v);
+                            } else {
+                                logger.warn(
+                                        "Invalid sequenceBatching: {}, should be true or false", v);
+                            }
+                            break;
                         case "useVenv":
                             if (v instanceof Boolean) {
                                 modelConfig.setUseVenv((boolean) v);
@@ -383,6 +393,14 @@ public void setContinuousBatching(boolean continuousBatching) {
         this.continuousBatching = continuousBatching;
     }
 
+    public boolean isSequenceBatching() {
+        return sequenceBatching;
+    }
+
+    public void setSequenceBatching(boolean sequenceBatching) {
+        this.sequenceBatching = sequenceBatching;
+    }
+
     public int getMaxNumSequence() {
         return maxNumSequence;
     }
 
@@ -39,6 +39,7 @@
 
 public class InferenceImpl extends InferenceAPIsServiceImplBase {
     private static final Logger logger = LoggerFactory.getLogger(InferenceImpl.class);
+    private static final ByteString strFalse = ByteString.copyFromUtf8("false");
 
     @Override
     public void ping(Empty request, StreamObserver<TorchServeHealthResponse> responseObserver) {
@@ -102,9 +103,16 @@ public StreamObserver<PredictionsRequest> streamPredictions2(
 
             @Override
             public void onNext(PredictionsRequest value) {
-                String sequenceId = value.getSequenceId();
-
-                if ("".equals(sequenceId)) {
+                boolean not_has_seq_id = "".equals(value.getSequenceId());
+                boolean has_seq_in_header =
+                        !Boolean.parseBoolean(
+                                value.getInputOrDefault(
+                                                ConfigManager.getInstance()
+                                                        .getTsHeaderKeySequenceStart(),
+                                                strFalse)
+                                        .toString()
+                                        .toLowerCase());
+                if (not_has_seq_id && has_seq_in_header) {
                     BadRequestException e =
                             new BadRequestException("Parameter sequenceId is required.");
                     sendErrorResponse(
@@ -219,7 +227,23 @@ private void prediction(
                         new InputParameter(entry.getKey(), entry.getValue().toByteArray()));
             }
             if (workerCmd == WorkerCommands.STREAMPREDICT2) {
-                inputData.setSequenceId(request.getSequenceId());
+                String sequenceId = request.getSequenceId();
+                if ("".equals(sequenceId)) {
+                    sequenceId = String.format("ts-%s", UUID.randomUUID());
+                    inputData.updateHeaders(
+                            ConfigManager.getInstance().getTsHeaderKeySequenceStart(), "true");
+                }
+                inputData.updateHeaders(
+                        ConfigManager.getInstance().getTsHeaderKeySequenceId(), sequenceId);
+                if (!Boolean.parseBoolean(
+                        request.getInputOrDefault(
+                                        ConfigManager.getInstance().getTsHeaderKeySequenceEnd(),
+                                        strFalse)
+                                .toString()
+                                .toLowerCase())) {
+                    inputData.updateHeaders(
+                            ConfigManager.getInstance().getTsHeaderKeySequenceEnd(), "true");
+                }
             }
 
             IMetric inferenceRequestsTotalMetric =
 
@@ -20,18 +20,6 @@ public Job(String modelName, String version, WorkerCommands cmd, RequestInput in
         this.modelVersion = version;
         begin = System.nanoTime();
         scheduled = begin;
-
-        switch (cmd) {
-            case STREAMPREDICT:
-                input.updateHeaders(RequestInput.TS_STREAM_NEXT, "true");
-                break;
-            case STREAMPREDICT2:
-                input.updateHeaders(RequestInput.TS_STREAM_NEXT, "true");
-                input.updateHeaders(RequestInput.TS_REQUEST_SEQUENCE_ID, input.getSequenceId());
-                break;
-            default:
-                break;
-        }
     }
 
     public String getJobId() {
 
@@ -10,18 +10,23 @@ public class JobGroup {
     String groupId;
     LinkedBlockingDeque<Job> jobs;
     int maxJobQueueSize;
+    boolean finished;
 
     public JobGroup(String groupId, int maxJobQueueSize) {
         this.groupId = groupId;
         this.maxJobQueueSize = maxJobQueueSize;
         this.jobs = new LinkedBlockingDeque<>(maxJobQueueSize);
+        this.finished = false;
     }
 
     public boolean appendJob(Job job) {
         return jobs.offer(job);
     }
 
     public Job pollJob(long timeout) {
+        if (finished) {
+            return null;
+        }
         try {
             return jobs.poll(timeout, TimeUnit.MILLISECONDS);
         } catch (InterruptedException e) {
@@ -33,4 +38,12 @@ public Job pollJob(long timeout) {
     public String getGroupId() {
         return groupId;
     }
+
+    public void setFinished(boolean sequenceEnd) {
+        this.finished = sequenceEnd;
+    }
+
+    public boolean isFinished() {
+        return this.finished;
+    }
 }
@@ -9,6 +9,7 @@
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
+import java.util.UUID;
 import java.util.concurrent.CompletableFuture;
 import java.util.concurrent.ExecutionException;
 import java.util.function.Function;
@@ -412,7 +413,7 @@ private static DescribeModelResponse createModelResponse(
         resp.setContinuousBatching(model.isContinuousBatching());
         resp.setUseJobTicket(model.isUseJobTicket());
         resp.setUseVenv(model.isUseVenv());
-        resp.setStateful(model.isStateful());
+        resp.setStateful(model.isSequenceBatching());
         resp.setSequenceMaxIdleMSec(model.getSequenceMaxIdleMSec());
         resp.setMaxNumSequence(model.getMaxNumSequence());
         resp.setMaxSequenceJobQueueSize(model.getMaxSequenceJobQueueSize());
@@ -442,6 +443,17 @@ private static DescribeModelResponse createModelResponse(
     public static RestJob addRESTInferenceJob(
             ChannelHandlerContext ctx, String modelName, String version, RequestInput input)
             throws ModelNotFoundException, ModelVersionNotFoundException {
+        String sequenceStart;
+        if ((sequenceStart =
+                        input.getHeaders()
+                                .get(ConfigManager.getInstance().getTsHeaderKeySequenceStart()))
+                != null) {
+            if (Boolean.parseBoolean(sequenceStart.toLowerCase())) {
+                String sequenceId = String.format("ts-%s", UUID.randomUUID());
+                input.updateHeaders(
+                        ConfigManager.getInstance().getTsHeaderKeySequenceId(), sequenceId);
+            }
+        }
         RestJob job = new RestJob(ctx, modelName, version, WorkerCommands.PREDICT, input);
         if (!ModelManager.getInstance().addJob(job)) {
             String responseMessage = getStreamingInferenceErrorResponseMessage(modelName, version);
 
@@ -120,6 +120,9 @@ public final class ConfigManager {
     private static final String TS_CPP_LOG_CONFIG = "cpp_log_config";
     private static final String TS_OPEN_INFERENCE_PROTOCOL = "ts_open_inference_protocol";
     private static final String TS_TOKEN_EXPIRATION_TIME_MIN = "token_expiration_min";
+    private static final String TS_HEADER_KEY_SEQUENCE_ID = "ts_header_key_sequence_id";
+    private static final String TS_HEADER_KEY_SEQUENCE_START = "ts_header_key_sequence_start";
+    private static final String TS_HEADER_KEY_SEQUENCE_END = "ts_header_key_sequence_end";
 
     // Configuration which are not documented or enabled through environment variables
     private static final String USE_NATIVE_IO = "use_native_io";
@@ -145,6 +148,10 @@ public final class ConfigManager {
 
     public static final String PYTHON_EXECUTABLE = "python";
 
+    public static final String DEFAULT_REQUEST_SEQUENCE_ID = "ts_request_sequence_id";
+    public static final String DEFAULT_REQUEST_SEQUENCE_START = "ts_request_sequence_start";
+    public static final String DEFAULT_REQUEST_SEQUENCE_END = "ts_request_sequence_end";
+
     public static final Pattern ADDRESS_PATTERN =
             Pattern.compile(
                     "((https|http)://([^:^/]+)(:([0-9]+))?)|(unix:(/.*))",
@@ -161,6 +168,10 @@ public final class ConfigManager {
     private Map<String, Map<String, JsonObject>> modelConfig = new HashMap<>();
     private String torchrunLogDir;
     private boolean telemetryEnabled;
+    private String headerKeySequenceId;
+    private String headerKeySequenceStart;
+    private String headerKeySequenceEnd;
+
     private Logger logger = LoggerFactory.getLogger(ConfigManager.class);
 
     private ConfigManager(Arguments args) throws IOException {
@@ -272,6 +283,9 @@ private ConfigManager(Arguments args) throws IOException {
         }
 
         setModelConfig();
+        setTsHeaderKeySequenceId();
+        setTsHeaderKeySequenceStart();
+        setTsHeaderKeySequenceEnd();
 
         // Issue warnining about URLs that can be accessed when loading models
         if (prop.getProperty(TS_ALLOWED_URLS, DEFAULT_TS_ALLOWED_URLS) == DEFAULT_TS_ALLOWED_URLS) {
@@ -960,6 +974,33 @@ public Double getTimeToExpiration() {
         return 0.0;
     }
 
+    public String getTsHeaderKeySequenceId() {
+        return this.headerKeySequenceId;
+    }
+
+    public void setTsHeaderKeySequenceId() {
+        this.headerKeySequenceId =
+                prop.getProperty(TS_HEADER_KEY_SEQUENCE_ID, DEFAULT_REQUEST_SEQUENCE_ID);
+    }
+
+    public String getTsHeaderKeySequenceStart() {
+        return this.headerKeySequenceStart;
+    }
+
+    public void setTsHeaderKeySequenceStart() {
+        this.headerKeySequenceStart =
+                prop.getProperty(TS_HEADER_KEY_SEQUENCE_START, DEFAULT_REQUEST_SEQUENCE_START);
+    }
+
+    public String getTsHeaderKeySequenceEnd() {
+        return this.headerKeySequenceEnd;
+    }
+
+    public void setTsHeaderKeySequenceEnd() {
+        this.headerKeySequenceEnd =
+                prop.getProperty(TS_HEADER_KEY_SEQUENCE_END, DEFAULT_REQUEST_SEQUENCE_END);
+    }
+
     public boolean isSSLEnabled(ConnectorType connectorType) {
         String address = prop.getProperty(TS_INFERENCE_ADDRESS, "http://127.0.0.1:8080");
         switch (connectorType) {
 
@@ -5,10 +5,10 @@
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
+import org.pytorch.serve.util.ConfigManager;
 
 public class RequestInput {
     public static final String TS_STREAM_NEXT = "ts_stream_next";
-    public static final String TS_REQUEST_SEQUENCE_ID = "ts_request_sequence_id";
     private String requestId;
     private String sequenceId;
     private Map<String, String> headers;
@@ -75,6 +75,11 @@ public void setClientExpireTS(long clientTimeoutInMills) {
     }
 
     public String getSequenceId() {
+        if (sequenceId == null) {
+            sequenceId =
+                    headers.getOrDefault(
+                            ConfigManager.getInstance().getTsHeaderKeySequenceId(), null);
+        }
         return sequenceId;
     }
 
 
@@ -10,7 +10,6 @@
 import org.pytorch.serve.util.messages.ModelWorkerResponse;
 import org.pytorch.serve.util.messages.Predictions;
 import org.pytorch.serve.util.messages.RequestInput;
-import org.pytorch.serve.util.messages.WorkerCommands;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -56,10 +55,7 @@ public BaseModelRequest getRequest(String threadName, WorkerState state)
                 }
                 return new ModelLoadModelRequest(model, gpuId);
             } else {
-                if (j.getCmd() == WorkerCommands.STREAMPREDICT
-                        || j.getCmd() == WorkerCommands.STREAMPREDICT2) {
-                    req.setCommand(j.getCmd());
-                }
+                req.setCommand(j.getCmd());
                 j.setScheduled();
                 req.addRequest(j.getPayload());
             }
@@ -190,4 +186,8 @@ public void pollBatch(String threadName, WorkerState state)
         model.pollBatch(
                 threadName, (state == WorkerState.WORKER_MODEL_LOADED) ? 0 : Long.MAX_VALUE, jobs);
     }
+
+    public void shutdown() {
+        return;
+    }
 }
@@ -9,7 +9,6 @@
 import org.pytorch.serve.util.messages.ModelWorkerResponse;
 import org.pytorch.serve.util.messages.Predictions;
 import org.pytorch.serve.util.messages.RequestInput;
-import org.pytorch.serve.util.messages.WorkerCommands;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -48,9 +47,7 @@ public BaseModelRequest getRequest(String threadName, WorkerState state)
                 }
                 return new ModelLoadModelRequest(model, gpuId);
             } else {
-                if (j.getCmd() == WorkerCommands.STREAMPREDICT) {
-                    req.setCommand(WorkerCommands.STREAMPREDICT);
-                }
+                req.setCommand(j.getCmd());
                 j.setScheduled();
                 req.addRequest(j.getPayload());
             }
 
@@ -83,12 +83,14 @@ public class Model {
     private boolean useJobTicket;
     private AtomicInteger numJobTickets;
     private boolean continuousBatching;
+    private boolean sequenceBatch;
     private boolean useVenv;
 
     public Model(ModelArchive modelArchive, int queueSize) {
         this.modelArchive = modelArchive;
         if (modelArchive != null && modelArchive.getModelConfig() != null) {
             continuousBatching = modelArchive.getModelConfig().isContinuousBatching();
+            sequenceBatch = modelArchive.getModelConfig().isSequenceBatching();
             useVenv = modelArchive.getModelConfig().getUseVenv();
             if (modelArchive.getModelConfig().getParallelLevel() > 0
                     && modelArchive.getModelConfig().getParallelType()
@@ -131,10 +133,11 @@ public Model(ModelArchive modelArchive, int queueSize) {
                         Math.max(
                                 modelArchive.getModelConfig().getMaxNumSequence(),
                                 batchSize * maxWorkers);
-                jobGroups = new ConcurrentHashMap<>(maxNumSequence);
-                pendingJobGroups = new LinkedBlockingDeque<>(maxNumSequence);
-                jobGroupLock = new ReentrantLock();
-                stateful = true;
+                if (sequenceBatch) {
+                    jobGroups = new ConcurrentHashMap<>(maxNumSequence);
+                    pendingJobGroups = new LinkedBlockingDeque<>(maxNumSequence);
+                    jobGroupLock = new ReentrantLock();
+                }
             }
         } else {
             batchSize = 1;
@@ -288,7 +291,7 @@ public boolean addJob(Job job) {
             logger.info("There are no job tickets available");
             return false;
         }
-        if (job.getGroupId() != null) {
+        if (sequenceBatch && job.getGroupId() != null) {
             return addJobInGroup(job);
         }
         return jobsDb.get(DEFAULT_DATA_QUEUE).offer(job);
@@ -460,9 +463,8 @@ public void pollBatch(String threadId, long waitTime, Map<String, Job> jobsRepo)
             logger.trace("get first job: {}", Objects.requireNonNull(j).getJobId());
 
             jobsRepo.put(j.getJobId(), j);
-            // batch size always is 1 for describe request job and stream prediction request job
-            if (j.getCmd() == WorkerCommands.DESCRIBE
-                    || j.getCmd() == WorkerCommands.STREAMPREDICT) {
+            // batch size always is 1 for describe request job
+            if (j.getCmd() == WorkerCommands.DESCRIBE) {
                 return;
             }
             long begin = System.currentTimeMillis();
@@ -472,10 +474,8 @@ public void pollBatch(String threadId, long waitTime, Map<String, Job> jobsRepo)
                     break;
                 }
                 long end = System.currentTimeMillis();
-                // job batch size always is 1 when request is
-                // describe or stream prediction
-                if (j.getCmd() == WorkerCommands.DESCRIBE
-                        || j.getCmd() == WorkerCommands.STREAMPREDICT) {
+                // job batch size always is 1 when request is describe
+                if (j.getCmd() == WorkerCommands.DESCRIBE) {
                     // Add the job back into the jobsQueue
                     jobsQueue.addFirst(j);
                     break;
@@ -610,10 +610,6 @@ public void setSequenceMaxIdleMSec(long sequenceMaxIdleMSec) {
         this.sequenceMaxIdleMSec = sequenceMaxIdleMSec;
     }
 
-    public boolean isStateful() {
-        return stateful;
-    }
-
     public int getMaxSequenceJobQueueSize() {
         return maxSequenceJobQueueSize;
     }
@@ -638,6 +634,10 @@ public boolean isContinuousBatching() {
         return continuousBatching;
     }
 
+    public boolean isSequenceBatching() {
+        return sequenceBatch;
+    }
+
     public boolean isUseVenv() {
         if (getRuntimeType() == Manifest.RuntimeType.PYTHON) {
             return useVenv;
 
@@ -11,6 +11,7 @@
 import java.util.concurrent.atomic.AtomicBoolean;
 import org.pytorch.serve.job.Job;
 import org.pytorch.serve.job.JobGroup;
+import org.pytorch.serve.util.ConfigManager;
 import org.pytorch.serve.util.messages.BaseModelRequest;
 import org.pytorch.serve.util.messages.ModelWorkerResponse;
 import org.slf4j.Logger;
@@ -35,6 +36,7 @@ public class SequenceBatchAggregator extends BatchAggregator {
     // back to eventJobGroupIds once their jobs are processed by a batch.
     private LinkedList<String> currentJobGroupIds;
     private int localCapacity;
+    private AtomicBoolean running = new AtomicBoolean(true);
 
     public SequenceBatchAggregator(Model model) {
         super(model);
@@ -161,6 +163,13 @@ public void cleanJobs() {
         }
     }
 
+    @Override
+    public void shutdown() {
+        this.setRunning(false);
+        this.shutdownExecutors();
+        this.stopEventDispatcher();
+    }
+
     public void shutdownExecutors() {
         this.pollExecutors.shutdown();
     }
@@ -171,10 +180,14 @@ private void addJobGroup(String jobGroupId) {
         }
     }
 
+    public void setRunning(boolean running) {
+        this.running.set(running);
+    }
+
     class EventDispatcher implements Runnable {
         @Override
         public void run() {
-            while (true) {
+            while (running.get()) {
                 try {
                     String jobGroupId =
                             eventJobGroupIds.poll(model.getMaxBatchDelay(), TimeUnit.MILLISECONDS);
@@ -197,7 +210,9 @@ public void run() {
                                 pollExecutors);
                     }
                 } catch (InterruptedException e) {
-                    logger.error("EventDispatcher failed to get jobGroup", e);
+                    if (running.get()) {
+                        logger.error("EventDispatcher failed to get jobGroup", e);
+                    }
                 }
             }
         }
@@ -212,6 +227,14 @@ private void pollJobFromJobGroup(String jobGroupId) {
                 // intent to add new job groups.
                 eventJobGroupIds.add("");
             } else {
+                if (Boolean.parseBoolean(
+                        job.getPayload()
+                                .getHeaders()
+                                .getOrDefault(
+                                        ConfigManager.getInstance().getTsHeaderKeySequenceEnd(),
+                                        "false"))) {
+                    jobGroup.setFinished(true);
+                }
                 jobsQueue.add(job);
             }
         }
 
@@ -229,7 +229,7 @@ private void addThreads(
 
             BatchAggregator aggregator;
 
-            if (model.isStateful()) {
+            if (model.isSequenceBatching()) {
                 aggregator = new SequenceBatchAggregator(model);
             } else if (model.isContinuousBatching()) {
                 aggregator = new ContinuousBatching(model);
 
@@ -248,9 +248,8 @@ public void run() {
 
                 switch (req.getCommand()) {
                     case PREDICT:
-                        model.resetFailedInfReqs();
-                        break;
                     case STREAMPREDICT:
+                    case STREAMPREDICT2:
                         model.resetFailedInfReqs();
                         break;
                     case LOAD:
@@ -471,6 +470,7 @@ public int getPid() {
 
     public void shutdown() {
         running.set(false);
+        aggregator.shutdown();
         setState(WorkerState.WORKER_SCALED_DOWN, HttpURLConnection.HTTP_OK);
         for (int i = 0;
                 backendChannel.size() > 0
@@ -489,10 +489,6 @@ public void shutdown() {
 
             model.removeJobQueue(workerId);
         }
-        if (aggregator instanceof SequenceBatchAggregator) {
-            ((SequenceBatchAggregator) aggregator).shutdownExecutors();
-            ((SequenceBatchAggregator) aggregator).stopEventDispatcher();
-        }
     }
 
     private String getWorkerName() {
 
@@ -0,0 +1,162 @@
+import shutil
+import sys
+import threading
+from pathlib import Path
+
+import pytest
+import requests
+import test_utils
+from model_archiver.model_archiver_config import ModelArchiverConfig
+
+CURR_FILE_PATH = Path(__file__).parent
+STATEFUL_PATH = CURR_FILE_PATH.parents[1] / "examples" / "stateful"
+CONFIG_PROPERTIES_PATH = CURR_FILE_PATH.parents[1] / "test" / "config_ts.properties"
+
+YAML_CONFIG = f"""
+# TorchServe frontend parameters
+minWorkers: 2
+maxWorkers: 2
+batchSize: 4
+maxNumSequence: 4
+sequenceMaxIdleMSec: 5000
+maxSequenceJobQueueSize: 10
+sequenceBatching: true
+
+handler:
+  cache:
+    capacity: 4
+"""
+
+PROMPTS = [
+    {
+        "prompt": "A robot may not injure a human being",
+        "max_new_tokens": 50,
+        "temperature": 0.8,
+        "logprobs": 1,
+        "prompt_logprobs": 1,
+        "max_tokens": 128,
+        "adapter": "adapter_1",
+    },
+]
+
+
+@pytest.fixture
+def add_paths():
+    sys.path.append(STATEFUL_PATH.as_posix())
+    yield
+    sys.path.pop()
+
+
+@pytest.fixture(scope="module")
+def model_name():
+    yield "stateful"
+
+
+@pytest.fixture(scope="module")
+def work_dir(tmp_path_factory, model_name):
+    return tmp_path_factory.mktemp(model_name)
+
+
+@pytest.fixture(scope="module", name="mar_file_path")
+def create_mar_file(work_dir, model_archiver, model_name, request):
+    mar_file_path = Path(work_dir).joinpath(model_name)
+
+    model_config_yaml = Path(work_dir) / "model-config.yaml"
+    model_config_yaml.write_text(YAML_CONFIG)
+
+    config = ModelArchiverConfig(
+        model_name=model_name,
+        version="1.0",
+        handler=(STATEFUL_PATH / "stateful_handler.py").as_posix(),
+        serialized_file=(STATEFUL_PATH / "model_cnn.pt").as_posix(),
+        model_file=(STATEFUL_PATH / "model.py").as_posix(),
+        export_path=work_dir,
+        requirements_file=(STATEFUL_PATH / "requirements.txt").as_posix(),
+        runtime="python",
+        force=False,
+        config_file=model_config_yaml.as_posix(),
+        archive_format="no-archive",
+    )
+
+    model_archiver.generate_model_archive(config)
+
+    assert mar_file_path.exists()
+
+    yield mar_file_path.as_posix()
+
+    # Clean up files
+    shutil.rmtree(mar_file_path)
+
+
+def test_stateful_mar(mar_file_path, model_store):
+    """
+    Register the model in torchserve
+    """
+
+    file_name = Path(mar_file_path).name
+
+    model_name = Path(file_name).stem
+
+    shutil.copytree(mar_file_path, Path(model_store) / model_name)
+
+    params = (
+        ("model_name", model_name),
+        ("url", Path(model_store) / model_name),
+        ("initial_workers", "2"),
+        ("synchronous", "true"),
+    )
+
+    test_utils.start_torchserve(
+        model_store=model_store, snapshot_file=CONFIG_PROPERTIES_PATH, gen_mar=False
+    )
+
+    try:
+        test_utils.reg_resp = test_utils.register_model_with_params(params)
+
+        t0 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_0",
+                "1 4 9 16 25",
+            ),
+        )
+        t1 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_1",
+                "2 6 12 20 30",
+            ),
+        )
+
+        t0.start()
+        t1.start()
+
+        t0.join()
+        t1.join()
+    finally:
+        test_utils.unregister_model(model_name)
+
+        # Clean up files
+        shutil.rmtree(Path(model_store) / model_name)
+
+
+def __infer_stateful(model_name, sequence_id, expected):
+    headers = {
+        "ts_request_sequence_id": sequence_id,
+    }
+    prediction = []
+    for idx in range(5):
+        if sequence_id == "seq_0":
+            idx = 2 * idx
+        elif sequence_id == "seq_1":
+            idx = 2 * idx + 1
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            headers=headers,
+            data=str(idx + 1).encode(),
+        )
+        prediction.append(response.text)
+
+    assert str(" ".join(prediction)) == expected
@@ -1,7 +1,7 @@
 """
 Context object of incoming request
 """
-
+import os
 from typing import Dict, Optional, Tuple
 
 
@@ -40,6 +40,15 @@ def __init__(
         self.metrics = metrics
         self.model_yaml_config = model_yaml_config
         self.stopping_criteria = None
+        self.header_key_sequence_id = os.getenv(
+            "TS_REQUEST_SEQUENCE_ID", "ts_request_sequence_id"
+        )
+        self.header_key_sequence_start = os.getenv(
+            "TS_REQUEST_SEQUENCE_START", "ts_request_sequence_start"
+        )
+        self.header_key_sequence_end = os.getenv(
+            "TS_REQUEST_SEQUENCE_END", "ts_request_sequence_end"
+        )
 
     @property
     def system_properties(self):
@@ -121,7 +130,7 @@ def __eq__(self, other: object) -> bool:
 
     def get_sequence_id(self, idx: int) -> str:
         return self._request_processor[idx].get_request_property(
-            "ts_request_sequence_id"
+            self.header_key_sequence_id
         )