From ea83cd997c05fe5f8f9ddcca567b5a1c4bb95a9a Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 24 May 2024 13:42:40 -0700
Subject: [PATCH 01/34] Support continuous batching in sequence batch streaming
 case

---
 .../serve/archive/model/ModelConfig.java      |  23 ++++
 .../pytorch/serve/grpcimpl/InferenceImpl.java |   2 +-
 .../api/rest/InferenceRequestHandler.java     |  10 ++
 .../java/org/pytorch/serve/util/ApiUtils.java |  13 +-
 .../serve/util/messages/RequestInput.java     |   5 +-
 .../pytorch/serve/wlm/BatchAggregator.java    |   4 +
 .../pytorch/serve/wlm/ContinuousBatching.java |   2 +
 .../java/org/pytorch/serve/wlm/Model.java     |   7 +
 ...hAggregator.java => SequenceBatching.java} |  31 ++---
 .../serve/wlm/SequenceContinuousBatching.java | 126 ++++++++++++++++++
 .../pytorch/serve/wlm/WorkLoadManager.java    |   6 +-
 .../org/pytorch/serve/wlm/WorkerThread.java   |   5 +-
 12 files changed, 197 insertions(+), 37 deletions(-)
 rename frontend/server/src/main/java/org/pytorch/serve/wlm/{SequenceBatchAggregator.java => SequenceBatching.java} (89%)
 create mode 100644 frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java

diff --git a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
index 16a1cd7d8d..f261df2516 100644
--- a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
+++ b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
@@ -75,6 +75,11 @@ public class ModelConfig {
     private boolean useVenv;
     /** sequenceBatching is a flag to enable https://github.com/pytorch/serve/issues/2743 */
     private boolean sequenceBatching;
+    /**
+     * sequenceContinuousBatching is a flag to enable continouous batching in sequenceBatching
+     * streaming use case
+     */
+    private boolean sequenceContinuousBatching;
 
     public static ModelConfig build(Map<String, Object> yamlMap) {
         ModelConfig modelConfig = new ModelConfig();
@@ -222,6 +227,15 @@ public static ModelConfig build(Map<String, Object> yamlMap) {
                                         "Invalid sequenceBatching: {}, should be true or false", v);
                             }
                             break;
+                        case "sequenceContinuousBatching":
+                            if (v instanceof Boolean) {
+                                modelConfig.setSequenceContinuousBatching((boolean) v);
+                            } else {
+                                logger.warn(
+                                        "Invalid sequenceContinuousBatching: {}, should be true or false",
+                                        v);
+                            }
+                            break;
                         case "useVenv":
                             if (v instanceof Boolean) {
                                 modelConfig.setUseVenv((boolean) v);
@@ -401,6 +415,15 @@ public void setSequenceBatching(boolean sequenceBatching) {
         this.sequenceBatching = sequenceBatching;
     }
 
+    public boolean isSequenceContinuousBatchingBatching() {
+        return sequenceContinuousBatching;
+    }
+
+    public void setSequenceContinuousBatching(boolean sequenceContinuousBatching) {
+        this.sequenceBatching = sequenceContinuousBatching;
+        this.sequenceContinuousBatching = sequenceContinuousBatching;
+    }
+
     public int getMaxNumSequence() {
         return maxNumSequence;
     }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java b/frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java
index 07c0569ebc..7ba95951c8 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/grpcimpl/InferenceImpl.java
@@ -229,7 +229,7 @@ private void prediction(
             if (workerCmd == WorkerCommands.STREAMPREDICT2) {
                 String sequenceId = request.getSequenceId();
                 if ("".equals(sequenceId)) {
-                    sequenceId = String.format("ts-%s", UUID.randomUUID());
+                    sequenceId = String.format("ts-seq-%s", UUID.randomUUID());
                     inputData.updateHeaders(
                             ConfigManager.getInstance().getTsHeaderKeySequenceStart(), "true");
                 }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/http/api/rest/InferenceRequestHandler.java b/frontend/server/src/main/java/org/pytorch/serve/http/api/rest/InferenceRequestHandler.java
index 363717cb7f..2bb9102969 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/http/api/rest/InferenceRequestHandler.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/http/api/rest/InferenceRequestHandler.java
@@ -13,6 +13,7 @@
 import java.util.Arrays;
 import java.util.List;
 import java.util.Map;
+import java.util.UUID;
 import org.pytorch.serve.archive.DownloadArchiveException;
 import org.pytorch.serve.archive.model.ModelException;
 import org.pytorch.serve.archive.model.ModelNotFoundException;
@@ -255,6 +256,15 @@ private void predict(
             throw new ModelNotFoundException("Model not found: " + modelName);
         }
         input.setClientExpireTS(model.getClientTimeoutInMills());
+        if (model.isSequenceBatching()) {
+            String sequenceId = input.getSequenceId();
+            if ("".equals(sequenceId)) {
+                sequenceId = String.format("ts-seq-%s", UUID.randomUUID());
+                input.updateHeaders(
+                        ConfigManager.getInstance().getTsHeaderKeySequenceStart(), "true");
+            }
+            input.updateHeaders(ConfigManager.getInstance().getTsHeaderKeySequenceId(), sequenceId);
+        }
 
         if (HttpMethod.OPTIONS.equals(req.method())) {
             String resp = OpenApiUtils.getModelApi(model);
diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java b/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
index 8074f37b0b..86bf6721a6 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
@@ -9,7 +9,6 @@
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
-import java.util.UUID;
 import java.util.concurrent.CompletableFuture;
 import java.util.concurrent.ExecutionException;
 import java.util.function.Function;
@@ -414,6 +413,7 @@ private static DescribeModelResponse createModelResponse(
         resp.setUseJobTicket(model.isUseJobTicket());
         resp.setUseVenv(model.isUseVenv());
         resp.setStateful(model.isSequenceBatching());
+        resp.setStateful(model.isSequenceContinuousBatch());
         resp.setSequenceMaxIdleMSec(model.getSequenceMaxIdleMSec());
         resp.setMaxNumSequence(model.getMaxNumSequence());
         resp.setMaxSequenceJobQueueSize(model.getMaxSequenceJobQueueSize());
@@ -443,17 +443,6 @@ private static DescribeModelResponse createModelResponse(
     public static RestJob addRESTInferenceJob(
             ChannelHandlerContext ctx, String modelName, String version, RequestInput input)
             throws ModelNotFoundException, ModelVersionNotFoundException {
-        String sequenceStart;
-        if ((sequenceStart =
-                        input.getHeaders()
-                                .get(ConfigManager.getInstance().getTsHeaderKeySequenceStart()))
-                != null) {
-            if (Boolean.parseBoolean(sequenceStart.toLowerCase())) {
-                String sequenceId = String.format("ts-%s", UUID.randomUUID());
-                input.updateHeaders(
-                        ConfigManager.getInstance().getTsHeaderKeySequenceId(), sequenceId);
-            }
-        }
         RestJob job = new RestJob(ctx, modelName, version, WorkerCommands.PREDICT, input);
         if (!ModelManager.getInstance().addJob(job)) {
             String responseMessage = getStreamingInferenceErrorResponseMessage(modelName, version);
diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java b/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
index f1f7a4dd77..6b0f26223f 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
@@ -21,6 +21,7 @@ public RequestInput(String requestId) {
         headers = new HashMap<>();
         parameters = new ArrayList<>();
         clientExpireTS = Long.MAX_VALUE; // default(never expire): Long.MAX_VALUE
+        sequenceId = "";
     }
 
     public String getRequestId() {
@@ -75,10 +76,10 @@ public void setClientExpireTS(long clientTimeoutInMills) {
     }
 
     public String getSequenceId() {
-        if (sequenceId == null) {
+        if (sequenceId.isEmpty()) {
             sequenceId =
                     headers.getOrDefault(
-                            ConfigManager.getInstance().getTsHeaderKeySequenceId(), null);
+                            ConfigManager.getInstance().getTsHeaderKeySequenceId(), "");
         }
         return sequenceId;
     }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java
index e38e51dcba..a850386a0c 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/BatchAggregator.java
@@ -190,4 +190,8 @@ public void pollBatch(String threadName, WorkerState state)
     public void shutdown() {
         return;
     }
+
+    public void startEventDispatcher() {
+        return;
+    }
 }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
index a925050b97..9c9f38bbf2 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
@@ -19,6 +19,7 @@ public ContinuousBatching(Model model) {
         super(model);
     }
 
+    @Override
     public BaseModelRequest getRequest(String threadName, WorkerState state)
             throws InterruptedException, ExecutionException {
         int batchQuota = model.getBatchSize() - jobs.size();
@@ -60,6 +61,7 @@ public BaseModelRequest getRequest(String threadName, WorkerState state)
      * @return - true: either a non-stream response or last stream response is sent - false: a
      *     stream response (not include the last stream) is sent
      */
+    @Override
     public boolean sendResponse(ModelWorkerResponse message) {
         // TODO: Handle prediction level code
         if (message.getCode() == 200) {
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
index 96ee3c8ae3..15e734262e 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
@@ -84,6 +84,7 @@ public class Model {
     private AtomicInteger numJobTickets;
     private boolean continuousBatching;
     private boolean sequenceBatch;
+    private boolean sequenceContinuousBatch;
     private boolean useVenv;
 
     public Model(ModelArchive modelArchive, int queueSize) {
@@ -91,6 +92,8 @@ public Model(ModelArchive modelArchive, int queueSize) {
         if (modelArchive != null && modelArchive.getModelConfig() != null) {
             continuousBatching = modelArchive.getModelConfig().isContinuousBatching();
             sequenceBatch = modelArchive.getModelConfig().isSequenceBatching();
+            sequenceContinuousBatch =
+                    modelArchive.getModelConfig().isSequenceContinuousBatchingBatching();
             useVenv = modelArchive.getModelConfig().getUseVenv();
             if (modelArchive.getModelConfig().getParallelLevel() > 0
                     && modelArchive.getModelConfig().getParallelType()
@@ -638,6 +641,10 @@ public boolean isSequenceBatching() {
         return sequenceBatch;
     }
 
+    public boolean isSequenceContinuousBatch() {
+        return sequenceContinuousBatch;
+    }
+
     public boolean isUseVenv() {
         if (getRuntimeType() == Manifest.RuntimeType.PYTHON) {
             return useVenv;
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatchAggregator.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
similarity index 89%
rename from frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatchAggregator.java
rename to frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
index df6b3d1c4a..8897514ff2 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatchAggregator.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
@@ -11,34 +11,33 @@
 import java.util.concurrent.atomic.AtomicBoolean;
 import org.pytorch.serve.job.Job;
 import org.pytorch.serve.job.JobGroup;
-import org.pytorch.serve.util.ConfigManager;
 import org.pytorch.serve.util.messages.BaseModelRequest;
 import org.pytorch.serve.util.messages.ModelWorkerResponse;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
-public class SequenceBatchAggregator extends BatchAggregator {
+public class SequenceBatching extends BatchAggregator {
 
-    private static final Logger logger = LoggerFactory.getLogger(SequenceBatchAggregator.class);
+    private static final Logger logger = LoggerFactory.getLogger(SequenceBatching.class);
     private ExecutorService pollExecutors;
     /**
-     * eventJobGroupIds is an queue in EventDispatcher. It's item has 2 cases. - empty string:
-     * trigger EventDispatcher to fetch new job groups. - job group id: trigger EventDispatcher to
+     * eventJobGroupIds is an queue in EventDispatcher. It's item has 2 cases. 1) empty string:
+     * trigger EventDispatcher to fetch new job groups. 2) job group id: trigger EventDispatcher to
      * fetch a new job from this jobGroup.
      */
-    private LinkedBlockingDeque<String> eventJobGroupIds;
+    protected LinkedBlockingDeque<String> eventJobGroupIds;
     // A queue holds jobs ready for this aggregator to add into a batch. Each job of this queue is
-    // from distinct jobGroup.
+    // from distinct jobGroup. jobs
     private LinkedBlockingDeque<Job> jobsQueue;
     private Thread eventDispatcher;
     private AtomicBoolean isPollJobGroup;
     // A list of jobGroupIds which are added into current batch. These jobGroupIds need to be added
     // back to eventJobGroupIds once their jobs are processed by a batch.
-    private LinkedList<String> currentJobGroupIds;
+    protected LinkedList<String> currentJobGroupIds;
     private int localCapacity;
     private AtomicBoolean running = new AtomicBoolean(true);
 
-    public SequenceBatchAggregator(Model model) {
+    public SequenceBatching(Model model) {
         super(model);
         this.currentJobGroupIds = new LinkedList<>();
         this.pollExecutors = Executors.newFixedThreadPool(model.getBatchSize() + 1);
@@ -51,6 +50,7 @@ public SequenceBatchAggregator(Model model) {
         this.eventDispatcher.start();
     }
 
+    @Override
     public void startEventDispatcher() {
         this.eventDispatcher.start();
     }
@@ -220,21 +220,16 @@ public void run() {
         private void pollJobFromJobGroup(String jobGroupId) {
             // Poll a job from a jobGroup
             JobGroup jobGroup = model.getJobGroup(jobGroupId);
-            Job job = jobGroup.pollJob(model.getSequenceMaxIdleMSec());
+            Job job = null;
+            if (!jobGroup.isFinished()) {
+                job = jobGroup.pollJob(model.getSequenceMaxIdleMSec());
+            }
             if (job == null) {
                 // JobGroup expired, clean it.
                 cleanJobGroup(jobGroupId);
                 // intent to add new job groups.
                 eventJobGroupIds.add("");
             } else {
-                if (Boolean.parseBoolean(
-                        job.getPayload()
-                                .getHeaders()
-                                .getOrDefault(
-                                        ConfigManager.getInstance().getTsHeaderKeySequenceEnd(),
-                                        "false"))) {
-                    jobGroup.setFinished(true);
-                }
                 jobsQueue.add(job);
             }
         }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
new file mode 100644
index 0000000000..67aceb8f3d
--- /dev/null
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
@@ -0,0 +1,126 @@
+package org.pytorch.serve.wlm;
+
+import java.util.Map;
+import org.pytorch.serve.job.Job;
+import org.pytorch.serve.job.JobGroup;
+import org.pytorch.serve.util.ConfigManager;
+import org.pytorch.serve.util.messages.ModelWorkerResponse;
+import org.pytorch.serve.util.messages.Predictions;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+public class SequenceContinuousBatching extends SequenceBatching {
+    private static final Logger logger = LoggerFactory.getLogger(SequenceContinuousBatching.class);
+
+    public SequenceContinuousBatching(Model model) {
+        super(model);
+    }
+
+    /**
+     * @param message: a response of a batch inference requests
+     * @return - true: either a non-stream response or last stream response is sent - false: a
+     *     stream response (not include the last stream) is sent This is a copy of sendResponse from
+     *     ContinuousBatching + 1. setJobGroupFinished: handle a list of jobGroups end. 2.
+     *     resetCurrentJobGroupIds
+     */
+    @Override
+    public boolean sendResponse(ModelWorkerResponse message) {
+        // TODO: Handle prediction level code
+        if (message.getCode() == 200) {
+            if (message.getPredictions().isEmpty()) {
+                // The jobs size is always 1 in the case control command
+                for (Map.Entry<String, Job> j : jobs.entrySet()) {
+                    Job job = j.getValue();
+                    if (job.isControlCmd()) {
+                        cleanJobs();
+                        return true;
+                    }
+                }
+            }
+            for (Predictions prediction : message.getPredictions()) {
+                String jobId = prediction.getRequestId();
+                Job job = jobs.get(jobId);
+
+                if (job == null) {
+                    throw new IllegalStateException(
+                            "Unexpected job in sendResponse() with 200 status code: " + jobId);
+                }
+
+                if (job.getPayload().getClientExpireTS() > System.currentTimeMillis()) {
+                    job.response(
+                            prediction.getResp(),
+                            prediction.getContentType(),
+                            prediction.getStatusCode(),
+                            prediction.getReasonPhrase(),
+                            prediction.getHeaders());
+                } else {
+                    logger.warn(
+                            "Drop response for inference request {} due to client timeout",
+                            job.getPayload().getRequestId());
+                }
+                setJobGroupFinished(prediction);
+                String streamNext =
+                        prediction
+                                .getHeaders()
+                                .get(org.pytorch.serve.util.messages.RequestInput.TS_STREAM_NEXT);
+                if (streamNext != null && streamNext.equals("false")) {
+                    jobs.remove(jobId);
+                } else if (!job.isOpen()) {
+                    jobs.remove(job.getJobId());
+                    logger.info(
+                            "Connection to client got closed; Removing job: {}",
+                            job.getPayload().getRequestId());
+                } else {
+                    job.getPayload().setCachedInBackend(true);
+                }
+            }
+        } else {
+            for (Map.Entry<String, Job> j : jobs.entrySet()) {
+                if (j.getValue() == null) {
+                    throw new IllegalStateException(
+                            "Unexpected job in sendResponse() with non 200 status code: "
+                                    + j.getKey());
+                }
+                Job job = j.getValue();
+                if (job.getPayload().getClientExpireTS() > System.currentTimeMillis()) {
+                    job.sendError(message.getCode(), message.getMessage());
+                } else {
+                    logger.warn(
+                            "Drop error response for inference request {} due to client timeout",
+                            job.getPayload().getRequestId());
+                }
+            }
+            cleanJobs();
+        }
+
+        resetCurrentJobGroupIds();
+
+        return true;
+    }
+
+    private void setJobGroupFinished(Predictions prediction) {
+        String val =
+                prediction
+                        .getHeaders()
+                        .getOrDefault(
+                                ConfigManager.getInstance().getTsHeaderKeySequenceEnd(), null);
+        if (val != null) {
+            String[] jobGroupIds = val.split(";");
+            for (String j : jobGroupIds) {
+                String jobGroupId = j.trim();
+                JobGroup jobGroup = model.getJobGroup(jobGroupId);
+                if (jobGroup != null) {
+                    jobGroup.setFinished(true);
+                }
+            }
+        }
+    }
+
+    private void resetCurrentJobGroupIds() {
+        if (!currentJobGroupIds.isEmpty()) {
+            eventJobGroupIds.addAll(currentJobGroupIds);
+            currentJobGroupIds.clear();
+        }
+        return;
+    }
+}
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
index 604007c3a5..4664b257ea 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
@@ -230,7 +230,11 @@ private void addThreads(
             BatchAggregator aggregator;
 
             if (model.isSequenceBatching()) {
-                aggregator = new SequenceBatchAggregator(model);
+                if (model.isSequenceContinuousBatch()) {
+                    aggregator = new SequenceContinuousBatching(model);
+                } else {
+                    aggregator = new SequenceBatching(model);
+                }
             } else if (model.isContinuousBatching()) {
                 aggregator = new ContinuousBatching(model);
             } else {
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java
index bcd6a646b4..dd5b3f1dc9 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkerThread.java
@@ -541,9 +541,8 @@ public void retry() {
         if (backoffIdx < BACK_OFF.length - 1) {
             ++backoffIdx;
         }
-        if (aggregator instanceof SequenceBatchAggregator) {
-            ((SequenceBatchAggregator) aggregator).startEventDispatcher();
-        }
+        aggregator.startEventDispatcher();
+
         manager.getScheduler()
                 .schedule(() -> manager.submitTask(this), BACK_OFF[backoffIdx], TimeUnit.SECONDS);
         logger.info("Retry worker: {} in {} seconds.", workerId, BACK_OFF[backoffIdx]);

From eab4d24e39bcb2eb75ac273f94f9a011c608c43e Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 13:16:45 -0700
Subject: [PATCH 02/34] add test stateful sequence continuous batchng

---
 examples/stateful/Readme.md                   | 136 ------------------
 examples/stateful/model-config.yaml           |  11 --
 examples/stateful/stateful_handler.py         |  83 -----------
 .../serve/archive/model/ModelConfig.java      |   6 +-
 .../java/org/pytorch/serve/job/JobGroup.java  |  12 +-
 .../pytorch/serve/wlm/SequenceBatching.java   |   4 +-
 .../serve/wlm/SequenceContinuousBatching.java |  12 ++
 ...xample_stateful_sequence_batching_http.py} |  19 +--
 8 files changed, 29 insertions(+), 254 deletions(-)
 delete mode 100644 examples/stateful/Readme.md
 delete mode 100644 examples/stateful/model-config.yaml
 delete mode 100644 examples/stateful/stateful_handler.py
 rename test/pytest/{test_example_stateful_http.py => test_example_stateful_sequence_batching_http.py} (90%)

diff --git a/examples/stateful/Readme.md b/examples/stateful/Readme.md
deleted file mode 100644
index 66ec77f72a..0000000000
--- a/examples/stateful/Readme.md
+++ /dev/null
@@ -1,136 +0,0 @@
-# Stateful Inference
-
-A stateful model possesses the ability to leverage interdependencies between successive inference requests. This type of model maintains a persistent state across inference requests, thereby establishing a linkage between the outcomes of prior inquiries and those that follow. Notable illustrations of stateful models encompass online speech recognition systems, such as the Long Short-Term Memory (LSTM) model. Employing stateful inference mandates that the model server adheres to the sequential order of inference requests, ensuring predictions build upon the previous outcomes.
-
-Within this context, TorchServe offers a mechanism known as sequence batching. This approach involves the retrieval of an individual inference request from a particular sequence, followed by the combination of multiple requests originating from different sequences into a unified batch. Each request is associated with a unique sequence ID, which can be extracted using the "get_sequence_id" function of context.py. This `sequence ID` serves as a key employed by custom handlers to store and retrieve values within the backend cache store, fostering efficient management of stateful inference processes. Client can also reuse the `sequence ID` when a connection resumes as long as the sequence is not expired on the TorchServe side.
-
-The following picture show the workflow of stateful inference. A job group has a job queue which stores incoming inference requests from a streaming. The max capacity of a job queue is defined by `maxSequenceJobQueueSize`. A sequence batch aggregator polls an inference request from each job group. A batch of requests is sent to backend.
-
-![sequence batch](../../docs/images/stateful_batch.jpg)
-
-This example serves as a practical showcase of employing stateful inference. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
-
-### Step 1: Implement handler
-
-stateful_handler.py is an example of stateful handler. It creates a cache `self.cache` by calling `[LRU](https://github.com/amitdev/lru-dict)`.
-
-```python
-    def initialize(self, ctx: Context):
-        """
-        Loads the model and Initializes the necessary artifacts
-        """
-
-        super().initialize(ctx)
-        if self.context.model_yaml_config["handler"] is not None:
-            try:
-                self.cache = LRU(
-                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"]))
-            except KeyError:
-                logger.warn("No cache capacity was set! Using default value.")
-                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
-
-        self.initialized = True
-```
-
-Handler uses sequenceId (ie., `sequence_id = self.context.get_sequence_id(idx)`) as key to store and fetch values from `self.cache`.
-
-```python
-    def preprocess(self, data):
-        """
-        Preprocess function to convert the request input to a tensor(Torchserve supported format).
-        The user needs to override to customize the pre-processing
-
-        Args :
-            data (list): List of the data from the request input.
-
-        Returns:
-            tensor: Returns the tensor data of the input
-        """
-
-        self.sequence_ids = {}
-        results = []
-        for idx, row in enumerate(data):
-            sequence_id = self.context.get_sequence_id(idx)
-
-            prev = int(0)
-            if self.cache.has_key(sequence_id):
-                prev = int(self.cache[sequence_id])
-
-            request = row.get("data") or row.get("body")
-            if isinstance(request, (bytes, bytearray)):
-                request = request.decode("utf-8")
-
-            val = prev + int(request)
-            self.cache[sequence_id] = val
-            results.append(val)
-
-        return results
-```
-
-### Step 2: Model configuration
-
-Stateful inference has two parameters. TorchServe is able to process (maxWorkers * batchSize) sequences of inference requests of a model in parallel.
-* sequenceMaxIdleMSec: the max idle in milliseconds of a sequence inference request of this stateful model. The default value is 0 (ie. this is not a stateful model.) TorchServe does not process the new inference request if the max idle timeout.
-* maxSequenceJobQueueSize: the job queue size of an inference sequence of this stateful model. The default value is 1.
-
-
-```yaml
-#cat model-config.yaml
-
-minWorkers: 2
-maxWorkers: 2
-batchSize: 4
-sequenceMaxIdleMSec: 60000
-maxSequenceJobQueueSize: 10
-sequenceBatching: true
-
-handler:
-  cache:
-    capacity: 4
-```
-
-### Step 3: Generate mar or tgz file
-
-```bash
-torch-model-archiver --model-name stateful --version 1.0 --model-file model.py --serialized-file model_cnn.pt --handler stateful_handler.py -r requirements.txt --config-file model-config.yaml
-```
-
-### Step 4: Start torchserve
-
-```bash
-torchserve --start --ncs --model-store model_store --models stateful.mar
-```
-
-### Step 6: Build GRPC Client
-The details can be found at [here](https://github.com/pytorch/serve/blob/master/docs/grpc_api.md).
-* Install gRPC python dependencies
-```bash
-git submodule init
-pip install -U grpcio protobuf grpcio-tools googleapis-common-protos
-```
-
-* Generate python gRPC client stub using the proto files
-```bash
-cd ../..
-python -m grpc_tools.protoc -I third_party/google/rpc --proto_path=frontend/server/src/main/resources/proto/ --python_out=ts_scripts --grpc_python_out=ts_scripts frontend/server/src/main/resources/proto/inference.proto frontend/server/src/main/resources/proto/management.proto
-cd -
-```
-
-### Step 7: Run inference
-* Start TorchServe
-
-```bash
-torchserve --ncs --start --model-store models --model stateful.mar --ts-config config.properties
-```
-
-* Run sequence inference via GRPC client
-```bash
-cd ../../
-python ts_scripts/torchserve_grpc_client.py  infer_stream2 stateful seq_0 examples/stateful/sample/sample1.txt,examples/stateful/sample/sample2.txt,examples/stateful/sample/sample3.txt
-```
-
-* Run sequence inference via HTTP
-```bash
-cd ../../
-curl -H "ts_request_sequence_id: seq_0" http://localhost:8080/predictions/stateful -T examples/stateful/sample/sample1.txt
-```
diff --git a/examples/stateful/model-config.yaml b/examples/stateful/model-config.yaml
deleted file mode 100644
index 89c3711559..0000000000
--- a/examples/stateful/model-config.yaml
+++ /dev/null
@@ -1,11 +0,0 @@
-minWorkers: 2
-maxWorkers: 2
-batchSize: 4
-maxNumSequence: 4
-sequenceMaxIdleMSec: 10
-maxSequenceJobQueueSize: 10
-sequenceBatching: true
-
-handler:
-  cache:
-    capacity: 4
diff --git a/examples/stateful/stateful_handler.py b/examples/stateful/stateful_handler.py
deleted file mode 100644
index db5a1be593..0000000000
--- a/examples/stateful/stateful_handler.py
+++ /dev/null
@@ -1,83 +0,0 @@
-import logging
-from abc import ABC
-from typing import Dict
-
-from lru import LRU
-
-from ts.context import Context
-from ts.torch_handler.base_handler import BaseHandler
-
-logger = logging.getLogger(__name__)
-
-
-class StatefulHandler(BaseHandler, ABC):
-    DEFAULT_CAPACITY = 10
-
-    def __init__(self):
-        super().__init__()
-        self.cache: LRU = None
-        self.sequence_ids: Dict = None
-        self.context = None
-
-    def initialize(self, ctx: Context):
-        """
-        Loads the model and Initializes the necessary artifacts
-        """
-
-        super().initialize(ctx)
-        self.context = ctx
-        if self.context.model_yaml_config["handler"] is not None:
-            try:
-                self.cache = LRU(
-                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"])
-                )
-            except KeyError:
-                logger.error("No cache capacity was set! Using default value.")
-                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
-
-        self.initialized = True
-
-    def preprocess(self, data):
-        """
-        Preprocess function to convert the request input to a tensor(Torchserve supported format).
-        The user needs to override to customize the pre-processing
-
-        Args :
-            data (list): List of the data from the request input.
-
-        Returns:
-            tensor: Returns the tensor data of the input
-        """
-
-        self.sequence_ids = {}
-        results = []
-        for idx, row in enumerate(data):
-            sequence_id = self.context.get_sequence_id(idx)
-
-            prev = int(0)
-            if self.cache.has_key(sequence_id):
-                prev = int(self.cache[sequence_id])
-
-            request = row.get("data") or row.get("body")
-            if isinstance(request, (bytes, bytearray)):
-                request = request.decode("utf-8")
-
-            val = prev + int(request)
-            self.cache[sequence_id] = val
-            results.append(val)
-
-        return results
-
-    def inference(self, data, *args, **kwargs):
-        return data
-
-    def postprocess(self, data):
-        """
-        The post process function makes use of the output from the inference and converts into a
-        Torchserve supported response output.
-
-        Returns:
-            List: The post process function returns a list of the predicted output.
-        """
-
-        return data
diff --git a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
index f261df2516..898b416425 100644
--- a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
+++ b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
@@ -60,7 +60,7 @@ public class ModelConfig {
      */
     private long sequenceMaxIdleMSec;
     /**
-     * the job queue size of an inference sequence of this stateful model. The default value is 1.
+     * the job queue size of one inference sequence of this stateful model. The default value is 1.
      */
     private int maxSequenceJobQueueSize = 1;
     /** the max number of sequences can be accepted. The default value is 1. */
@@ -76,8 +76,8 @@ public class ModelConfig {
     /** sequenceBatching is a flag to enable https://github.com/pytorch/serve/issues/2743 */
     private boolean sequenceBatching;
     /**
-     * sequenceContinuousBatching is a flag to enable continouous batching in sequenceBatching
-     * streaming use case
+     * sequenceContinuousBatching is a flag to enable continuous batching in sequenceBatching
+     * streaming use case so that a new inference request from the same sequence can be processed.
      */
     private boolean sequenceContinuousBatching;
 
diff --git a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
index 4b6685d420..cade50e1a8 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
@@ -2,6 +2,8 @@
 
 import java.util.concurrent.LinkedBlockingDeque;
 import java.util.concurrent.TimeUnit;
+import java.util.concurrent.atomic.AtomicBoolean;
+
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -10,13 +12,13 @@ public class JobGroup {
     String groupId;
     LinkedBlockingDeque<Job> jobs;
     int maxJobQueueSize;
-    boolean finished;
+    AtomicBoolean finished;
 
     public JobGroup(String groupId, int maxJobQueueSize) {
         this.groupId = groupId;
         this.maxJobQueueSize = maxJobQueueSize;
         this.jobs = new LinkedBlockingDeque<>(maxJobQueueSize);
-        this.finished = false;
+        this.finished.set(false);
     }
 
     public boolean appendJob(Job job) {
@@ -24,7 +26,7 @@ public boolean appendJob(Job job) {
     }
 
     public Job pollJob(long timeout) {
-        if (finished) {
+        if (finished.get()) {
             return null;
         }
         try {
@@ -40,10 +42,10 @@ public String getGroupId() {
     }
 
     public void setFinished(boolean sequenceEnd) {
-        this.finished = sequenceEnd;
+        this.finished.set(sequenceEnd);
     }
 
     public boolean isFinished() {
-        return this.finished;
+        return this.finished.get();
     }
 }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
index 8897514ff2..8bd69378ab 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceBatching.java
@@ -28,7 +28,7 @@ public class SequenceBatching extends BatchAggregator {
     protected LinkedBlockingDeque<String> eventJobGroupIds;
     // A queue holds jobs ready for this aggregator to add into a batch. Each job of this queue is
     // from distinct jobGroup. jobs
-    private LinkedBlockingDeque<Job> jobsQueue;
+    protected LinkedBlockingDeque<Job> jobsQueue;
     private Thread eventDispatcher;
     private AtomicBoolean isPollJobGroup;
     // A list of jobGroupIds which are added into current batch. These jobGroupIds need to be added
@@ -83,7 +83,7 @@ private void pollJobGroup() throws InterruptedException {
         isPollJobGroup.set(false);
     }
 
-    private void pollInferJob() throws InterruptedException {
+    protected void pollInferJob() throws InterruptedException {
         model.pollInferJob(jobs, model.getBatchSize(), jobsQueue);
 
         for (Job job : jobs.values()) {
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
index 67aceb8f3d..74b9fdcfa3 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
@@ -116,6 +116,18 @@ private void setJobGroupFinished(Predictions prediction) {
         }
     }
 
+    @Override
+    protected void pollInferJob() throws InterruptedException {
+        // TBD: Temporarily hard code the continuous batch size is 2 * batchSize
+        model.pollInferJob(jobs, model.getBatchSize() * 2 - jobs.size(), jobsQueue);
+
+        for (Job job : jobs.values()) {
+            if (job.getGroupId() != null) {
+                currentJobGroupIds.add(job.getGroupId());
+            }
+        }
+    }
+
     private void resetCurrentJobGroupIds() {
         if (!currentJobGroupIds.isEmpty()) {
             eventJobGroupIds.addAll(currentJobGroupIds);
diff --git a/test/pytest/test_example_stateful_http.py b/test/pytest/test_example_stateful_sequence_batching_http.py
similarity index 90%
rename from test/pytest/test_example_stateful_http.py
rename to test/pytest/test_example_stateful_sequence_batching_http.py
index afbe0f05fe..3662470c24 100644
--- a/test/pytest/test_example_stateful_http.py
+++ b/test/pytest/test_example_stateful_sequence_batching_http.py
@@ -10,6 +10,9 @@
 
 CURR_FILE_PATH = Path(__file__).parent
 STATEFUL_PATH = CURR_FILE_PATH.parents[1] / "examples" / "stateful"
+STATEFUL_SEQUENCE_PATH = (
+    CURR_FILE_PATH.parents[1] / "examples" / "stateful" / "sequence_batching"
+)
 CONFIG_PROPERTIES_PATH = CURR_FILE_PATH.parents[1] / "test" / "config_ts.properties"
 
 YAML_CONFIG = f"""
@@ -27,22 +30,10 @@
     capacity: 4
 """
 
-PROMPTS = [
-    {
-        "prompt": "A robot may not injure a human being",
-        "max_new_tokens": 50,
-        "temperature": 0.8,
-        "logprobs": 1,
-        "prompt_logprobs": 1,
-        "max_tokens": 128,
-        "adapter": "adapter_1",
-    },
-]
-
 
 @pytest.fixture
 def add_paths():
-    sys.path.append(STATEFUL_PATH.as_posix())
+    sys.path.append(STATEFUL_SEQUENCE_PATH.as_posix())
     yield
     sys.path.pop()
 
@@ -67,7 +58,7 @@ def create_mar_file(work_dir, model_archiver, model_name, request):
     config = ModelArchiverConfig(
         model_name=model_name,
         version="1.0",
-        handler=(STATEFUL_PATH / "stateful_handler.py").as_posix(),
+        handler=(STATEFUL_SEQUENCE_PATH / "stateful_handler.py").as_posix(),
         serialized_file=(STATEFUL_PATH / "model_cnn.pt").as_posix(),
         model_file=(STATEFUL_PATH / "model.py").as_posix(),
         export_path=work_dir,

From d4a777d16882609104dddf10cec12a67ce1b6629 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 13:20:31 -0700
Subject: [PATCH 03/34] fmt

---
 examples/stateful/sequence_batching/Readme.md | 127 +++++++
 .../sequence_batching/model-config.yaml       |  11 +
 .../sequence_batching/stateful_handler.py     |  83 +++++
 .../sequence_continuous_batching/Readme.md    | 127 +++++++
 .../model-config.yaml                         |  11 +
 .../stateful_handler.py                       | 140 ++++++++
 ...teful_sequence_continuous_batching_http.py | 315 ++++++++++++++++++
 7 files changed, 814 insertions(+)
 create mode 100644 examples/stateful/sequence_batching/Readme.md
 create mode 100644 examples/stateful/sequence_batching/model-config.yaml
 create mode 100644 examples/stateful/sequence_batching/stateful_handler.py
 create mode 100644 examples/stateful/sequence_continuous_batching/Readme.md
 create mode 100644 examples/stateful/sequence_continuous_batching/model-config.yaml
 create mode 100644 examples/stateful/sequence_continuous_batching/stateful_handler.py
 create mode 100644 test/pytest/test_example_stateful_sequence_continuous_batching_http.py

diff --git a/examples/stateful/sequence_batching/Readme.md b/examples/stateful/sequence_batching/Readme.md
new file mode 100644
index 0000000000..abdd747e22
--- /dev/null
+++ b/examples/stateful/sequence_batching/Readme.md
@@ -0,0 +1,127 @@
+# Stateful Inference
+
+A stateful model possesses the ability to leverage interdependencies between successive inference requests. This type of model maintains a persistent state across inference requests, thereby establishing a linkage between the outcomes of prior inquiries and those that follow. Notable illustrations of stateful models encompass online speech recognition systems, such as the Long Short-Term Memory (LSTM) model. Employing stateful inference mandates that the model server adheres to the sequential order of inference requests, ensuring predictions build upon the previous outcomes.
+
+Within this context, TorchServe offers a mechanism known as sequence batching. This approach involves the retrieval of an individual inference request from a particular sequence, followed by the combination of multiple requests originating from different sequences into a unified batch. Each request is associated with a unique sequence ID, which can be extracted using the "get_sequence_id" function of context.py. This `sequence ID` serves as a key employed by custom handlers to store and retrieve values within the backend cache store, fostering efficient management of stateful inference processes. Client can also reuse the `sequence ID` when a connection resumes as long as the sequence is not expired on the TorchServe side.
+
+The following picture show the workflow of stateful inference. A job group has a job queue which stores incoming inference requests from a streaming. The max capacity of a job queue is defined by `maxSequenceJobQueueSize`. A sequence batch aggregator polls an inference request from each job group. A batch of requests is sent to backend.
+
+![sequence batch](../../docs/images/stateful_batch.jpg)
+
+This example serves as a practical showcase of employing stateful inference. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
+
+### Step 1: Implement handler
+
+stateful_handler.py is an example of stateful handler. It creates a cache `self.cache` by calling `[LRU](https://github.com/amitdev/lru-dict)`.
+
+```python
+    def initialize(self, ctx: Context):
+        """
+        Loads the model and Initializes the necessary artifacts
+        """
+
+        super().initialize(ctx)
+        if self.context.model_yaml_config["handler"] is not None:
+            try:
+                self.cache = LRU(
+                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"]))
+            except KeyError:
+                logger.warn("No cache capacity was set! Using default value.")
+                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
+
+        self.initialized = True
+```
+
+Handler uses sequenceId (ie., `sequence_id = self.context.get_sequence_id(idx)`) as key to store and fetch values from `self.cache`.
+
+```python
+    def preprocess(self, data):
+        """
+        Preprocess function to convert the request input to a tensor(Torchserve supported format).
+        The user needs to override to customize the pre-processing
+
+        Args :
+            data (list): List of the data from the request input.
+
+        Returns:
+            tensor: Returns the tensor data of the input
+        """
+
+        self.sequence_ids = {}
+        results = []
+        for idx, row in enumerate(data):
+            sequence_id = self.context.get_sequence_id(idx)
+
+            prev = int(0)
+            if self.cache.has_key(sequence_id):
+                prev = int(self.cache[sequence_id])
+
+            request = row.get("data") or row.get("body")
+            if isinstance(request, (bytes, bytearray)):
+                request = request.decode("utf-8")
+
+            val = prev + int(request)
+            self.cache[sequence_id] = val
+            results.append(val)
+
+        return results
+```
+
+### Step 2: Model configuration
+
+Stateful inference has two parameters. TorchServe is able to process (maxWorkers * batchSize) sequences of inference requests of a model in parallel.
+* sequenceMaxIdleMSec: the max idle in milliseconds of a sequence inference request of this stateful model. The default value is 0 (ie. this is not a stateful model.) TorchServe does not process the new inference request if the max idle timeout.
+* maxSequenceJobQueueSize: the job queue size of an inference sequence of this stateful model. The default value is 1.
+
+
+```yaml
+#cat model-config.yaml
+
+minWorkers: 2
+maxWorkers: 2
+batchSize: 4
+sequenceMaxIdleMSec: 60000
+maxSequenceJobQueueSize: 10
+sequenceBatching: true
+
+handler:
+  cache:
+    capacity: 4
+```
+
+### Step 3: Generate mar or tgz file
+
+```bash
+torch-model-archiver --model-name stateful --version 1.0 --model-file model.py --serialized-file model_cnn.pt --handler stateful_handler.py -r ../requirements.txt --config-file model-config.yaml
+```
+
+### Step 4: Build GRPC Client
+The details can be found at [here](https://github.com/pytorch/serve/blob/master/docs/grpc_api.md).
+* Install gRPC python dependencies
+```bash
+git submodule init
+pip install -U grpcio protobuf grpcio-tools googleapis-common-protos
+```
+
+* Generate python gRPC client stub using the proto files
+```bash
+cd ../../..
+python -m grpc_tools.protoc -I third_party/google/rpc --proto_path=frontend/server/src/main/resources/proto/ --python_out=ts_scripts --grpc_python_out=ts_scripts frontend/server/src/main/resources/proto/inference.proto frontend/server/src/main/resources/proto/management.proto
+```
+
+### Step 5: Run inference
+* Start TorchServe
+
+```bash
+torchserve --ncs --start --model-store models --model stateful.mar --ts-config examples/stateful/config.properties
+```
+
+* Run sequence inference via GRPC client
+```bash
+python ts_scripts/torchserve_grpc_client.py  infer_stream2 stateful seq_0 examples/stateful/sample/sample1.txt,examples/stateful/sample/sample2.txt,examples/stateful/sample/sample3.txt
+```
+
+* Run sequence inference via HTTP
+```bash
+curl -H "ts_request_sequence_id: seq_0" http://localhost:8080/predictions/stateful -T examples/stateful/sample/sample1.txt
+```
diff --git a/examples/stateful/sequence_batching/model-config.yaml b/examples/stateful/sequence_batching/model-config.yaml
new file mode 100644
index 0000000000..89c3711559
--- /dev/null
+++ b/examples/stateful/sequence_batching/model-config.yaml
@@ -0,0 +1,11 @@
+minWorkers: 2
+maxWorkers: 2
+batchSize: 4
+maxNumSequence: 4
+sequenceMaxIdleMSec: 10
+maxSequenceJobQueueSize: 10
+sequenceBatching: true
+
+handler:
+  cache:
+    capacity: 4
diff --git a/examples/stateful/sequence_batching/stateful_handler.py b/examples/stateful/sequence_batching/stateful_handler.py
new file mode 100644
index 0000000000..db5a1be593
--- /dev/null
+++ b/examples/stateful/sequence_batching/stateful_handler.py
@@ -0,0 +1,83 @@
+import logging
+from abc import ABC
+from typing import Dict
+
+from lru import LRU
+
+from ts.context import Context
+from ts.torch_handler.base_handler import BaseHandler
+
+logger = logging.getLogger(__name__)
+
+
+class StatefulHandler(BaseHandler, ABC):
+    DEFAULT_CAPACITY = 10
+
+    def __init__(self):
+        super().__init__()
+        self.cache: LRU = None
+        self.sequence_ids: Dict = None
+        self.context = None
+
+    def initialize(self, ctx: Context):
+        """
+        Loads the model and Initializes the necessary artifacts
+        """
+
+        super().initialize(ctx)
+        self.context = ctx
+        if self.context.model_yaml_config["handler"] is not None:
+            try:
+                self.cache = LRU(
+                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"])
+                )
+            except KeyError:
+                logger.error("No cache capacity was set! Using default value.")
+                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
+
+        self.initialized = True
+
+    def preprocess(self, data):
+        """
+        Preprocess function to convert the request input to a tensor(Torchserve supported format).
+        The user needs to override to customize the pre-processing
+
+        Args :
+            data (list): List of the data from the request input.
+
+        Returns:
+            tensor: Returns the tensor data of the input
+        """
+
+        self.sequence_ids = {}
+        results = []
+        for idx, row in enumerate(data):
+            sequence_id = self.context.get_sequence_id(idx)
+
+            prev = int(0)
+            if self.cache.has_key(sequence_id):
+                prev = int(self.cache[sequence_id])
+
+            request = row.get("data") or row.get("body")
+            if isinstance(request, (bytes, bytearray)):
+                request = request.decode("utf-8")
+
+            val = prev + int(request)
+            self.cache[sequence_id] = val
+            results.append(val)
+
+        return results
+
+    def inference(self, data, *args, **kwargs):
+        return data
+
+    def postprocess(self, data):
+        """
+        The post process function makes use of the output from the inference and converts into a
+        Torchserve supported response output.
+
+        Returns:
+            List: The post process function returns a list of the predicted output.
+        """
+
+        return data
diff --git a/examples/stateful/sequence_continuous_batching/Readme.md b/examples/stateful/sequence_continuous_batching/Readme.md
new file mode 100644
index 0000000000..abdd747e22
--- /dev/null
+++ b/examples/stateful/sequence_continuous_batching/Readme.md
@@ -0,0 +1,127 @@
+# Stateful Inference
+
+A stateful model possesses the ability to leverage interdependencies between successive inference requests. This type of model maintains a persistent state across inference requests, thereby establishing a linkage between the outcomes of prior inquiries and those that follow. Notable illustrations of stateful models encompass online speech recognition systems, such as the Long Short-Term Memory (LSTM) model. Employing stateful inference mandates that the model server adheres to the sequential order of inference requests, ensuring predictions build upon the previous outcomes.
+
+Within this context, TorchServe offers a mechanism known as sequence batching. This approach involves the retrieval of an individual inference request from a particular sequence, followed by the combination of multiple requests originating from different sequences into a unified batch. Each request is associated with a unique sequence ID, which can be extracted using the "get_sequence_id" function of context.py. This `sequence ID` serves as a key employed by custom handlers to store and retrieve values within the backend cache store, fostering efficient management of stateful inference processes. Client can also reuse the `sequence ID` when a connection resumes as long as the sequence is not expired on the TorchServe side.
+
+The following picture show the workflow of stateful inference. A job group has a job queue which stores incoming inference requests from a streaming. The max capacity of a job queue is defined by `maxSequenceJobQueueSize`. A sequence batch aggregator polls an inference request from each job group. A batch of requests is sent to backend.
+
+![sequence batch](../../docs/images/stateful_batch.jpg)
+
+This example serves as a practical showcase of employing stateful inference. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
+
+### Step 1: Implement handler
+
+stateful_handler.py is an example of stateful handler. It creates a cache `self.cache` by calling `[LRU](https://github.com/amitdev/lru-dict)`.
+
+```python
+    def initialize(self, ctx: Context):
+        """
+        Loads the model and Initializes the necessary artifacts
+        """
+
+        super().initialize(ctx)
+        if self.context.model_yaml_config["handler"] is not None:
+            try:
+                self.cache = LRU(
+                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"]))
+            except KeyError:
+                logger.warn("No cache capacity was set! Using default value.")
+                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
+
+        self.initialized = True
+```
+
+Handler uses sequenceId (ie., `sequence_id = self.context.get_sequence_id(idx)`) as key to store and fetch values from `self.cache`.
+
+```python
+    def preprocess(self, data):
+        """
+        Preprocess function to convert the request input to a tensor(Torchserve supported format).
+        The user needs to override to customize the pre-processing
+
+        Args :
+            data (list): List of the data from the request input.
+
+        Returns:
+            tensor: Returns the tensor data of the input
+        """
+
+        self.sequence_ids = {}
+        results = []
+        for idx, row in enumerate(data):
+            sequence_id = self.context.get_sequence_id(idx)
+
+            prev = int(0)
+            if self.cache.has_key(sequence_id):
+                prev = int(self.cache[sequence_id])
+
+            request = row.get("data") or row.get("body")
+            if isinstance(request, (bytes, bytearray)):
+                request = request.decode("utf-8")
+
+            val = prev + int(request)
+            self.cache[sequence_id] = val
+            results.append(val)
+
+        return results
+```
+
+### Step 2: Model configuration
+
+Stateful inference has two parameters. TorchServe is able to process (maxWorkers * batchSize) sequences of inference requests of a model in parallel.
+* sequenceMaxIdleMSec: the max idle in milliseconds of a sequence inference request of this stateful model. The default value is 0 (ie. this is not a stateful model.) TorchServe does not process the new inference request if the max idle timeout.
+* maxSequenceJobQueueSize: the job queue size of an inference sequence of this stateful model. The default value is 1.
+
+
+```yaml
+#cat model-config.yaml
+
+minWorkers: 2
+maxWorkers: 2
+batchSize: 4
+sequenceMaxIdleMSec: 60000
+maxSequenceJobQueueSize: 10
+sequenceBatching: true
+
+handler:
+  cache:
+    capacity: 4
+```
+
+### Step 3: Generate mar or tgz file
+
+```bash
+torch-model-archiver --model-name stateful --version 1.0 --model-file model.py --serialized-file model_cnn.pt --handler stateful_handler.py -r ../requirements.txt --config-file model-config.yaml
+```
+
+### Step 4: Build GRPC Client
+The details can be found at [here](https://github.com/pytorch/serve/blob/master/docs/grpc_api.md).
+* Install gRPC python dependencies
+```bash
+git submodule init
+pip install -U grpcio protobuf grpcio-tools googleapis-common-protos
+```
+
+* Generate python gRPC client stub using the proto files
+```bash
+cd ../../..
+python -m grpc_tools.protoc -I third_party/google/rpc --proto_path=frontend/server/src/main/resources/proto/ --python_out=ts_scripts --grpc_python_out=ts_scripts frontend/server/src/main/resources/proto/inference.proto frontend/server/src/main/resources/proto/management.proto
+```
+
+### Step 5: Run inference
+* Start TorchServe
+
+```bash
+torchserve --ncs --start --model-store models --model stateful.mar --ts-config examples/stateful/config.properties
+```
+
+* Run sequence inference via GRPC client
+```bash
+python ts_scripts/torchserve_grpc_client.py  infer_stream2 stateful seq_0 examples/stateful/sample/sample1.txt,examples/stateful/sample/sample2.txt,examples/stateful/sample/sample3.txt
+```
+
+* Run sequence inference via HTTP
+```bash
+curl -H "ts_request_sequence_id: seq_0" http://localhost:8080/predictions/stateful -T examples/stateful/sample/sample1.txt
+```
diff --git a/examples/stateful/sequence_continuous_batching/model-config.yaml b/examples/stateful/sequence_continuous_batching/model-config.yaml
new file mode 100644
index 0000000000..72f98892a3
--- /dev/null
+++ b/examples/stateful/sequence_continuous_batching/model-config.yaml
@@ -0,0 +1,11 @@
+minWorkers: 2
+maxWorkers: 2
+batchSize: 4
+maxNumSequence: 4
+sequenceMaxIdleMSec: 10
+maxSequenceJobQueueSize: 10
+sequenceContinuousBatching: true
+
+handler:
+  cache:
+    capacity: 4
diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
new file mode 100644
index 0000000000..029e53c5df
--- /dev/null
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -0,0 +1,140 @@
+import logging
+from abc import ABC
+
+from lru import LRU
+
+from ts.context import Context
+from ts.torch_handler.base_handler import BaseHandler
+
+logger = logging.getLogger(__name__)
+
+
+class StatefulHandler(BaseHandler, ABC):
+    DEFAULT_CAPACITY = 10
+
+    def __init__(self):
+        super().__init__()
+        self.cache: LRU = None
+
+    def initialize(self, ctx: Context):
+        """
+        Loads the model and Initializes the necessary artifacts
+        """
+
+        ctx.cache = {}
+        if ctx.model_yaml_config["handler"] is not None:
+            try:
+                self.cache = LRU(
+                    int(ctx.model_yaml_config["handler"]["cache"]["capacity"])
+                )
+            except KeyError:
+                logger.error("No cache capacity was set! Using default value.")
+                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
+
+        self.initialized = True
+
+    def preprocess(self, data):
+        """
+        Preprocess function to convert the request input to a tensor(Torchserve supported format).
+        The user needs to override to customize the pre-processing
+
+        Args :
+            data (list): List of the data from the request input.
+
+        Returns:
+            tensor: Returns the tensor data of the input
+        """
+
+        results = []
+
+        for idx, row in enumerate(data):
+            sequence_id = self.context.get_sequence_id(idx)
+            req_id = self.context.get_request_id(idx)
+
+            if self.context.get_request_header(
+                idx, self.context.header_key_sequence_start
+            ):
+                prev = int(0)
+            elif self.cache.has_key(sequence_id):
+                prev = int(self.cache[sequence_id])
+
+            request = row.get("data") or row.get("body")
+            if isinstance(request, (bytes, bytearray)):
+                request = request.decode("utf-8")
+
+            if sequence_id not in self.context.cache:
+                self.context.cache[sequence_id] = {
+                    req_id: {
+                        "stopping_criteria": self._create_stopping_criteria(
+                            req_id=req_id, seq_id=sequence_id, cache=self.context.cache
+                        )
+                    },
+                }
+
+            # -1: cancel
+            if int(request) == -1:
+                for r_id in self.context.cache[sequence_id].keys():
+                    self.context.cache[sequence_id][r_id]["cancel"] = True
+                results.append(int(request))
+            else:
+                val = prev + int(request)
+                self.cache[sequence_id] = val
+                # 0: end
+                if int(request) == 0:
+                    self.context.cache[sequence_id][req_id]["end"] = True
+                    self.context.set_response_header(
+                        idx, self.context.header_key_sequence_end, sequence_id
+                    )
+
+                results.append(val)
+
+        return results
+
+    def inference(self, data, *args, **kwargs):
+        return data
+
+    def postprocess(self, data):
+        """
+        The post process function makes use of the output from the inference and converts into a
+        Torchserve supported response output.
+
+        Returns:
+            List: The post process function returns a list of the predicted output.
+        """
+
+        return data
+
+    def clean_up_seq(self, seq_id):
+        # clean up
+        del self.cache[seq_id]
+        del self.context.cache[seq_id]
+
+    def clean_up_req(self, seq_id, req_id):
+        # clean up
+        del self.cache[seq_id]
+        del self.context.cache[seq_id][req_id]
+
+    def _create_stopping_criteria(self, req_id, seq_id, cache):
+        class StoppingCriteria(object):
+            def __init__(self, outer, req_id, seq_id, cache):
+                self.req_id = req_id
+                self.seq_id = seq_id
+                self.cache = cache
+                self.outer = outer
+                self.counter = 5
+
+            def __call__(self, res):
+                # sequence end
+                if self.cache[seq_id][req_id]["end"]:
+                    self.outer.clean_up_seq(self.seq_id)
+                    return True
+                # cancel
+                elif self.cache[seq_id][req_id]["cancel"] or self.counter == 0:
+                    self.outer.clean_up_seq(self.seq_id, self.req_id)
+                    return True
+                else:
+                    self.counter -= 1
+
+                return False
+
+        return StoppingCriteria(outer=self, req_id=req_id, seq_id=seq_id, cache=cache)
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
new file mode 100644
index 0000000000..891221f551
--- /dev/null
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -0,0 +1,315 @@
+import shutil
+import sys
+import threading
+from pathlib import Path
+
+import pytest
+import requests
+import test_utils
+from model_archiver.model_archiver_config import ModelArchiverConfig
+
+CURR_FILE_PATH = Path(__file__).parent
+STATEFUL_PATH = CURR_FILE_PATH.parents[1] / "examples" / "stateful"
+STATEFUL_SEQUENCE_CONTINUOUS_PATH = (
+    CURR_FILE_PATH.parents[1] / "examples" / "stateful" / "sequence_continuous_batching"
+)
+CONFIG_PROPERTIES_PATH = CURR_FILE_PATH.parents[1] / "test" / "config_ts.properties"
+
+YAML_CONFIG = f"""
+# TorchServe frontend parameters
+minWorkers: 2
+maxWorkers: 2
+batchSize: 1
+maxNumSequence: 2
+sequenceMaxIdleMSec: 5000
+maxSequenceJobQueueSize: 10
+sequenceBatching: true
+
+handler:
+  cache:
+    capacity: 4
+"""
+
+
+@pytest.fixture
+def add_paths():
+    sys.path.append(STATEFUL_SEQUENCE_CONTINUOUS_PATH.as_posix())
+    yield
+    sys.path.pop()
+
+
+@pytest.fixture(scope="module")
+def model_name():
+    yield "stateful"
+
+
+@pytest.fixture(scope="module")
+def work_dir(tmp_path_factory, model_name):
+    return tmp_path_factory.mktemp(model_name)
+
+
+@pytest.fixture(scope="module", name="mar_file_path")
+def create_mar_file(work_dir, model_archiver, model_name, request):
+    mar_file_path = Path(work_dir).joinpath(model_name)
+
+    model_config_yaml = Path(work_dir) / "model-config.yaml"
+    model_config_yaml.write_text(YAML_CONFIG)
+
+    config = ModelArchiverConfig(
+        model_name=model_name,
+        version="1.0",
+        handler=(STATEFUL_SEQUENCE_CONTINUOUS_PATH / "stateful_handler.py").as_posix(),
+        serialized_file=(STATEFUL_PATH / "model_cnn.pt").as_posix(),
+        model_file=(STATEFUL_PATH / "model.py").as_posix(),
+        export_path=work_dir,
+        requirements_file=(STATEFUL_PATH / "requirements.txt").as_posix(),
+        runtime="python",
+        force=False,
+        config_file=model_config_yaml.as_posix(),
+        archive_format="no-archive",
+    )
+
+    model_archiver.generate_model_archive(config)
+
+    assert mar_file_path.exists()
+
+    yield mar_file_path.as_posix()
+
+    # Clean up files
+    shutil.rmtree(mar_file_path)
+
+
+def test_infer_stateful(mar_file_path, model_store):
+    """
+    Register the model in torchserve
+    """
+
+    file_name = Path(mar_file_path).name
+
+    model_name = Path(file_name).stem
+
+    shutil.copytree(mar_file_path, Path(model_store) / model_name)
+
+    params = (
+        ("model_name", model_name),
+        ("url", Path(model_store) / model_name),
+        ("initial_workers", "2"),
+        ("synchronous", "true"),
+    )
+
+    test_utils.start_torchserve(
+        model_store=model_store, snapshot_file=CONFIG_PROPERTIES_PATH, gen_mar=False
+    )
+
+    try:
+        test_utils.reg_resp = test_utils.register_model_with_params(params)
+
+        t0 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_0",
+                "1 4 9 16 25",
+            ),
+        )
+        t1 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_1",
+                "2 6 12 20 30",
+            ),
+        )
+
+        t0.start()
+        t1.start()
+
+        t0.join()
+        t1.join()
+    finally:
+        test_utils.unregister_model(model_name)
+
+        # Clean up files
+        shutil.rmtree(Path(model_store) / model_name)
+
+
+def test_infer_stateful_end(mar_file_path, model_store):
+    """
+    Register the model in torchserve
+    """
+
+    file_name = Path(mar_file_path).name
+
+    model_name = Path(file_name).stem
+
+    shutil.copytree(mar_file_path, Path(model_store) / model_name)
+
+    params = (
+        ("model_name", model_name),
+        ("url", Path(model_store) / model_name),
+        ("initial_workers", "2"),
+        ("synchronous", "true"),
+    )
+
+    test_utils.start_torchserve(
+        model_store=model_store, snapshot_file=CONFIG_PROPERTIES_PATH, gen_mar=False
+    )
+
+    try:
+        test_utils.reg_resp = test_utils.register_model_with_params(params)
+
+        t0 = threading.Thread(
+            target=__infer_stateful_end,
+            args=(
+                model_name,
+                "seq_0",
+                "1 4 9 16 16",
+            ),
+        )
+        t1 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_1",
+                "2 6 12 20 20",
+            ),
+        )
+
+        t0.start()
+        t1.start()
+
+        t0.join()
+        t1.join()
+    finally:
+        test_utils.unregister_model(model_name)
+
+        # Clean up files
+        shutil.rmtree(Path(model_store) / model_name)
+
+
+def test_infer_stateful_cancel(mar_file_path, model_store):
+    """
+    Register the model in torchserve
+    """
+
+    file_name = Path(mar_file_path).name
+
+    model_name = Path(file_name).stem
+
+    shutil.copytree(mar_file_path, Path(model_store) / model_name)
+
+    params = (
+        ("model_name", model_name),
+        ("url", Path(model_store) / model_name),
+        ("initial_workers", "2"),
+        ("synchronous", "true"),
+    )
+
+    test_utils.start_torchserve(
+        model_store=model_store, snapshot_file=CONFIG_PROPERTIES_PATH, gen_mar=False
+    )
+
+    try:
+        test_utils.reg_resp = test_utils.register_model_with_params(params)
+
+        t0 = threading.Thread(
+            target=__infer_stateful_cancel,
+            args=(
+                model_name,
+                "seq_0",
+                "1 4 -1",
+            ),
+        )
+        t1 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                "seq_1",
+                "2 6 12 20 30",
+            ),
+        )
+
+        t0.start()
+        t1.start()
+
+        t0.join()
+        t1.join()
+    finally:
+        test_utils.unregister_model(model_name)
+
+        # Clean up files
+        shutil.rmtree(Path(model_store) / model_name)
+
+
+def __infer_stateful(model_name, sequence_id, expected):
+    headers = {
+        "ts_request_sequence_id": sequence_id,
+    }
+    prediction = []
+    for idx in range(5):
+        if sequence_id == "seq_0":
+            idx = 2 * idx
+        elif sequence_id == "seq_1":
+            idx = 2 * idx + 1
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            headers=headers,
+            data=str(idx + 1).encode(),
+        )
+        prediction.append(response.text)
+
+    assert str(" ".join(prediction)) == expected
+
+
+def __infer_stateful_end(model_name, sequence_id, expected):
+    headers = {
+        "ts_request_sequence_id": sequence_id,
+    }
+    prediction = []
+    for idx in range(5):
+        if idx == 4:
+            end = True
+        if sequence_id == "seq_0":
+            idx = 2 * idx
+        elif sequence_id == "seq_1":
+            idx = 2 * idx + 1
+        if end:
+            idx = -1
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            headers=headers,
+            data=str(idx + 1).encode(),
+        )
+        prediction.append(response.text)
+
+    assert str(" ".join(prediction)) == expected
+
+
+def __infer_stateful_cancel(model_name, sequence_id, expected):
+    headers = {
+        "ts_request_sequence_id": sequence_id,
+    }
+    prediction = []
+    for idx in range(5):
+        if idx == 2:
+            cancel = True
+        if sequence_id == "seq_0":
+            idx = 2 * idx
+        elif sequence_id == "seq_1":
+            idx = 2 * idx + 1
+
+        if cancel and sequence_id == "seq_0":
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                headers=headers,
+                data=str(-1).encode(),
+            )
+        elif not cancel or sequence_id == "seq_1":
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                headers=headers,
+                data=str(idx + 1).encode(),
+            )
+        prediction.append(response.text)
+
+    assert str(" ".join(prediction)) == expected

From 55068cc1dd274a684bf743339348d457ec87ffa5 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 14:43:44 -0700
Subject: [PATCH 04/34] fix init atomicboolean

---
 .../server/src/main/java/org/pytorch/serve/job/JobGroup.java    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
index cade50e1a8..341d835c24 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
@@ -18,7 +18,7 @@ public JobGroup(String groupId, int maxJobQueueSize) {
         this.groupId = groupId;
         this.maxJobQueueSize = maxJobQueueSize;
         this.jobs = new LinkedBlockingDeque<>(maxJobQueueSize);
-        this.finished.set(false);
+        this.finished = new AtomicBoolean(false);
     }
 
     public boolean appendJob(Job job) {

From 8f6d36615b9e1f88c51bb3249fdcd354db809025 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 17:08:55 -0700
Subject: [PATCH 05/34] update test and example

---
 .../stateful_handler.py                       | 17 ++++-
 ...teful_sequence_continuous_batching_http.py | 73 ++++++++++++++-----
 2 files changed, 68 insertions(+), 22 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 029e53c5df..359d7a7ed0 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -57,6 +57,11 @@ def preprocess(self, data):
                 prev = int(0)
             elif self.cache.has_key(sequence_id):
                 prev = int(self.cache[sequence_id])
+            else:
+                prev = None
+                logger.error(
+                    f"Not received sequence_start request for sequence_id:{sequence_id} before"
+                )
 
             request = row.get("data") or row.get("body")
             if isinstance(request, (bytes, bytearray)):
@@ -76,6 +81,14 @@ def preprocess(self, data):
                 for r_id in self.context.cache[sequence_id].keys():
                     self.context.cache[sequence_id][r_id]["cancel"] = True
                 results.append(int(request))
+            elif prev is None:
+                logger.info(
+                    f"Close the sequence:{sequence_id} without open session request"
+                )
+                self.context.cache[sequence_id][req_id]["end"] = True
+                self.context.set_response_header(
+                    idx, self.context.header_key_sequence_end, sequence_id
+                )
             else:
                 val = prev + int(request)
                 self.cache[sequence_id] = val
@@ -111,8 +124,8 @@ def clean_up_seq(self, seq_id):
 
     def clean_up_req(self, seq_id, req_id):
         # clean up
-        del self.cache[seq_id]
-        del self.context.cache[seq_id][req_id]
+        if seq_id in self.context.cache:
+            del self.context.cache[seq_id][req_id]
 
     def _create_stopping_criteria(self, req_id, seq_id, cache):
         class StoppingCriteria(object):
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 891221f551..f182b3dd2f 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -245,19 +245,29 @@ def __infer_stateful(model_name, sequence_id, expected):
     headers = {
         "ts_request_sequence_id": sequence_id,
     }
+    start = True
     prediction = []
     for idx in range(5):
+        if idx > 0:
+            start = False
         if sequence_id == "seq_0":
             idx = 2 * idx
         elif sequence_id == "seq_1":
             idx = 2 * idx + 1
-        response = requests.post(
-            url=f"http://localhost:8080/predictions/{model_name}",
-            headers=headers,
-            data=str(idx + 1).encode(),
-        )
+        if start is True:
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                data=str(idx + 1).encode(),
+            )
+        else:
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                headers=headers,
+                data=str(idx + 1).encode(),
+            )
         prediction.append(response.text)
 
+    print(f"infer_stateful prediction={str(' '.join(prediction))}")
     assert str(" ".join(prediction)) == expected
 
 
@@ -266,22 +276,34 @@ def __infer_stateful_end(model_name, sequence_id, expected):
         "ts_request_sequence_id": sequence_id,
     }
     prediction = []
+    start = True
+    end = False
     for idx in range(5):
-        if idx == 4:
+        if idx == 0:
+            start = False
+        elif idx == 4:
             end = True
         if sequence_id == "seq_0":
             idx = 2 * idx
         elif sequence_id == "seq_1":
             idx = 2 * idx + 1
-        if end:
+        if end is True:
             idx = -1
-        response = requests.post(
-            url=f"http://localhost:8080/predictions/{model_name}",
-            headers=headers,
-            data=str(idx + 1).encode(),
-        )
+
+        if start is True:
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                data=str(idx + 1).encode(),
+            )
+        else:
+            response = requests.post(
+                url=f"http://localhost:8080/predictions/{model_name}",
+                headers=headers,
+                data=str(idx + 1).encode(),
+            )
         prediction.append(response.text)
 
+    print(f"infer_stateful_end prediction={str(' '.join(prediction))}")
     assert str(" ".join(prediction)) == expected
 
 
@@ -290,26 +312,37 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
         "ts_request_sequence_id": sequence_id,
     }
     prediction = []
+    start = True
+    cancel = False
     for idx in range(5):
-        if idx == 2:
+        if idx > 0:
+            start = False
+        elif idx == 2:
             cancel = True
         if sequence_id == "seq_0":
             idx = 2 * idx
         elif sequence_id == "seq_1":
             idx = 2 * idx + 1
 
-        if cancel and sequence_id == "seq_0":
+        if cancel is True and sequence_id == "seq_0":
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 headers=headers,
                 data=str(-1).encode(),
             )
-        elif not cancel or sequence_id == "seq_1":
-            response = requests.post(
-                url=f"http://localhost:8080/predictions/{model_name}",
-                headers=headers,
-                data=str(idx + 1).encode(),
-            )
+        elif cancel is False or sequence_id == "seq_1":
+            if start is True:
+                response = requests.post(
+                    url=f"http://localhost:8080/predictions/{model_name}",
+                    data=str(idx + 1).encode(),
+                )
+            else:
+                response = requests.post(
+                    url=f"http://localhost:8080/predictions/{model_name}",
+                    headers=headers,
+                    data=str(idx + 1).encode(),
+                )
         prediction.append(response.text)
 
+    print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
     assert str(" ".join(prediction)) == expected

From 7e7b3397074c64d96324e5bd5eedb6d7d8a7b930 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 19:55:06 -0700
Subject: [PATCH 06/34] fix open session test

---
 ...teful_sequence_continuous_batching_http.py | 51 ++++++++++++++-----
 1 file changed, 39 insertions(+), 12 deletions(-)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index f182b3dd2f..1b2738f17b 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -242,9 +242,6 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
 
 
 def __infer_stateful(model_name, sequence_id, expected):
-    headers = {
-        "ts_request_sequence_id": sequence_id,
-    }
     start = True
     prediction = []
     for idx in range(5):
@@ -259,10 +256,22 @@ def __infer_stateful(model_name, sequence_id, expected):
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx + 1).encode(),
             )
+            if sequence_id == "seq_0":
+                headers_seq_0 = {
+                    "ts_request_sequence_id": response.headers.get(
+                        "ts_request_sequence_id"
+                    ),
+                }
+            elif sequence_id == "seq_1":
+                headers_seq_1 = {
+                    "ts_request_sequence_id": response.headers.get(
+                        "ts_request_sequence_id"
+                    ),
+                }
         else:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
-                headers=headers,
+                headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
                 data=str(idx + 1).encode(),
             )
         prediction.append(response.text)
@@ -272,9 +281,6 @@ def __infer_stateful(model_name, sequence_id, expected):
 
 
 def __infer_stateful_end(model_name, sequence_id, expected):
-    headers = {
-        "ts_request_sequence_id": sequence_id,
-    }
     prediction = []
     start = True
     end = False
@@ -295,10 +301,22 @@ def __infer_stateful_end(model_name, sequence_id, expected):
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx + 1).encode(),
             )
+            if sequence_id == "seq_0":
+                headers_seq_0 = {
+                    "ts_request_sequence_id": response.headers.get(
+                        "ts_request_sequence_id"
+                    ),
+                }
+            elif sequence_id == "seq_1":
+                headers_seq_1 = {
+                    "ts_request_sequence_id": response.headers.get(
+                        "ts_request_sequence_id"
+                    ),
+                }
         else:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
-                headers=headers,
+                headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
                 data=str(idx + 1).encode(),
             )
         prediction.append(response.text)
@@ -308,9 +326,6 @@ def __infer_stateful_end(model_name, sequence_id, expected):
 
 
 def __infer_stateful_cancel(model_name, sequence_id, expected):
-    headers = {
-        "ts_request_sequence_id": sequence_id,
-    }
     prediction = []
     start = True
     cancel = False
@@ -336,10 +351,22 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
                     url=f"http://localhost:8080/predictions/{model_name}",
                     data=str(idx + 1).encode(),
                 )
+                if sequence_id == "seq_0":
+                    headers_seq_0 = {
+                        "ts_request_sequence_id": response.headers.get(
+                            "ts_request_sequence_id"
+                        ),
+                    }
+                elif sequence_id == "seq_1":
+                    headers_seq_1 = {
+                        "ts_request_sequence_id": response.headers.get(
+                            "ts_request_sequence_id"
+                        ),
+                    }
             else:
                 response = requests.post(
                     url=f"http://localhost:8080/predictions/{model_name}",
-                    headers=headers,
+                    headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
                     data=str(idx + 1).encode(),
                 )
         prediction.append(response.text)

From 59cc12f33dfafe3c3d535898fb7eaa03918756f1 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 20:02:23 -0700
Subject: [PATCH 07/34] fix open session test

---
 .../test_example_stateful_sequence_continuous_batching_http.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 1b2738f17b..600f28d65b 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -268,6 +268,7 @@ def __infer_stateful(model_name, sequence_id, expected):
                         "ts_request_sequence_id"
                     ),
                 }
+            start = False
         else:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
@@ -313,6 +314,7 @@ def __infer_stateful_end(model_name, sequence_id, expected):
                         "ts_request_sequence_id"
                     ),
                 }
+            start = False
         else:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
@@ -363,6 +365,7 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
                             "ts_request_sequence_id"
                         ),
                     }
+                start = False
             else:
                 response = requests.post(
                     url=f"http://localhost:8080/predictions/{model_name}",

From 287333fa8b96c1705c32b1bd1c559012ae3c8398 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 20:25:27 -0700
Subject: [PATCH 08/34] set sequnce id

---
 .../java/org/pytorch/serve/util/messages/RequestInput.java     | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java b/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
index 6b0f26223f..0c4c1b6f92 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/messages/RequestInput.java
@@ -42,6 +42,9 @@ public void setHeaders(Map<String, String> headers) {
 
     public void updateHeaders(String key, String val) {
         headers.put(key, val);
+        if (ConfigManager.getInstance().getTsHeaderKeySequenceId().equals(key)) {
+            setSequenceId(val);
+        }
     }
 
     public List<InputParameter> getParameters() {

From 1954417ff89c0373a4e42cb58ffb5a28ce91ffe8 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 22:04:52 -0700
Subject: [PATCH 09/34] set seq id in response

---
 .../sequence_continuous_batching/stateful_handler.py         | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 359d7a7ed0..ec94ed1357 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -49,7 +49,10 @@ def preprocess(self, data):
 
         for idx, row in enumerate(data):
             sequence_id = self.context.get_sequence_id(idx)
-            req_id = self.context.get_request_id(idx)
+            self.context.set_response_header()
+            req_id = self.context.get_request_id(
+                idx, self.context.header_key_sequence_id, sequence_id
+            )
 
             if self.context.get_request_header(
                 idx, self.context.header_key_sequence_start

From e70ffb4f45dbfa0be6d67a56d3d5a13bfffb9016 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Wed, 29 May 2024 22:14:59 -0700
Subject: [PATCH 10/34] update test

---
 ...teful_sequence_continuous_batching_http.py | 39 ++++++-------------
 1 file changed, 12 insertions(+), 27 deletions(-)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 600f28d65b..5703a4d5f6 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -245,8 +245,6 @@ def __infer_stateful(model_name, sequence_id, expected):
     start = True
     prediction = []
     for idx in range(5):
-        if idx > 0:
-            start = False
         if sequence_id == "seq_0":
             idx = 2 * idx
         elif sequence_id == "seq_1":
@@ -256,17 +254,14 @@ def __infer_stateful(model_name, sequence_id, expected):
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx + 1).encode(),
             )
+            s_id = response.headers.get("ts_request_sequence_id")
             if sequence_id == "seq_0":
                 headers_seq_0 = {
-                    "ts_request_sequence_id": response.headers.get(
-                        "ts_request_sequence_id"
-                    ),
+                    "ts_request_sequence_id": s_id,
                 }
             elif sequence_id == "seq_1":
                 headers_seq_1 = {
-                    "ts_request_sequence_id": response.headers.get(
-                        "ts_request_sequence_id"
-                    ),
+                    "ts_request_sequence_id": s_id,
                 }
             start = False
         else:
@@ -286,9 +281,7 @@ def __infer_stateful_end(model_name, sequence_id, expected):
     start = True
     end = False
     for idx in range(5):
-        if idx == 0:
-            start = False
-        elif idx == 4:
+        if idx == 4:
             end = True
         if sequence_id == "seq_0":
             idx = 2 * idx
@@ -302,17 +295,14 @@ def __infer_stateful_end(model_name, sequence_id, expected):
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx + 1).encode(),
             )
+            s_id = response.headers.get("ts_request_sequence_id")
             if sequence_id == "seq_0":
                 headers_seq_0 = {
-                    "ts_request_sequence_id": response.headers.get(
-                        "ts_request_sequence_id"
-                    ),
+                    "ts_request_sequence_id": s_id,
                 }
             elif sequence_id == "seq_1":
                 headers_seq_1 = {
-                    "ts_request_sequence_id": response.headers.get(
-                        "ts_request_sequence_id"
-                    ),
+                    "ts_request_sequence_id": s_id,
                 }
             start = False
         else:
@@ -332,9 +322,7 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
     start = True
     cancel = False
     for idx in range(5):
-        if idx > 0:
-            start = False
-        elif idx == 2:
+        if idx == 2:
             cancel = True
         if sequence_id == "seq_0":
             idx = 2 * idx
@@ -344,7 +332,7 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
         if cancel is True and sequence_id == "seq_0":
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
-                headers=headers,
+                headers=headers_seq_0,
                 data=str(-1).encode(),
             )
         elif cancel is False or sequence_id == "seq_1":
@@ -353,17 +341,14 @@ def __infer_stateful_cancel(model_name, sequence_id, expected):
                     url=f"http://localhost:8080/predictions/{model_name}",
                     data=str(idx + 1).encode(),
                 )
+                s_id = response.headers.get("ts_request_sequence_id")
                 if sequence_id == "seq_0":
                     headers_seq_0 = {
-                        "ts_request_sequence_id": response.headers.get(
-                            "ts_request_sequence_id"
-                        ),
+                        "ts_request_sequence_id": s_id,
                     }
                 elif sequence_id == "seq_1":
                     headers_seq_1 = {
-                        "ts_request_sequence_id": response.headers.get(
-                            "ts_request_sequence_id"
-                        ),
+                        "ts_request_sequence_id": s_id,
                     }
                 start = False
             else:

From a41ecf533a555b23bf12bc24f4f771f05c412d8e Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 09:16:26 -0700
Subject: [PATCH 11/34] fix wrong expected result

---
 .../sequence_continuous_batching/stateful_handler.py       | 7 ++++---
 .../org/pytorch/serve/wlm/SequenceContinuousBatching.java  | 2 +-
 ...t_example_stateful_sequence_continuous_batching_http.py | 2 +-
 3 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index ec94ed1357..0b9be738e1 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -49,10 +49,10 @@ def preprocess(self, data):
 
         for idx, row in enumerate(data):
             sequence_id = self.context.get_sequence_id(idx)
-            self.context.set_response_header()
-            req_id = self.context.get_request_id(
+            self.context.set_response_header(
                 idx, self.context.header_key_sequence_id, sequence_id
             )
+            req_id = self.context.get_request_id(idx)
 
             if self.context.get_request_header(
                 idx, self.context.header_key_sequence_start
@@ -70,7 +70,7 @@ def preprocess(self, data):
             if isinstance(request, (bytes, bytearray)):
                 request = request.decode("utf-8")
 
-            if sequence_id not in self.context.cache:
+            if not self.context.cache.get(sequence_id, {}).get(req_id, {}):
                 self.context.cache[sequence_id] = {
                     req_id: {
                         "stopping_criteria": self._create_stopping_criteria(
@@ -92,6 +92,7 @@ def preprocess(self, data):
                 self.context.set_response_header(
                     idx, self.context.header_key_sequence_end, sequence_id
                 )
+                results.append(int(request))
             else:
                 val = prev + int(request)
                 self.cache[sequence_id] = val
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
index 74b9fdcfa3..e10f63f667 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
@@ -58,7 +58,6 @@ public boolean sendResponse(ModelWorkerResponse message) {
                             "Drop response for inference request {} due to client timeout",
                             job.getPayload().getRequestId());
                 }
-                setJobGroupFinished(prediction);
                 String streamNext =
                         prediction
                                 .getHeaders()
@@ -73,6 +72,7 @@ public boolean sendResponse(ModelWorkerResponse message) {
                 } else {
                     job.getPayload().setCachedInBackend(true);
                 }
+                setJobGroupFinished(prediction);
             }
         } else {
             for (Map.Entry<String, Job> j : jobs.entrySet()) {
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 5703a4d5f6..9238d429cd 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -171,7 +171,7 @@ def test_infer_stateful_end(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_1",
-                "2 6 12 20 20",
+                "2 6 12 20 30",
             ),
         )
 

From 5346f26ec555c6e6ef40c1645a1a650c0e315249 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 09:38:04 -0700
Subject: [PATCH 12/34] fixed test expectation

---
 .../test_example_stateful_sequence_continuous_batching_http.py  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 9238d429cd..3f27a45f7a 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -217,7 +217,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_0",
-                "1 4 -1",
+                "1 4 -1 -1 -1",
             ),
         )
         t1 = threading.Thread(

From 81525c5c908249fde79eb081c3285155b0e6ac9b Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 10:31:27 -0700
Subject: [PATCH 13/34] fmt

---
 .../server/src/main/java/org/pytorch/serve/job/JobGroup.java     | 1 -
 1 file changed, 1 deletion(-)

diff --git a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
index 341d835c24..75c2b1b5da 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/job/JobGroup.java
@@ -3,7 +3,6 @@
 import java.util.concurrent.LinkedBlockingDeque;
 import java.util.concurrent.TimeUnit;
 import java.util.concurrent.atomic.AtomicBoolean;
-
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 

From b54f70bab11610ba87b98151a033912be67826b5 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 12:02:52 -0700
Subject: [PATCH 14/34] update test path

---
 test/postman/inference_stream2_data.json | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/postman/inference_stream2_data.json b/test/postman/inference_stream2_data.json
index 31a72664cf..cf5b34ac2b 100644
--- a/test/postman/inference_stream2_data.json
+++ b/test/postman/inference_stream2_data.json
@@ -3,9 +3,9 @@
         "model_name":"stateful",
         "model_file": "../../examples/stateful/model.py",
         "serialized_file": "../../examples/stateful/model_cnn.pt",
-        "handler": "../../examples/stateful/stateful_handler.py",
+        "handler": "../../examples/stateful/sequence_batching/stateful_handler.py",
         "requirements_file": "../../examples/stateful/requirements.txt",
-        "config_file": "../../examples/stateful/model-config.yaml",
+        "config_file": "../../examples/stateful/sequence_batching/model-config.yaml",
         "archive_format": "no-archive",
         "worker":2,
         "synchronous":"true",

From 8428ceab7001b5660c75927975cd646ef11b2180 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 13:15:37 -0700
Subject: [PATCH 15/34] simpify

---
 .../stateful_handler.py                       | 30 +++++++++++--------
 1 file changed, 17 insertions(+), 13 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 0b9be738e1..27ee108dcf 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -23,13 +23,13 @@ def initialize(self, ctx: Context):
 
         ctx.cache = {}
         if ctx.model_yaml_config["handler"] is not None:
-            try:
-                self.cache = LRU(
-                    int(ctx.model_yaml_config["handler"]["cache"]["capacity"])
+            self.cache = LRU(
+                int(
+                    ctx.model_yaml_config["handler"]
+                    .get("cache", {})
+                    .get("capacity", StatefulHandler.DEFAULT_CAPACITY)
                 )
-            except KeyError:
-                logger.error("No cache capacity was set! Using default value.")
-                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
+            )
 
         self.initialized = True
 
@@ -49,6 +49,8 @@ def preprocess(self, data):
 
         for idx, row in enumerate(data):
             sequence_id = self.context.get_sequence_id(idx)
+            # SageMaker sticky router relies on response header to identify the sessions
+            # The sequence_id from request headers must be set in response headers
             self.context.set_response_header(
                 idx, self.context.header_key_sequence_id, sequence_id
             )
@@ -74,7 +76,7 @@ def preprocess(self, data):
                 self.context.cache[sequence_id] = {
                     req_id: {
                         "stopping_criteria": self._create_stopping_criteria(
-                            req_id=req_id, seq_id=sequence_id, cache=self.context.cache
+                            req_id=req_id, seq_id=sequence_id
                         )
                     },
                 }
@@ -131,22 +133,24 @@ def clean_up_req(self, seq_id, req_id):
         if seq_id in self.context.cache:
             del self.context.cache[seq_id][req_id]
 
-    def _create_stopping_criteria(self, req_id, seq_id, cache):
+    def _create_stopping_criteria(self, req_id, seq_id):
         class StoppingCriteria(object):
-            def __init__(self, outer, req_id, seq_id, cache):
+            def __init__(self, outer, req_id, seq_id):
                 self.req_id = req_id
                 self.seq_id = seq_id
-                self.cache = cache
                 self.outer = outer
                 self.counter = 5
 
             def __call__(self, res):
                 # sequence end
-                if self.cache[seq_id][req_id]["end"]:
+                if self.outer.context.cache[seq_id][req_id]["end"]:
                     self.outer.clean_up_seq(self.seq_id)
                     return True
                 # cancel
-                elif self.cache[seq_id][req_id]["cancel"] or self.counter == 0:
+                elif (
+                    self.outer.context.cache[seq_id][req_id]["cancel"]
+                    or self.counter == 0
+                ):
                     self.outer.clean_up_seq(self.seq_id, self.req_id)
                     return True
                 else:
@@ -154,4 +158,4 @@ def __call__(self, res):
 
                 return False
 
-        return StoppingCriteria(outer=self, req_id=req_id, seq_id=seq_id, cache=cache)
+        return StoppingCriteria(outer=self, req_id=req_id, seq_id=seq_id)

From 82f97f6c725609fb4e5fd40888477c4cec9ee247 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 14:09:06 -0700
Subject: [PATCH 16/34] update for comments

---
 .../java/org/pytorch/serve/wlm/WorkLoadManager.java    | 10 ++++------
 ...ample_stateful_sequence_continuous_batching_http.py |  2 +-
 2 files changed, 5 insertions(+), 7 deletions(-)

diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
index 4664b257ea..e5e1abbe14 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
@@ -229,12 +229,10 @@ private void addThreads(
 
             BatchAggregator aggregator;
 
-            if (model.isSequenceBatching()) {
-                if (model.isSequenceContinuousBatch()) {
-                    aggregator = new SequenceContinuousBatching(model);
-                } else {
-                    aggregator = new SequenceBatching(model);
-                }
+            if (model.isSequenceContinuousBatch()) {
+                aggregator = new SequenceContinuousBatching(model);
+            } else if (model.isSequenceContinuousBatch()) {
+                aggregator = new SequenceBatching(model);
             } else if (model.isContinuousBatching()) {
                 aggregator = new ContinuousBatching(model);
             } else {
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 3f27a45f7a..8ca12f870b 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -23,7 +23,7 @@
 maxNumSequence: 2
 sequenceMaxIdleMSec: 5000
 maxSequenceJobQueueSize: 10
-sequenceBatching: true
+sequenceContinuousBatching: true
 
 handler:
   cache:

From abba9df20749025305a26dedc12590e1d8a5fde3 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 19:25:14 -0700
Subject: [PATCH 17/34] remove sequence continuous parametger

---
 .../sequence_continuous_batching/Readme.md    |  1 +
 .../model-config.yaml                         |  3 ++-
 .../stateful_handler.py                       |  2 +-
 .../serve/archive/model/ModelConfig.java      | 23 -------------------
 .../java/org/pytorch/serve/util/ApiUtils.java |  1 -
 .../java/org/pytorch/serve/wlm/Model.java     |  7 ------
 .../pytorch/serve/wlm/WorkLoadManager.java    |  4 ++--
 ...teful_sequence_continuous_batching_http.py |  3 ++-
 8 files changed, 8 insertions(+), 36 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/Readme.md b/examples/stateful/sequence_continuous_batching/Readme.md
index abdd747e22..545060fad2 100644
--- a/examples/stateful/sequence_continuous_batching/Readme.md
+++ b/examples/stateful/sequence_continuous_batching/Readme.md
@@ -83,6 +83,7 @@ batchSize: 4
 sequenceMaxIdleMSec: 60000
 maxSequenceJobQueueSize: 10
 sequenceBatching: true
+continuousBatching: true
 
 handler:
   cache:
diff --git a/examples/stateful/sequence_continuous_batching/model-config.yaml b/examples/stateful/sequence_continuous_batching/model-config.yaml
index 72f98892a3..1597308e9d 100644
--- a/examples/stateful/sequence_continuous_batching/model-config.yaml
+++ b/examples/stateful/sequence_continuous_batching/model-config.yaml
@@ -4,7 +4,8 @@ batchSize: 4
 maxNumSequence: 4
 sequenceMaxIdleMSec: 10
 maxSequenceJobQueueSize: 10
-sequenceContinuousBatching: true
+sequenceBatching: true
+continuousBatching: true
 
 handler:
   cache:
diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 27ee108dcf..30db71ff60 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -151,7 +151,7 @@ def __call__(self, res):
                     self.outer.context.cache[seq_id][req_id]["cancel"]
                     or self.counter == 0
                 ):
-                    self.outer.clean_up_seq(self.seq_id, self.req_id)
+                    self.outer.clean_up_req(self.seq_id, self.req_id)
                     return True
                 else:
                     self.counter -= 1
diff --git a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
index 898b416425..000cafc8f5 100644
--- a/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
+++ b/frontend/archive/src/main/java/org/pytorch/serve/archive/model/ModelConfig.java
@@ -75,11 +75,6 @@ public class ModelConfig {
     private boolean useVenv;
     /** sequenceBatching is a flag to enable https://github.com/pytorch/serve/issues/2743 */
     private boolean sequenceBatching;
-    /**
-     * sequenceContinuousBatching is a flag to enable continuous batching in sequenceBatching
-     * streaming use case so that a new inference request from the same sequence can be processed.
-     */
-    private boolean sequenceContinuousBatching;
 
     public static ModelConfig build(Map<String, Object> yamlMap) {
         ModelConfig modelConfig = new ModelConfig();
@@ -227,15 +222,6 @@ public static ModelConfig build(Map<String, Object> yamlMap) {
                                         "Invalid sequenceBatching: {}, should be true or false", v);
                             }
                             break;
-                        case "sequenceContinuousBatching":
-                            if (v instanceof Boolean) {
-                                modelConfig.setSequenceContinuousBatching((boolean) v);
-                            } else {
-                                logger.warn(
-                                        "Invalid sequenceContinuousBatching: {}, should be true or false",
-                                        v);
-                            }
-                            break;
                         case "useVenv":
                             if (v instanceof Boolean) {
                                 modelConfig.setUseVenv((boolean) v);
@@ -415,15 +401,6 @@ public void setSequenceBatching(boolean sequenceBatching) {
         this.sequenceBatching = sequenceBatching;
     }
 
-    public boolean isSequenceContinuousBatchingBatching() {
-        return sequenceContinuousBatching;
-    }
-
-    public void setSequenceContinuousBatching(boolean sequenceContinuousBatching) {
-        this.sequenceBatching = sequenceContinuousBatching;
-        this.sequenceContinuousBatching = sequenceContinuousBatching;
-    }
-
     public int getMaxNumSequence() {
         return maxNumSequence;
     }
diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java b/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
index 86bf6721a6..2471c0c7ba 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/ApiUtils.java
@@ -413,7 +413,6 @@ private static DescribeModelResponse createModelResponse(
         resp.setUseJobTicket(model.isUseJobTicket());
         resp.setUseVenv(model.isUseVenv());
         resp.setStateful(model.isSequenceBatching());
-        resp.setStateful(model.isSequenceContinuousBatch());
         resp.setSequenceMaxIdleMSec(model.getSequenceMaxIdleMSec());
         resp.setMaxNumSequence(model.getMaxNumSequence());
         resp.setMaxSequenceJobQueueSize(model.getMaxSequenceJobQueueSize());
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
index 15e734262e..96ee3c8ae3 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
@@ -84,7 +84,6 @@ public class Model {
     private AtomicInteger numJobTickets;
     private boolean continuousBatching;
     private boolean sequenceBatch;
-    private boolean sequenceContinuousBatch;
     private boolean useVenv;
 
     public Model(ModelArchive modelArchive, int queueSize) {
@@ -92,8 +91,6 @@ public Model(ModelArchive modelArchive, int queueSize) {
         if (modelArchive != null && modelArchive.getModelConfig() != null) {
             continuousBatching = modelArchive.getModelConfig().isContinuousBatching();
             sequenceBatch = modelArchive.getModelConfig().isSequenceBatching();
-            sequenceContinuousBatch =
-                    modelArchive.getModelConfig().isSequenceContinuousBatchingBatching();
             useVenv = modelArchive.getModelConfig().getUseVenv();
             if (modelArchive.getModelConfig().getParallelLevel() > 0
                     && modelArchive.getModelConfig().getParallelType()
@@ -641,10 +638,6 @@ public boolean isSequenceBatching() {
         return sequenceBatch;
     }
 
-    public boolean isSequenceContinuousBatch() {
-        return sequenceContinuousBatch;
-    }
-
     public boolean isUseVenv() {
         if (getRuntimeType() == Manifest.RuntimeType.PYTHON) {
             return useVenv;
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
index e5e1abbe14..2c2a3b6e12 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/WorkLoadManager.java
@@ -229,9 +229,9 @@ private void addThreads(
 
             BatchAggregator aggregator;
 
-            if (model.isSequenceContinuousBatch()) {
+            if (model.isSequenceBatching() && model.isContinuousBatching()) {
                 aggregator = new SequenceContinuousBatching(model);
-            } else if (model.isSequenceContinuousBatch()) {
+            } else if (model.isSequenceBatching()) {
                 aggregator = new SequenceBatching(model);
             } else if (model.isContinuousBatching()) {
                 aggregator = new ContinuousBatching(model);
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 8ca12f870b..c4dedc0125 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -23,7 +23,8 @@
 maxNumSequence: 2
 sequenceMaxIdleMSec: 5000
 maxSequenceJobQueueSize: 10
-sequenceContinuousBatching: true
+sequenceBatching: true
+continuousBatching: true
 
 handler:
   cache:

From ab8fd6748aacc9147ff4aa615f85416a9a5a131c Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Thu, 30 May 2024 23:32:45 -0700
Subject: [PATCH 18/34] update cancel

---
 .../stateful_handler.py                       |  5 ++
 ...teful_sequence_continuous_batching_http.py | 82 +++++++++----------
 2 files changed, 42 insertions(+), 45 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 30db71ff60..dc4c5ec35f 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -1,4 +1,5 @@
 import logging
+import time
 from abc import ABC
 
 from lru import LRU
@@ -60,6 +61,7 @@ def preprocess(self, data):
                 idx, self.context.header_key_sequence_start
             ):
                 prev = int(0)
+                self.context.cache[sequence_id][req_id]["start"] = True
             elif self.cache.has_key(sequence_id):
                 prev = int(self.cache[sequence_id])
             else:
@@ -104,6 +106,8 @@ def preprocess(self, data):
                     self.context.set_response_header(
                         idx, self.context.header_key_sequence_end, sequence_id
                     )
+                elif int(request) == -3:
+                    time.sleep(1)
 
                 results.append(val)
 
@@ -149,6 +153,7 @@ def __call__(self, res):
                 # cancel
                 elif (
                     self.outer.context.cache[seq_id][req_id]["cancel"]
+                    or self.outer.context.cache[seq_id][req_id]["start"]
                     or self.counter == 0
                 ):
                     self.outer.clean_up_req(self.seq_id, self.req_id)
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index c4dedc0125..1f163fac57 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -1,6 +1,7 @@
 import shutil
 import sys
 import threading
+import time
 from pathlib import Path
 
 import pytest
@@ -212,21 +213,31 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
 
     try:
         test_utils.reg_resp = test_utils.register_model_with_params(params)
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            data=str(1).encode(),
+        )
+        s_id = response.headers.get("ts_request_sequence_id")
+        headers = {
+            "ts_request_sequence_id": s_id,
+        }
 
         t0 = threading.Thread(
             target=__infer_stateful_cancel,
             args=(
                 model_name,
-                "seq_0",
-                "1 4 -1 -1 -1",
+                False,
+                headers,
+                "-1",
             ),
         )
         t1 = threading.Thread(
             target=__infer_stateful,
             args=(
                 model_name,
-                "seq_1",
-                "2 6 12 20 30",
+                True,
+                headers,
+                "-1",
             ),
         )
 
@@ -318,47 +329,28 @@ def __infer_stateful_end(model_name, sequence_id, expected):
     assert str(" ".join(prediction)) == expected
 
 
-def __infer_stateful_cancel(model_name, sequence_id, expected):
+def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
     prediction = []
-    start = True
-    cancel = False
-    for idx in range(5):
-        if idx == 2:
-            cancel = True
-        if sequence_id == "seq_0":
-            idx = 2 * idx
-        elif sequence_id == "seq_1":
-            idx = 2 * idx + 1
-
-        if cancel is True and sequence_id == "seq_0":
-            response = requests.post(
-                url=f"http://localhost:8080/predictions/{model_name}",
-                headers=headers_seq_0,
-                data=str(-1).encode(),
-            )
-        elif cancel is False or sequence_id == "seq_1":
-            if start is True:
-                response = requests.post(
-                    url=f"http://localhost:8080/predictions/{model_name}",
-                    data=str(idx + 1).encode(),
-                )
-                s_id = response.headers.get("ts_request_sequence_id")
-                if sequence_id == "seq_0":
-                    headers_seq_0 = {
-                        "ts_request_sequence_id": s_id,
-                    }
-                elif sequence_id == "seq_1":
-                    headers_seq_1 = {
-                        "ts_request_sequence_id": s_id,
-                    }
-                start = False
-            else:
-                response = requests.post(
-                    url=f"http://localhost:8080/predictions/{model_name}",
-                    headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
-                    data=str(idx + 1).encode(),
-                )
+    if is_cancel:
+        time.sleep(0.5)
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            headers=headers,
+            data=str(-1).encode(),
+        )
         prediction.append(response.text)
+        print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
+        assert str(" ".join(prediction)) == expected
+    else:
+        response = requests.post(
+            url=f"http://localhost:8080/predictions/{model_name}",
+            headers=headers,
+            data=str(-3).encode(),
+            stream=True,
+        )
+        assert response.headers["Transfer-Encoding"] == "chunked"
+        for chunk in response.iter_content(chunk_size=None):
+            if chunk:
+                prediction += [chunk.decode("utf-8")]
 
-    print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
-    assert str(" ".join(prediction)) == expected
+        print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")

From c0ebab3f6f8d9dee1cb6ab30a6fe7e57dc2b24bb Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 00:02:07 -0700
Subject: [PATCH 19/34] update cancel

---
 .../sequence_continuous_batching/stateful_handler.py       | 7 +++++--
 ...t_example_stateful_sequence_continuous_batching_http.py | 2 +-
 2 files changed, 6 insertions(+), 3 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index dc4c5ec35f..143bd1044c 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -49,6 +49,7 @@ def preprocess(self, data):
         results = []
 
         for idx, row in enumerate(data):
+            start = False
             sequence_id = self.context.get_sequence_id(idx)
             # SageMaker sticky router relies on response header to identify the sessions
             # The sequence_id from request headers must be set in response headers
@@ -61,7 +62,7 @@ def preprocess(self, data):
                 idx, self.context.header_key_sequence_start
             ):
                 prev = int(0)
-                self.context.cache[sequence_id][req_id]["start"] = True
+                start = True
             elif self.cache.has_key(sequence_id):
                 prev = int(self.cache[sequence_id])
             else:
@@ -77,9 +78,10 @@ def preprocess(self, data):
             if not self.context.cache.get(sequence_id, {}).get(req_id, {}):
                 self.context.cache[sequence_id] = {
                     req_id: {
+                        "start": start,
                         "stopping_criteria": self._create_stopping_criteria(
                             req_id=req_id, seq_id=sequence_id
-                        )
+                        ),
                     },
                 }
 
@@ -106,6 +108,7 @@ def preprocess(self, data):
                     self.context.set_response_header(
                         idx, self.context.header_key_sequence_end, sequence_id
                     )
+                # -3: test streaming
                 elif int(request) == -3:
                     time.sleep(1)
 
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 1f163fac57..7efb96c80b 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -232,7 +232,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
             ),
         )
         t1 = threading.Thread(
-            target=__infer_stateful,
+            target=__infer_stateful_cancel,
             args=(
                 model_name,
                 True,

From 2830e32f23bafb2aac700d59e803ef975fba60b7 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 09:37:55 -0700
Subject: [PATCH 20/34] update cleanup

---
 .../stateful_handler.py                       | 62 +++++++++----------
 1 file changed, 28 insertions(+), 34 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 143bd1044c..9994d4f82c 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -47,22 +47,24 @@ def preprocess(self, data):
         """
 
         results = []
-
         for idx, row in enumerate(data):
-            start = False
             sequence_id = self.context.get_sequence_id(idx)
             # SageMaker sticky router relies on response header to identify the sessions
             # The sequence_id from request headers must be set in response headers
             self.context.set_response_header(
                 idx, self.context.header_key_sequence_id, sequence_id
             )
-            req_id = self.context.get_request_id(idx)
 
             if self.context.get_request_header(
                 idx, self.context.header_key_sequence_start
             ):
                 prev = int(0)
-                start = True
+                self.context.cache[sequence_id] = {
+                    "start": True,
+                    "cancel": False,
+                    "end": False,
+                    "num_requests": 0,
+                }
             elif self.cache.has_key(sequence_id):
                 prev = int(self.cache[sequence_id])
             else:
@@ -75,26 +77,16 @@ def preprocess(self, data):
             if isinstance(request, (bytes, bytearray)):
                 request = request.decode("utf-8")
 
-            if not self.context.cache.get(sequence_id, {}).get(req_id, {}):
-                self.context.cache[sequence_id] = {
-                    req_id: {
-                        "start": start,
-                        "stopping_criteria": self._create_stopping_criteria(
-                            req_id=req_id, seq_id=sequence_id
-                        ),
-                    },
-                }
-
             # -1: cancel
             if int(request) == -1:
-                for r_id in self.context.cache[sequence_id].keys():
-                    self.context.cache[sequence_id][r_id]["cancel"] = True
+                self.context.cache[sequence_id]["cancel"] = True
                 results.append(int(request))
             elif prev is None:
                 logger.info(
                     f"Close the sequence:{sequence_id} without open session request"
                 )
-                self.context.cache[sequence_id][req_id]["end"] = True
+                self.context.cache[sequence_id]["end"] = True
+                self.context.cache[req_id]["end"] = True
                 self.context.set_response_header(
                     idx, self.context.header_key_sequence_end, sequence_id
                 )
@@ -104,7 +96,6 @@ def preprocess(self, data):
                 self.cache[sequence_id] = val
                 # 0: end
                 if int(request) == 0:
-                    self.context.cache[sequence_id][req_id]["end"] = True
                     self.context.set_response_header(
                         idx, self.context.header_key_sequence_end, sequence_id
                     )
@@ -114,6 +105,16 @@ def preprocess(self, data):
 
                 results.append(val)
 
+            req_id = self.context.get_request_id(idx)
+            if req_id not in self.context.cache:
+                self.context.cache[req_id] = {
+                    "stopping_criteria": self._create_stopping_criteria(
+                        req_id=req_id, seq_id=sequence_id
+                    ),
+                }
+
+                self.context.cache[sequence_id]["num_requests"] += 1
+
         return results
 
     def inference(self, data, *args, **kwargs):
@@ -130,15 +131,12 @@ def postprocess(self, data):
 
         return data
 
-    def clean_up_seq(self, seq_id):
-        # clean up
-        del self.cache[seq_id]
-        del self.context.cache[seq_id]
-
-    def clean_up_req(self, seq_id, req_id):
+    def clean_up(self, seq_id, req_id, del_seq):
         # clean up
-        if seq_id in self.context.cache:
-            del self.context.cache[seq_id][req_id]
+        self.context.cache[seq_id]["num_requests"] -= 1
+        if self.context.cache[seq_id]["num_requests"] == 0 and del_seq:
+            del self.context.cache[seq_id]
+        del self.context.cache[req_id]
 
     def _create_stopping_criteria(self, req_id, seq_id):
         class StoppingCriteria(object):
@@ -150,16 +148,12 @@ def __init__(self, outer, req_id, seq_id):
 
             def __call__(self, res):
                 # sequence end
-                if self.outer.context.cache[seq_id][req_id]["end"]:
-                    self.outer.clean_up_seq(self.seq_id)
+                if self.outer.context.cache[seq_id]["end"]:
+                    self.outer.clean_up(self.seq_id, self.req_id, True)
                     return True
                 # cancel
-                elif (
-                    self.outer.context.cache[seq_id][req_id]["cancel"]
-                    or self.outer.context.cache[seq_id][req_id]["start"]
-                    or self.counter == 0
-                ):
-                    self.outer.clean_up_req(self.seq_id, self.req_id)
+                elif self.outer.context.cache[seq_id]["cancel"] or self.counter == 0:
+                    self.outer.clean_up(self.seq_id, self.req_id, False)
                     return True
                 else:
                     self.counter -= 1

From c3122f7ba1999ae03f546239cad5006f343d1b43 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 17:41:46 -0700
Subject: [PATCH 21/34] support mix mode stream and non-stream

---
 .../stateful_handler.py                       | 25 ++++++++++++++++++-
 ts/protocol/otf_message_handler.py            |  5 +++-
 2 files changed, 28 insertions(+), 2 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 9994d4f82c..506f4235f1 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -128,6 +128,10 @@ def postprocess(self, data):
         Returns:
             List: The post process function returns a list of the predicted output.
         """
+        self.context.stopping_criteria = [
+            self.context.cache[req_id]["stopping_criteria"]
+            for req_id in self.context.request_ids.values()
+        ]
 
         return data
 
@@ -150,11 +154,30 @@ def __call__(self, res):
                 # sequence end
                 if self.outer.context.cache[seq_id]["end"]:
                     self.outer.clean_up(self.seq_id, self.req_id, True)
+                    logger.info(f"end sequence_id={self.seq_id}")
                     return True
                 # cancel
-                elif self.outer.context.cache[seq_id]["cancel"] or self.counter == 0:
+                elif self.outer.context.cache[seq_id]["cancel"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
+                    logger.info(
+                        f"cancel sequence_id={self.seq_id}, request_id={self.req_id}"
+                    )
+                    return None
+                # start
+                elif self.outer.context.cache[seq_id]["start"]:
+                    self.outer.clean_up(self.seq_id, self.req_id, False)
+                    logger.info(
+                        f"start sequence_id={self.seq_id}, request_id={self.req_id}"
+                    )
+                    return None
+                # stream complete
+                elif self.counter == 0:
+                    self.outer.clean_up(self.seq_id, self.req_id, False)
+                    logger.info(
+                        f"finish sequence_id={self.seq_id}, request_id={self.req_id}"
+                    )
                     return True
+                # stream running
                 else:
                     self.counter -= 1
 
diff --git a/ts/protocol/otf_message_handler.py b/ts/protocol/otf_message_handler.py
index 95bcec37d9..14817af442 100644
--- a/ts/protocol/otf_message_handler.py
+++ b/ts/protocol/otf_message_handler.py
@@ -94,7 +94,10 @@ def create_predict_response(
         else:
             if ts_stream_next is True:
                 context.set_response_header(idx, "ts_stream_next", "true")
-            elif context.stopping_criteria:
+            elif (
+                context.stopping_criteria
+                and context.stopping_criteria[idx](ret[idx]) is not None
+            ):
                 ts_stream_next = (
                     "false" if context.stopping_criteria[idx](ret[idx]) else "true"
                 )

From 0167921209ff8168b22b8ad4daf58244d5ee139f Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 22:46:04 -0700
Subject: [PATCH 22/34] clean code

---
 .../stateful_handler.py                       | 92 +++++++++++--------
 1 file changed, 56 insertions(+), 36 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 506f4235f1..f1d62421a7 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -1,5 +1,4 @@
 import logging
-import time
 from abc import ABC
 
 from lru import LRU
@@ -55,6 +54,7 @@ def preprocess(self, data):
                 idx, self.context.header_key_sequence_id, sequence_id
             )
 
+            # check if sequence_id exists
             if self.context.get_request_header(
                 idx, self.context.header_key_sequence_start
             ):
@@ -73,48 +73,55 @@ def preprocess(self, data):
                     f"Not received sequence_start request for sequence_id:{sequence_id} before"
                 )
 
-            request = row.get("data") or row.get("body")
-            if isinstance(request, (bytes, bytearray)):
-                request = request.decode("utf-8")
-
-            # -1: cancel
-            if int(request) == -1:
-                self.context.cache[sequence_id]["cancel"] = True
-                results.append(int(request))
-            elif prev is None:
-                logger.info(
-                    f"Close the sequence:{sequence_id} without open session request"
-                )
-                self.context.cache[sequence_id]["end"] = True
-                self.context.cache[req_id]["end"] = True
-                self.context.set_response_header(
-                    idx, self.context.header_key_sequence_end, sequence_id
-                )
-                results.append(int(request))
-            else:
-                val = prev + int(request)
-                self.cache[sequence_id] = val
-                # 0: end
-                if int(request) == 0:
-                    self.context.set_response_header(
-                        idx, self.context.header_key_sequence_end, sequence_id
-                    )
-                # -3: test streaming
-                elif int(request) == -3:
-                    time.sleep(1)
-
-                results.append(val)
-
             req_id = self.context.get_request_id(idx)
+            # process a new request
             if req_id not in self.context.cache:
+                request = row.get("data") or row.get("body")
+                if isinstance(request, (bytes, bytearray)):
+                    request = request.decode("utf-8")
+
                 self.context.cache[req_id] = {
                     "stopping_criteria": self._create_stopping_criteria(
                         req_id=req_id, seq_id=sequence_id
                     ),
+                    "stream": True,
                 }
-
                 self.context.cache[sequence_id]["num_requests"] += 1
 
+                # -1: cancel
+                if int(request) == -1:
+                    self.context.cache[sequence_id]["cancel"] = True
+                    self.context.cache[req_id]["stream"] = False
+                    results.append(int(request))
+                elif prev is None:
+                    logger.info(
+                        f"Close the sequence:{sequence_id} without open session request"
+                    )
+                    self.context.cache[sequence_id]["end"] = True
+                    self.context.cache[req_id]["stream"] = False
+                    self.context.set_response_header(
+                        idx, self.context.header_key_sequence_end, sequence_id
+                    )
+                    results.append(int(request))
+                else:
+                    val = prev + int(request)
+                    self.cache[sequence_id] = val
+                    # 0: end
+                    if int(request) == 0:
+                        self.context.cache[sequence_id]["end"] = True
+                        self.context.cache[req_id]["stream"] = False
+                        self.context.set_response_header(
+                            idx, self.context.header_key_sequence_end, sequence_id
+                        )
+                    # non stream input:
+                    elif int(request) % 2 == 0:
+                        self.context.cache[req_id]["stream"] = False
+
+                    results.append(val)
+            else:
+                # continue processing stream
+                results.append(prev)
+
         return results
 
     def inference(self, data, *args, **kwargs):
@@ -155,14 +162,20 @@ def __call__(self, res):
                 if self.outer.context.cache[seq_id]["end"]:
                     self.outer.clean_up(self.seq_id, self.req_id, True)
                     logger.info(f"end sequence_id={self.seq_id}")
-                    return True
+                    if self.outer.context.cache[req_id]["stream"]:
+                        return True
+                    else:
+                        return None
                 # cancel
                 elif self.outer.context.cache[seq_id]["cancel"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
                     logger.info(
                         f"cancel sequence_id={self.seq_id}, request_id={self.req_id}"
                     )
-                    return None
+                    if self.outer.context.cache[req_id]["stream"]:
+                        return True
+                    else:
+                        return None
                 # start
                 elif self.outer.context.cache[seq_id]["start"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
@@ -170,6 +183,13 @@ def __call__(self, res):
                         f"start sequence_id={self.seq_id}, request_id={self.req_id}"
                     )
                     return None
+                # non stream
+                elif not self.outer.context.cache[req_id]["stream"]:
+                    self.outer.clean_up(self.seq_id, self.req_id, False)
+                    logger.info(
+                        f"test non stream sequence_id={self.seq_id}, request_id={self.req_id}"
+                    )
+                    return None
                 # stream complete
                 elif self.counter == 0:
                     self.outer.clean_up(self.seq_id, self.req_id, False)

From a4e80ae8cb5b3643a3e629bccdcf732485898775 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 23:01:14 -0700
Subject: [PATCH 23/34] update test

---
 ...teful_sequence_continuous_batching_http.py | 26 +++++++++----------
 1 file changed, 13 insertions(+), 13 deletions(-)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 7efb96c80b..f6efa05092 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -258,13 +258,13 @@ def __infer_stateful(model_name, sequence_id, expected):
     prediction = []
     for idx in range(5):
         if sequence_id == "seq_0":
-            idx = 2 * idx
+            idx = 2 * (idx + 1)
         elif sequence_id == "seq_1":
-            idx = 2 * idx + 1
+            idx = 4 * (idx + 1)
         if start is True:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
-                data=str(idx + 1).encode(),
+                data=str(idx).encode(),
             )
             s_id = response.headers.get("ts_request_sequence_id")
             if sequence_id == "seq_0":
@@ -280,12 +280,12 @@ def __infer_stateful(model_name, sequence_id, expected):
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
-                data=str(idx + 1).encode(),
+                data=str(idx).encode(),
             )
         prediction.append(response.text)
 
     print(f"infer_stateful prediction={str(' '.join(prediction))}")
-    assert str(" ".join(prediction)) == expected
+    # assert str(" ".join(prediction)) == expected
 
 
 def __infer_stateful_end(model_name, sequence_id, expected):
@@ -296,16 +296,16 @@ def __infer_stateful_end(model_name, sequence_id, expected):
         if idx == 4:
             end = True
         if sequence_id == "seq_0":
-            idx = 2 * idx
+            idx = 2 * (idx + 1)
         elif sequence_id == "seq_1":
-            idx = 2 * idx + 1
+            idx = 4 * (idx + 1)
         if end is True:
-            idx = -1
+            idx = 0
 
         if start is True:
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
-                data=str(idx + 1).encode(),
+                data=str(idx).encode(),
             )
             s_id = response.headers.get("ts_request_sequence_id")
             if sequence_id == "seq_0":
@@ -321,12 +321,12 @@ def __infer_stateful_end(model_name, sequence_id, expected):
             response = requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
-                data=str(idx + 1).encode(),
+                data=str(idx).encode(),
             )
         prediction.append(response.text)
 
     print(f"infer_stateful_end prediction={str(' '.join(prediction))}")
-    assert str(" ".join(prediction)) == expected
+    # assert str(" ".join(prediction)) == expected
 
 
 def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
@@ -340,12 +340,12 @@ def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
         )
         prediction.append(response.text)
         print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
-        assert str(" ".join(prediction)) == expected
+        # assert str(" ".join(prediction)) == expected
     else:
         response = requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             headers=headers,
-            data=str(-3).encode(),
+            data=str(1).encode(),
             stream=True,
         )
         assert response.headers["Transfer-Encoding"] == "chunked"

From cc8216a992e1408c3669fdfca8a220bbd5583e9f Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Fri, 31 May 2024 23:30:14 -0700
Subject: [PATCH 24/34] fix order

---
 .../sequence_continuous_batching/stateful_handler.py  | 11 +++--------
 ...mple_stateful_sequence_continuous_batching_http.py | 10 +++++-----
 2 files changed, 8 insertions(+), 13 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index f1d62421a7..706e8208ae 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -160,22 +160,17 @@ def __init__(self, outer, req_id, seq_id):
             def __call__(self, res):
                 # sequence end
                 if self.outer.context.cache[seq_id]["end"]:
+                    ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, True)
                     logger.info(f"end sequence_id={self.seq_id}")
-                    if self.outer.context.cache[req_id]["stream"]:
-                        return True
-                    else:
-                        return None
+                    return ret
                 # cancel
                 elif self.outer.context.cache[seq_id]["cancel"]:
+                    ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, False)
                     logger.info(
                         f"cancel sequence_id={self.seq_id}, request_id={self.req_id}"
                     )
-                    if self.outer.context.cache[req_id]["stream"]:
-                        return True
-                    else:
-                        return None
                 # start
                 elif self.outer.context.cache[seq_id]["start"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index f6efa05092..949ee015e2 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -111,7 +111,7 @@ def test_infer_stateful(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_0",
-                "1 4 9 16 25",
+                "2 6 12 20 30",
             ),
         )
         t1 = threading.Thread(
@@ -119,7 +119,7 @@ def test_infer_stateful(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_1",
-                "2 6 12 20 30",
+                "4 12 24 40 60",
             ),
         )
 
@@ -165,7 +165,7 @@ def test_infer_stateful_end(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_0",
-                "1 4 9 16 16",
+                "2 6 12 20 30",
             ),
         )
         t1 = threading.Thread(
@@ -173,7 +173,7 @@ def test_infer_stateful_end(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_1",
-                "2 6 12 20 30",
+                "4 12 24 40 60",
             ),
         )
 
@@ -285,7 +285,7 @@ def __infer_stateful(model_name, sequence_id, expected):
         prediction.append(response.text)
 
     print(f"infer_stateful prediction={str(' '.join(prediction))}")
-    # assert str(" ".join(prediction)) == expected
+    assert str(" ".join(prediction)) == expected
 
 
 def __infer_stateful_end(model_name, sequence_id, expected):

From b4934ecb1ef7c7fad5a54a4d28484f14de365578 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sat, 1 Jun 2024 12:50:46 -0700
Subject: [PATCH 25/34] update log

---
 .../stateful_handler.py                       | 28 +++++++++----
 .../serve/wlm/SequenceContinuousBatching.java | 42 +++++++++++++++++++
 ...teful_sequence_continuous_batching_http.py |  6 +--
 3 files changed, 64 insertions(+), 12 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 706e8208ae..0edc8f658e 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -76,6 +76,9 @@ def preprocess(self, data):
             req_id = self.context.get_request_id(idx)
             # process a new request
             if req_id not in self.context.cache:
+                logger.debug(
+                    f"received a new request sequence_id={sequence_id}, request_id={req_id}"
+                )
                 request = row.get("data") or row.get("body")
                 if isinstance(request, (bytes, bytearray)):
                     request = request.decode("utf-8")
@@ -120,6 +123,9 @@ def preprocess(self, data):
                     results.append(val)
             else:
                 # continue processing stream
+                logger.info(
+                    f"received continuous request sequence_id={sequence_id}, request_id={req_id}"
+                )
                 results.append(prev)
 
         return results
@@ -162,39 +168,43 @@ def __call__(self, res):
                 if self.outer.context.cache[seq_id]["end"]:
                     ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, True)
-                    logger.info(f"end sequence_id={self.seq_id}")
+                    logger.debug(f"end sequence_id={self.seq_id}, ret={ret}")
                     return ret
                 # cancel
                 elif self.outer.context.cache[seq_id]["cancel"]:
                     ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.info(
-                        f"cancel sequence_id={self.seq_id}, request_id={self.req_id}"
+                    logger.debug(
+                        f"cancel sequence_id={self.seq_id}, request_id={self.req_id}, ret={ret}"
                     )
+                    return ret
                 # start
                 elif self.outer.context.cache[seq_id]["start"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.info(
-                        f"start sequence_id={self.seq_id}, request_id={self.req_id}"
+                    logger.debug(
+                        f"start sequence_id={self.seq_id}, request_id={self.req_id}, ret=None"
                     )
                     return None
                 # non stream
                 elif not self.outer.context.cache[req_id]["stream"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.info(
-                        f"test non stream sequence_id={self.seq_id}, request_id={self.req_id}"
+                    logger.debug(
+                        f"test non stream sequence_id={self.seq_id}, request_id={self.req_id}, ret=None"
                     )
                     return None
                 # stream complete
                 elif self.counter == 0:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.info(
-                        f"finish sequence_id={self.seq_id}, request_id={self.req_id}"
+                    logger.debug(
+                        f"finish sequence_id={self.seq_id}, request_id={self.req_id}, ret=True"
                     )
                     return True
                 # stream running
                 else:
                     self.counter -= 1
+                    logger.debug(
+                        f"continue sequence_id={self.seq_id}, request_id={self.req_id}, ret=False"
+                    )
 
                 return False
 
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
index e10f63f667..06c39be1ac 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
@@ -1,11 +1,17 @@
 package org.pytorch.serve.wlm;
 
 import java.util.Map;
+import java.util.concurrent.ExecutionException;
+
 import org.pytorch.serve.job.Job;
 import org.pytorch.serve.job.JobGroup;
 import org.pytorch.serve.util.ConfigManager;
+import org.pytorch.serve.util.messages.BaseModelRequest;
+import org.pytorch.serve.util.messages.ModelInferenceRequest;
+import org.pytorch.serve.util.messages.ModelLoadModelRequest;
 import org.pytorch.serve.util.messages.ModelWorkerResponse;
 import org.pytorch.serve.util.messages.Predictions;
+import org.pytorch.serve.util.messages.RequestInput;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -16,6 +22,42 @@ public SequenceContinuousBatching(Model model) {
         super(model);
     }
 
+    @Override
+    public BaseModelRequest getRequest(String threadName, WorkerState state)
+            throws InterruptedException, ExecutionException {
+
+        ModelInferenceRequest req = new ModelInferenceRequest(model.getModelName());
+
+        pollBatch(threadName, state);
+
+        if (model.isUseJobTicket() && jobs.isEmpty()) {
+            model.decNumJobTickets();
+            return req;
+        }
+
+        for (Job j : jobs.values()) {
+            if (j.isControlCmd()) {
+                if (jobs.size() > 1) {
+                    throw new IllegalStateException(
+                            "Received more than 1 control command. "
+                                    + "Control messages should be processed/retrieved one at a time.");
+                }
+                RequestInput input = j.getPayload();
+                int gpuId = -1;
+                String gpu = input.getStringParameter("gpu");
+                if (gpu != null) {
+                    gpuId = Integer.parseInt(gpu);
+                }
+                return new ModelLoadModelRequest(model, gpuId);
+            } else {
+                req.setCommand(j.getCmd());
+                j.setScheduled();
+                req.addRequest(j.getPayload());
+            }
+        }
+        return req;
+    }
+
     /**
      * @param message: a response of a batch inference requests
      * @return - true: either a non-stream response or last stream response is sent - false: a
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 949ee015e2..836cbc37a5 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -215,7 +215,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
         test_utils.reg_resp = test_utils.register_model_with_params(params)
         response = requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
-            data=str(1).encode(),
+            data=str(2).encode(),
         )
         s_id = response.headers.get("ts_request_sequence_id")
         headers = {
@@ -228,7 +228,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
                 model_name,
                 False,
                 headers,
-                "-1",
+                "2",
             ),
         )
         t1 = threading.Thread(
@@ -345,7 +345,7 @@ def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
         response = requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             headers=headers,
-            data=str(1).encode(),
+            data=str(3).encode(),
             stream=True,
         )
         assert response.headers["Transfer-Encoding"] == "chunked"

From b156aea0239ff963ebd50cefc3094b43915715be Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sat, 1 Jun 2024 13:08:09 -0700
Subject: [PATCH 26/34] update headers

---
 .../pytorch/serve/util/codec/ModelRequestEncoder.java    | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java b/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
index 1f89f4a48a..cff44c785f 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
@@ -75,19 +75,24 @@ private void encodeRequest(RequestInput req, ByteBuf out) {
         byte[] buf = req.getRequestId().getBytes(StandardCharsets.UTF_8);
         out.writeInt(buf.length);
         out.writeBytes(buf);
-
+/*
         if (req.isCachedInBackend()) {
             out.writeInt(-1); // End of List
             out.writeInt(-1); // End of List
             return;
         }
-
+*/
         for (Map.Entry<String, String> entry : req.getHeaders().entrySet()) {
             encodeField(entry.getKey(), out);
             encodeField(entry.getValue(), out);
         }
         out.writeInt(-1); // End of List
 
+        if (req.isCachedInBackend()) {
+            out.writeInt(-1); // End of List
+            return;
+        }
+
         for (InputParameter input : req.getParameters()) {
             encodeParameter(input, out);
         }

From 74d5321ffae950a5c051d0308c4f6d85c73904dd Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 00:02:18 -0700
Subject: [PATCH 27/34] test mix mode

---
 .../stateful_handler.py                       | 12 +++-
 .../serve/util/codec/ModelRequestEncoder.java |  8 +--
 .../pytorch/serve/wlm/ContinuousBatching.java |  2 +-
 .../java/org/pytorch/serve/wlm/Model.java     |  3 +-
 .../serve/wlm/SequenceContinuousBatching.java |  3 +-
 ...teful_sequence_continuous_batching_http.py | 66 ++++++++-----------
 ts/protocol/otf_message_handler.py            | 15 ++---
 7 files changed, 48 insertions(+), 61 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 0edc8f658e..e7a65599c0 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -1,4 +1,5 @@
 import logging
+import time
 from abc import ABC
 
 from lru import LRU
@@ -91,13 +92,16 @@ def preprocess(self, data):
                 }
                 self.context.cache[sequence_id]["num_requests"] += 1
 
+                if type(request) is dict and "input" in request:
+                    request = request.get("input")
+
                 # -1: cancel
                 if int(request) == -1:
                     self.context.cache[sequence_id]["cancel"] = True
                     self.context.cache[req_id]["stream"] = False
                     results.append(int(request))
                 elif prev is None:
-                    logger.info(
+                    logger.debug(
                         f"Close the sequence:{sequence_id} without open session request"
                     )
                     self.context.cache[sequence_id]["end"] = True
@@ -123,9 +127,10 @@ def preprocess(self, data):
                     results.append(val)
             else:
                 # continue processing stream
-                logger.info(
+                logger.debug(
                     f"received continuous request sequence_id={sequence_id}, request_id={req_id}"
                 )
+                time.sleep(1)
                 results.append(prev)
 
         return results
@@ -177,6 +182,8 @@ def __call__(self, res):
                     logger.debug(
                         f"cancel sequence_id={self.seq_id}, request_id={self.req_id}, ret={ret}"
                     )
+                    if self.outer.context.cache[seq_id]["num_requests"] == 0:
+                        self.outer.context.cache[seq_id]["cancel"] = False
                     return ret
                 # start
                 elif self.outer.context.cache[seq_id]["start"]:
@@ -184,6 +191,7 @@ def __call__(self, res):
                     logger.debug(
                         f"start sequence_id={self.seq_id}, request_id={self.req_id}, ret=None"
                     )
+                    self.outer.context.cache[seq_id]["start"] = False
                     return None
                 # non stream
                 elif not self.outer.context.cache[req_id]["stream"]:
diff --git a/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java b/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
index cff44c785f..dbd987b700 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/util/codec/ModelRequestEncoder.java
@@ -75,13 +75,7 @@ private void encodeRequest(RequestInput req, ByteBuf out) {
         byte[] buf = req.getRequestId().getBytes(StandardCharsets.UTF_8);
         out.writeInt(buf.length);
         out.writeBytes(buf);
-/*
-        if (req.isCachedInBackend()) {
-            out.writeInt(-1); // End of List
-            out.writeInt(-1); // End of List
-            return;
-        }
-*/
+
         for (Map.Entry<String, String> entry : req.getHeaders().entrySet()) {
             encodeField(entry.getKey(), out);
             encodeField(entry.getValue(), out);
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
index 9c9f38bbf2..51550b0052 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/ContinuousBatching.java
@@ -100,7 +100,7 @@ public boolean sendResponse(ModelWorkerResponse message) {
                         prediction
                                 .getHeaders()
                                 .get(org.pytorch.serve.util.messages.RequestInput.TS_STREAM_NEXT);
-                if (streamNext != null && streamNext.equals("false")) {
+                if (streamNext == null || (streamNext != null && streamNext.equals("false"))) {
                     jobs.remove(jobId);
                 } else if (!job.isOpen()) {
                     jobs.remove(job.getJobId());
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
index 96ee3c8ae3..8a52a3f7d4 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/Model.java
@@ -382,7 +382,8 @@ public void pollInferJob(
         }
 
         long begin = System.currentTimeMillis();
-        for (int i = 0; i < batchSize - 1; ++i) {
+        batchSize = pollNoWait ? batchSize : batchSize - 1;
+        for (int i = 0; i < batchSize; ++i) {
             if (pollNoWait) {
                 j = jobsQueue.poll();
             } else {
diff --git a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
index 06c39be1ac..4ec5e4747c 100644
--- a/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
+++ b/frontend/server/src/main/java/org/pytorch/serve/wlm/SequenceContinuousBatching.java
@@ -2,7 +2,6 @@
 
 import java.util.Map;
 import java.util.concurrent.ExecutionException;
-
 import org.pytorch.serve.job.Job;
 import org.pytorch.serve.job.JobGroup;
 import org.pytorch.serve.util.ConfigManager;
@@ -104,7 +103,7 @@ public boolean sendResponse(ModelWorkerResponse message) {
                         prediction
                                 .getHeaders()
                                 .get(org.pytorch.serve.util.messages.RequestInput.TS_STREAM_NEXT);
-                if (streamNext != null && streamNext.equals("false")) {
+                if (streamNext == null || (streamNext != null && streamNext.equals("false"))) {
                     jobs.remove(jobId);
                 } else if (!job.isOpen()) {
                     jobs.remove(job.getJobId());
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 836cbc37a5..e802cb25b4 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -1,7 +1,8 @@
+import concurrent.futures
+import json
 import shutil
 import sys
 import threading
-import time
 from pathlib import Path
 
 import pytest
@@ -32,6 +33,10 @@
     capacity: 4
 """
 
+JSON_INPUT = {
+    "input": 3,
+}
+
 
 @pytest.fixture
 def add_paths():
@@ -222,30 +227,9 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
             "ts_request_sequence_id": s_id,
         }
 
-        t0 = threading.Thread(
-            target=__infer_stateful_cancel,
-            args=(
-                model_name,
-                False,
-                headers,
-                "2",
-            ),
-        )
-        t1 = threading.Thread(
-            target=__infer_stateful_cancel,
-            args=(
-                model_name,
-                True,
-                headers,
-                "-1",
-            ),
-        )
-
-        t0.start()
-        t1.start()
-
-        t0.join()
-        t1.join()
+        with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
+            executor.submit(__infer_stateful_cancel, model_name, False, headers, "5")
+            executor.submit(__infer_stateful_cancel, model_name, True, headers, "-1")
     finally:
         test_utils.unregister_model(model_name)
 
@@ -332,25 +316,27 @@ def __infer_stateful_end(model_name, sequence_id, expected):
 def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
     prediction = []
     if is_cancel:
-        time.sleep(0.5)
-        response = requests.post(
+        with requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             headers=headers,
             data=str(-1).encode(),
-        )
-        prediction.append(response.text)
-        print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
-        # assert str(" ".join(prediction)) == expected
+        ) as response:
+            prediction.append(response.text)
+            print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
+            assert str(" ".join(prediction)) == expected
     else:
-        response = requests.post(
+        with requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             headers=headers,
-            data=str(3).encode(),
+            json=JSON_INPUT,
             stream=True,
-        )
-        assert response.headers["Transfer-Encoding"] == "chunked"
-        for chunk in response.iter_content(chunk_size=None):
-            if chunk:
-                prediction += [chunk.decode("utf-8")]
-
-        print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
+        ) as response:
+            assert response.headers["Transfer-Encoding"] == "chunked"
+            for chunk in response.iter_content(chunk_size=None):
+                if chunk:
+                    data = json.loads(chunk)
+                    prediction += [data.get("output", "")]
+
+            print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
+            assert prediction[0] == 5
+            assert len(prediction) < 5
diff --git a/ts/protocol/otf_message_handler.py b/ts/protocol/otf_message_handler.py
index 14817af442..913fbea499 100644
--- a/ts/protocol/otf_message_handler.py
+++ b/ts/protocol/otf_message_handler.py
@@ -94,14 +94,13 @@ def create_predict_response(
         else:
             if ts_stream_next is True:
                 context.set_response_header(idx, "ts_stream_next", "true")
-            elif (
-                context.stopping_criteria
-                and context.stopping_criteria[idx](ret[idx]) is not None
-            ):
-                ts_stream_next = (
-                    "false" if context.stopping_criteria[idx](ret[idx]) else "true"
-                )
-                context.set_response_header(idx, "ts_stream_next", ts_stream_next)
+            elif context.stopping_criteria:
+                is_stop = context.stopping_criteria[idx](ret[idx])
+                if is_stop is not None:
+                    ts_stream_next = (
+                        "false" if context.stopping_criteria[idx](ret[idx]) else "true"
+                    )
+                    context.set_response_header(idx, "ts_stream_next", ts_stream_next)
             elif "true" == context.get_response_headers(idx).get("ts_stream_next"):
                 context.set_response_header(idx, "ts_stream_next", "false")
 

From 0ad86456ac22dd71c1e81b09c239bf9fe441f537 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 10:21:19 -0700
Subject: [PATCH 28/34] update fmt

---
 .../stateful_handler.py                       |  18 +--
 ...teful_sequence_continuous_batching_http.py | 104 +++++++++++-------
 ts/protocol/otf_message_handler.py            |   4 +-
 3 files changed, 73 insertions(+), 53 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index e7a65599c0..2ac5766552 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -77,7 +77,7 @@ def preprocess(self, data):
             req_id = self.context.get_request_id(idx)
             # process a new request
             if req_id not in self.context.cache:
-                logger.debug(
+                logger.info(
                     f"received a new request sequence_id={sequence_id}, request_id={req_id}"
                 )
                 request = row.get("data") or row.get("body")
@@ -101,7 +101,7 @@ def preprocess(self, data):
                     self.context.cache[req_id]["stream"] = False
                     results.append(int(request))
                 elif prev is None:
-                    logger.debug(
+                    logger.info(
                         f"Close the sequence:{sequence_id} without open session request"
                     )
                     self.context.cache[sequence_id]["end"] = True
@@ -127,7 +127,7 @@ def preprocess(self, data):
                     results.append(val)
             else:
                 # continue processing stream
-                logger.debug(
+                logger.info(
                     f"received continuous request sequence_id={sequence_id}, request_id={req_id}"
                 )
                 time.sleep(1)
@@ -173,13 +173,13 @@ def __call__(self, res):
                 if self.outer.context.cache[seq_id]["end"]:
                     ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, True)
-                    logger.debug(f"end sequence_id={self.seq_id}, ret={ret}")
+                    logger.info(f"end sequence_id={self.seq_id}, ret={ret}")
                     return ret
                 # cancel
                 elif self.outer.context.cache[seq_id]["cancel"]:
                     ret = True if self.outer.context.cache[req_id]["stream"] else None
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.debug(
+                    logger.info(
                         f"cancel sequence_id={self.seq_id}, request_id={self.req_id}, ret={ret}"
                     )
                     if self.outer.context.cache[seq_id]["num_requests"] == 0:
@@ -188,7 +188,7 @@ def __call__(self, res):
                 # start
                 elif self.outer.context.cache[seq_id]["start"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.debug(
+                    logger.info(
                         f"start sequence_id={self.seq_id}, request_id={self.req_id}, ret=None"
                     )
                     self.outer.context.cache[seq_id]["start"] = False
@@ -196,21 +196,21 @@ def __call__(self, res):
                 # non stream
                 elif not self.outer.context.cache[req_id]["stream"]:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.debug(
+                    logger.info(
                         f"test non stream sequence_id={self.seq_id}, request_id={self.req_id}, ret=None"
                     )
                     return None
                 # stream complete
                 elif self.counter == 0:
                     self.outer.clean_up(self.seq_id, self.req_id, False)
-                    logger.debug(
+                    logger.info(
                         f"finish sequence_id={self.seq_id}, request_id={self.req_id}, ret=True"
                     )
                     return True
                 # stream running
                 else:
                     self.counter -= 1
-                    logger.debug(
+                    logger.info(
                         f"continue sequence_id={self.seq_id}, request_id={self.req_id}, ret=False"
                     )
 
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index e802cb25b4..50542bb8c0 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -1,8 +1,8 @@
-import concurrent.futures
 import json
 import shutil
 import sys
 import threading
+import time
 from pathlib import Path
 
 import pytest
@@ -218,18 +218,39 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
 
     try:
         test_utils.reg_resp = test_utils.register_model_with_params(params)
-        response = requests.post(
+        with requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             data=str(2).encode(),
+        ) as response:
+            s_id = response.headers.get("ts_request_sequence_id")
+            headers = {
+                "ts_request_sequence_id": s_id,
+            }
+
+        t0 = threading.Thread(
+            target=__infer_stateful_cancel,
+            args=(
+                model_name,
+                False,
+                headers,
+                "5",
+            ),
         )
-        s_id = response.headers.get("ts_request_sequence_id")
-        headers = {
-            "ts_request_sequence_id": s_id,
-        }
-
-        with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
-            executor.submit(__infer_stateful_cancel, model_name, False, headers, "5")
-            executor.submit(__infer_stateful_cancel, model_name, True, headers, "-1")
+        t1 = threading.Thread(
+            target=__infer_stateful,
+            args=(
+                model_name,
+                True,
+                headers,
+                "-1",
+            ),
+        )
+
+        t0.start()
+        t1.start()
+
+        t0.join()
+        t1.join()
     finally:
         test_utils.unregister_model(model_name)
 
@@ -246,27 +267,27 @@ def __infer_stateful(model_name, sequence_id, expected):
         elif sequence_id == "seq_1":
             idx = 4 * (idx + 1)
         if start is True:
-            response = requests.post(
+            with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx).encode(),
-            )
-            s_id = response.headers.get("ts_request_sequence_id")
-            if sequence_id == "seq_0":
-                headers_seq_0 = {
-                    "ts_request_sequence_id": s_id,
-                }
-            elif sequence_id == "seq_1":
-                headers_seq_1 = {
-                    "ts_request_sequence_id": s_id,
-                }
-            start = False
+            ) as response:
+                s_id = response.headers.get("ts_request_sequence_id")
+                if sequence_id == "seq_0":
+                    headers_seq_0 = {
+                        "ts_request_sequence_id": s_id,
+                    }
+                elif sequence_id == "seq_1":
+                    headers_seq_1 = {
+                        "ts_request_sequence_id": s_id,
+                    }
+                start = False
         else:
-            response = requests.post(
+            with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
                 data=str(idx).encode(),
-            )
-        prediction.append(response.text)
+            ) as response:
+                prediction.append(response.text)
 
     print(f"infer_stateful prediction={str(' '.join(prediction))}")
     assert str(" ".join(prediction)) == expected
@@ -287,35 +308,36 @@ def __infer_stateful_end(model_name, sequence_id, expected):
             idx = 0
 
         if start is True:
-            response = requests.post(
+            with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 data=str(idx).encode(),
-            )
-            s_id = response.headers.get("ts_request_sequence_id")
-            if sequence_id == "seq_0":
-                headers_seq_0 = {
-                    "ts_request_sequence_id": s_id,
-                }
-            elif sequence_id == "seq_1":
-                headers_seq_1 = {
-                    "ts_request_sequence_id": s_id,
-                }
-            start = False
+            ) as response:
+                s_id = response.headers.get("ts_request_sequence_id")
+                if sequence_id == "seq_0":
+                    headers_seq_0 = {
+                        "ts_request_sequence_id": s_id,
+                    }
+                elif sequence_id == "seq_1":
+                    headers_seq_1 = {
+                        "ts_request_sequence_id": s_id,
+                    }
+                start = False
         else:
-            response = requests.post(
+            with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
                 headers=headers_seq_0 if sequence_id == "seq_0" else headers_seq_1,
                 data=str(idx).encode(),
-            )
-        prediction.append(response.text)
+            ) as response:
+                prediction.append(response.text)
 
     print(f"infer_stateful_end prediction={str(' '.join(prediction))}")
-    # assert str(" ".join(prediction)) == expected
+    assert str(" ".join(prediction)) == expected
 
 
 def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
     prediction = []
     if is_cancel:
+        time.sleep(1)
         with requests.post(
             url=f"http://localhost:8080/predictions/{model_name}",
             headers=headers,
diff --git a/ts/protocol/otf_message_handler.py b/ts/protocol/otf_message_handler.py
index 913fbea499..29de350e15 100644
--- a/ts/protocol/otf_message_handler.py
+++ b/ts/protocol/otf_message_handler.py
@@ -97,9 +97,7 @@ def create_predict_response(
             elif context.stopping_criteria:
                 is_stop = context.stopping_criteria[idx](ret[idx])
                 if is_stop is not None:
-                    ts_stream_next = (
-                        "false" if context.stopping_criteria[idx](ret[idx]) else "true"
-                    )
+                    ts_stream_next = "false" if is_stop else "true"
                     context.set_response_header(idx, "ts_stream_next", ts_stream_next)
             elif "true" == context.get_response_headers(idx).get("ts_stream_next"):
                 context.set_response_header(idx, "ts_stream_next", "false")

From fe18dea9f26f600cd060e7d2ee7741a69ecf5dca Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 10:45:45 -0700
Subject: [PATCH 29/34] increase counter

---
 .../sequence_continuous_batching/stateful_handler.py   |  2 +-
 ...ample_stateful_sequence_continuous_batching_http.py | 10 ++++------
 2 files changed, 5 insertions(+), 7 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index 2ac5766552..efd8551f2b 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -166,7 +166,7 @@ def __init__(self, outer, req_id, seq_id):
                 self.req_id = req_id
                 self.seq_id = seq_id
                 self.outer = outer
-                self.counter = 5
+                self.counter = 10
 
             def __call__(self, res):
                 # sequence end
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 50542bb8c0..95cff45b8e 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -1,4 +1,3 @@
-import json
 import shutil
 import sys
 import threading
@@ -237,7 +236,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
             ),
         )
         t1 = threading.Thread(
-            target=__infer_stateful,
+            target=__infer_stateful_cancel,
             args=(
                 model_name,
                 True,
@@ -356,9 +355,8 @@ def __infer_stateful_cancel(model_name, is_cancel, headers, expected):
             assert response.headers["Transfer-Encoding"] == "chunked"
             for chunk in response.iter_content(chunk_size=None):
                 if chunk:
-                    data = json.loads(chunk)
-                    prediction += [data.get("output", "")]
+                    prediction += [chunk.decode("utf-8")]
 
             print(f"infer_stateful_cancel prediction={str(' '.join(prediction))}")
-            assert prediction[0] == 5
-            assert len(prediction) < 5
+            assert prediction[0] == expected
+            assert len(prediction) < 11

From 4b43233381beec5034f4c2c65dc162d11e833fa5 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 10:58:15 -0700
Subject: [PATCH 30/34] increase counter

---
 ...test_example_stateful_sequence_continuous_batching_http.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index 95cff45b8e..d4a943dbf0 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -169,7 +169,7 @@ def test_infer_stateful_end(mar_file_path, model_store):
             args=(
                 model_name,
                 "seq_0",
-                "2 6 12 20 30",
+                "2 6 12 20 20",
             ),
         )
         t1 = threading.Thread(
@@ -280,6 +280,7 @@ def __infer_stateful(model_name, sequence_id, expected):
                         "ts_request_sequence_id": s_id,
                     }
                 start = False
+                prediction.append(response.text)
         else:
             with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",
@@ -321,6 +322,7 @@ def __infer_stateful_end(model_name, sequence_id, expected):
                         "ts_request_sequence_id": s_id,
                     }
                 start = False
+                prediction.append(response.text)
         else:
             with requests.post(
                 url=f"http://localhost:8080/predictions/{model_name}",

From 77b838b53050deeb8cbfccaa7907c6deb0490e0d Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 12:50:06 -0700
Subject: [PATCH 31/34] add commnents

---
 .../sequence_continuous_batching/stateful_handler.py       | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/examples/stateful/sequence_continuous_batching/stateful_handler.py b/examples/stateful/sequence_continuous_batching/stateful_handler.py
index efd8551f2b..36d58c24c9 100644
--- a/examples/stateful/sequence_continuous_batching/stateful_handler.py
+++ b/examples/stateful/sequence_continuous_batching/stateful_handler.py
@@ -22,6 +22,13 @@ def initialize(self, ctx: Context):
         Loads the model and Initializes the necessary artifacts
         """
 
+        # context cache includes 2 types of keys
+        # key1: sequence_id
+        # value is a dict which records the sequence's status: start, end, cancel, number of the requests in this batch.
+        #
+        # key2: request_id
+        # value is a dict which records a request's streaming status:
+        # None(ie. non response streaming request), True or False (ie. streaming complete or not)
         ctx.cache = {}
         if ctx.model_yaml_config["handler"] is not None:
             self.cache = LRU(

From 182e8316bc2addc6f49fa358ad4f9f647fca5ecf Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 21:53:30 -0700
Subject: [PATCH 32/34] update readme

---
 examples/stateful/sequence_batching/Readme.md            | 4 ++--
 examples/stateful/sequence_continuous_batching/Readme.md | 6 +++---
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/examples/stateful/sequence_batching/Readme.md b/examples/stateful/sequence_batching/Readme.md
index abdd747e22..d1cae6c257 100644
--- a/examples/stateful/sequence_batching/Readme.md
+++ b/examples/stateful/sequence_batching/Readme.md
@@ -6,9 +6,9 @@ Within this context, TorchServe offers a mechanism known as sequence batching. T
 
 The following picture show the workflow of stateful inference. A job group has a job queue which stores incoming inference requests from a streaming. The max capacity of a job queue is defined by `maxSequenceJobQueueSize`. A sequence batch aggregator polls an inference request from each job group. A batch of requests is sent to backend.
 
-![sequence batch](../../docs/images/stateful_batch.jpg)
+![sequence batch](../../../docs/images/stateful_batch.jpg)
 
-This example serves as a practical showcase of employing stateful inference. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
+This example serves as a practical showcase of employing stateful inference via sequence batching. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
 
 ### Step 1: Implement handler
 
diff --git a/examples/stateful/sequence_continuous_batching/Readme.md b/examples/stateful/sequence_continuous_batching/Readme.md
index 545060fad2..b53ee3da25 100644
--- a/examples/stateful/sequence_continuous_batching/Readme.md
+++ b/examples/stateful/sequence_continuous_batching/Readme.md
@@ -2,13 +2,13 @@
 
 A stateful model possesses the ability to leverage interdependencies between successive inference requests. This type of model maintains a persistent state across inference requests, thereby establishing a linkage between the outcomes of prior inquiries and those that follow. Notable illustrations of stateful models encompass online speech recognition systems, such as the Long Short-Term Memory (LSTM) model. Employing stateful inference mandates that the model server adheres to the sequential order of inference requests, ensuring predictions build upon the previous outcomes.
 
-Within this context, TorchServe offers a mechanism known as sequence batching. This approach involves the retrieval of an individual inference request from a particular sequence, followed by the combination of multiple requests originating from different sequences into a unified batch. Each request is associated with a unique sequence ID, which can be extracted using the "get_sequence_id" function of context.py. This `sequence ID` serves as a key employed by custom handlers to store and retrieve values within the backend cache store, fostering efficient management of stateful inference processes. Client can also reuse the `sequence ID` when a connection resumes as long as the sequence is not expired on the TorchServe side.
+Within this context, TorchServe offers a mechanism known as sequence continuous batching. This approach involves the retrieval of an individual inference request from a particular sequence, followed by the combination of multiple requests originating from different sequences into a unified batch. Each request is associated with a unique sequence ID, which can be extracted using the "get_sequence_id" function of context.py. This `sequence ID` serves as a key employed by custom handlers to store and retrieve values within the backend cache store, fostering efficient management of stateful inference processes. Client can also reuse the `sequence ID` when a connection resumes as long as the sequence is not expired on the TorchServe side. Additionally, continuous batching enables a new inference request of a sequence to be served while the previous one is in a response steaming mode.
 
 The following picture show the workflow of stateful inference. A job group has a job queue which stores incoming inference requests from a streaming. The max capacity of a job queue is defined by `maxSequenceJobQueueSize`. A sequence batch aggregator polls an inference request from each job group. A batch of requests is sent to backend.
 
-![sequence batch](../../docs/images/stateful_batch.jpg)
+![sequence batch](../../../docs/images/stateful_batch.jpg)
 
-This example serves as a practical showcase of employing stateful inference. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
+This example serves as a practical showcase of employing stateful inference via sequence batching and continuous batching. Underneath the surface, the backend leverages an [LRU dictionary](https://github.com/amitdev/lru-dict), functioning as a caching layer. Users can choose different caching library in the handler implementation based on their own use cases.
 
 ### Step 1: Implement handler
 

From 5f87195e2253e0fc1966763066ee0431ea7b9d85 Mon Sep 17 00:00:00 2001
From: lxning <lninga@amazon.com>
Date: Sun, 2 Jun 2024 21:58:27 -0700
Subject: [PATCH 33/34] update readme

---
 .../sequence_continuous_batching/Readme.md    | 112 ++++++++++++++----
 1 file changed, 91 insertions(+), 21 deletions(-)

diff --git a/examples/stateful/sequence_continuous_batching/Readme.md b/examples/stateful/sequence_continuous_batching/Readme.md
index b53ee3da25..7d4e9a9ed9 100644
--- a/examples/stateful/sequence_continuous_batching/Readme.md
+++ b/examples/stateful/sequence_continuous_batching/Readme.md
@@ -20,15 +20,15 @@ stateful_handler.py is an example of stateful handler. It creates a cache `self.
         Loads the model and Initializes the necessary artifacts
         """
 
-        super().initialize(ctx)
-        if self.context.model_yaml_config["handler"] is not None:
-            try:
-                self.cache = LRU(
-                    int(self.context.model_yaml_config["handler"]["cache"]["capacity"]))
-            except KeyError:
-                logger.warn("No cache capacity was set! Using default value.")
-                self.cache = LRU(StatefulHandler.DEFAULT_CAPACITY)
-
+        ctx.cache = {}
+        if ctx.model_yaml_config["handler"] is not None:
+            self.cache = LRU(
+                int(
+                    ctx.model_yaml_config["handler"]
+                    .get("cache", {})
+                    .get("capacity", StatefulHandler.DEFAULT_CAPACITY)
+                )
+            )
         self.initialized = True
 ```
 
@@ -47,22 +47,92 @@ Handler uses sequenceId (ie., `sequence_id = self.context.get_sequence_id(idx)`)
             tensor: Returns the tensor data of the input
         """
 
-        self.sequence_ids = {}
         results = []
         for idx, row in enumerate(data):
             sequence_id = self.context.get_sequence_id(idx)
-
-            prev = int(0)
-            if self.cache.has_key(sequence_id):
+            # SageMaker sticky router relies on response header to identify the sessions
+            # The sequence_id from request headers must be set in response headers
+            self.context.set_response_header(
+                idx, self.context.header_key_sequence_id, sequence_id
+            )
+
+            # check if sequence_id exists
+            if self.context.get_request_header(
+                idx, self.context.header_key_sequence_start
+            ):
+                prev = int(0)
+                self.context.cache[sequence_id] = {
+                    "start": True,
+                    "cancel": False,
+                    "end": False,
+                    "num_requests": 0,
+                }
+            elif self.cache.has_key(sequence_id):
                 prev = int(self.cache[sequence_id])
-
-            request = row.get("data") or row.get("body")
-            if isinstance(request, (bytes, bytearray)):
-                request = request.decode("utf-8")
-
-            val = prev + int(request)
-            self.cache[sequence_id] = val
-            results.append(val)
+            else:
+                prev = None
+                logger.error(
+                    f"Not received sequence_start request for sequence_id:{sequence_id} before"
+                )
+
+            req_id = self.context.get_request_id(idx)
+            # process a new request
+            if req_id not in self.context.cache:
+                logger.info(
+                    f"received a new request sequence_id={sequence_id}, request_id={req_id}"
+                )
+                request = row.get("data") or row.get("body")
+                if isinstance(request, (bytes, bytearray)):
+                    request = request.decode("utf-8")
+
+                self.context.cache[req_id] = {
+                    "stopping_criteria": self._create_stopping_criteria(
+                        req_id=req_id, seq_id=sequence_id
+                    ),
+                    "stream": True,
+                }
+                self.context.cache[sequence_id]["num_requests"] += 1
+
+                if type(request) is dict and "input" in request:
+                    request = request.get("input")
+
+                # -1: cancel
+                if int(request) == -1:
+                    self.context.cache[sequence_id]["cancel"] = True
+                    self.context.cache[req_id]["stream"] = False
+                    results.append(int(request))
+                elif prev is None:
+                    logger.info(
+                        f"Close the sequence:{sequence_id} without open session request"
+                    )
+                    self.context.cache[sequence_id]["end"] = True
+                    self.context.cache[req_id]["stream"] = False
+                    self.context.set_response_header(
+                        idx, self.context.header_key_sequence_end, sequence_id
+                    )
+                    results.append(int(request))
+                else:
+                    val = prev + int(request)
+                    self.cache[sequence_id] = val
+                    # 0: end
+                    if int(request) == 0:
+                        self.context.cache[sequence_id]["end"] = True
+                        self.context.cache[req_id]["stream"] = False
+                        self.context.set_response_header(
+                            idx, self.context.header_key_sequence_end, sequence_id
+                        )
+                    # non stream input:
+                    elif int(request) % 2 == 0:
+                        self.context.cache[req_id]["stream"] = False
+
+                    results.append(val)
+            else:
+                # continue processing stream
+                logger.info(
+                    f"received continuous request sequence_id={sequence_id}, request_id={req_id}"
+                )
+                time.sleep(1)
+                results.append(prev)
 
         return results
 ```

From 1ce8bf06f531dcacac68535155dbac78c930bbfa Mon Sep 17 00:00:00 2001
From: Matthias Reso <13337103+mreso@users.noreply.github.com>
Date: Mon, 3 Jun 2024 18:11:29 +0000
Subject: [PATCH 34/34] Added stop torchserve to unit tests

---
 test/pytest/test_example_stateful_sequence_batching_http.py    | 1 +
 .../test_example_stateful_sequence_continuous_batching_http.py | 3 +++
 2 files changed, 4 insertions(+)

diff --git a/test/pytest/test_example_stateful_sequence_batching_http.py b/test/pytest/test_example_stateful_sequence_batching_http.py
index 3662470c24..65b996b2f6 100644
--- a/test/pytest/test_example_stateful_sequence_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_batching_http.py
@@ -131,6 +131,7 @@ def test_stateful_mar(mar_file_path, model_store):
 
         # Clean up files
         shutil.rmtree(Path(model_store) / model_name)
+        test_utils.stop_torchserve()
 
 
 def __infer_stateful(model_name, sequence_id, expected):
diff --git a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
index d4a943dbf0..2e95735ccf 100644
--- a/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
+++ b/test/pytest/test_example_stateful_sequence_continuous_batching_http.py
@@ -137,6 +137,7 @@ def test_infer_stateful(mar_file_path, model_store):
 
         # Clean up files
         shutil.rmtree(Path(model_store) / model_name)
+        test_utils.stop_torchserve()
 
 
 def test_infer_stateful_end(mar_file_path, model_store):
@@ -191,6 +192,7 @@ def test_infer_stateful_end(mar_file_path, model_store):
 
         # Clean up files
         shutil.rmtree(Path(model_store) / model_name)
+        test_utils.stop_torchserve()
 
 
 def test_infer_stateful_cancel(mar_file_path, model_store):
@@ -255,6 +257,7 @@ def test_infer_stateful_cancel(mar_file_path, model_store):
 
         # Clean up files
         shutil.rmtree(Path(model_store) / model_name)
+        test_utils.stop_torchserve()
 
 
 def __infer_stateful(model_name, sequence_id, expected):