fix linting

yoonhyejin · yoonhyejin · commit 5d5682fe796c · 2024-12-20T09:35:19.000+09:00
diff --git a/metadata-ingestion/examples/ai/data_job_instance.py b/metadata-ingestion/examples/ai/data_job_instance.py
@@ -152,4 +152,4 @@ def generate_pipeline(
         for mcp in generate_pipeline(
             "training_pipeline_airflow", orchestrator=ORCHESTRATOR_AIRFLOW
         ):
-            graph.emit(mcp)
+            graph.emit(mcp)
diff --git a/metadata-ingestion/examples/ai/demo_script.py b/metadata-ingestion/examples/ai/demo_script.py
@@ -13,7 +13,12 @@
 from datahub.api.entities.dataset.dataset import Dataset
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
 from datahub.ingestion.graph.client import get_default_graph
-from datahub.metadata.urns import DatasetUrn, DataPlatformUrn, MlModelGroupUrn, MlModelUrn
+from datahub.metadata.urns import (
+    DatasetUrn,
+    DataPlatformUrn,
+    MlModelGroupUrn,
+    MlModelUrn,
+)
 from datahub.emitter.mcp_builder import ContainerKey
 
 ORCHESTRATOR_MLFLOW = "mlflow"
@@ -133,7 +138,9 @@ def generate_pipeline(
 
         yield from experiment.generate_mcp()
 
-        model_group_urn = MlModelGroupUrn(platform="mlflow", name="airline_forecast_models")
+        model_group_urn = MlModelGroupUrn(
+            platform="mlflow", name="airline_forecast_models"
+        )
         current_time = int(time.time() * 1000)
         model_group_info = models.MLModelGroupPropertiesClass(
             description="ML models for airline passenger forecasting",
@@ -153,8 +160,20 @@ def generate_pipeline(
 
         print("model_group_urn: ", model_group_urn)
 
-        model_aliases = ["challenger", "champion", "production", "experimental", "deprecated"]
-        model_tags = ["stage:production", "stage:development", "team:data_science", "team:ml_engineering", "team:analytics"]
+        model_aliases = [
+            "challenger",
+            "champion",
+            "production",
+            "experimental",
+            "deprecated",
+        ]
+        model_tags = [
+            "stage:production",
+            "stage:development",
+            "team:data_science",
+            "team:ml_engineering",
+            "team:analytics",
+        ]
 
         model_dict = {
             "arima_model_1": "ARIMA model for airline passenger forecasting",
@@ -166,21 +185,45 @@ def generate_pipeline(
 
         # Generate run timestamps within the last month
         end_time = int(time.time() * 1000)  # Current timestamp in milliseconds
-        start_time = end_time - (30 * 24 * 60 * 60 * 1000)  # 30 days ago in milliseconds
+        start_time = end_time - (
+            30 * 24 * 60 * 60 * 1000
+        )  # 30 days ago in milliseconds
         run_timestamps = [
             start_time + (i * 5 * 24 * 60 * 60 * 1000)  # 5-day intervals
             for i in range(5)
         ]
 
         run_dict = {
-            "run_1": {"start_time": run_timestamps[0], "duration": 45, "result": InstanceRunResult.SUCCESS},
-            "run_2": {"start_time": run_timestamps[1], "duration": 60, "result": InstanceRunResult.FAILURE},
-            "run_3": {"start_time": run_timestamps[2], "duration": 55, "result": InstanceRunResult.SUCCESS},
-            "run_4": {"start_time": run_timestamps[3], "duration": 70, "result": InstanceRunResult.SUCCESS},
-            "run_5": {"start_time": run_timestamps[4], "duration": 50, "result": InstanceRunResult.FAILURE},
+            "run_1": {
+                "start_time": run_timestamps[0],
+                "duration": 45,
+                "result": InstanceRunResult.SUCCESS,
+            },
+            "run_2": {
+                "start_time": run_timestamps[1],
+                "duration": 60,
+                "result": InstanceRunResult.FAILURE,
+            },
+            "run_3": {
+                "start_time": run_timestamps[2],
+                "duration": 55,
+                "result": InstanceRunResult.SUCCESS,
+            },
+            "run_4": {
+                "start_time": run_timestamps[3],
+                "duration": 70,
+                "result": InstanceRunResult.SUCCESS,
+            },
+            "run_5": {
+                "start_time": run_timestamps[4],
+                "duration": 50,
+                "result": InstanceRunResult.FAILURE,
+            },
         }
 
-        for i, (model_name, model_description) in enumerate(model_dict.items(), start=1):
+        for i, (model_name, model_description) in enumerate(
+            model_dict.items(), start=1
+        ):
             run_id = f"run_{i}"
             data_process_instance = DataProcessInstance.from_container(
                 container_key=experiment.key, id=run_id
@@ -206,34 +249,36 @@ def generate_pipeline(
                 models.MLMetricClass(
                     name="accuracy",
                     value=str(random.uniform(0.7, 0.99)),
-                    description="Test accuracy"
+                    description="Test accuracy",
                 ),
                 models.MLMetricClass(
                     name="f1_score",
                     value=str(random.uniform(0.7, 0.99)),
-                    description="Test F1 score"
-                )
+                    description="Test F1 score",
+                ),
             ]
             hyper_params = [
                 models.MLHyperParamClass(
                     name="n_estimators",
                     value=str(random.randint(50, 200)),
-                    description="Number of trees"
+                    description="Number of trees",
                 ),
                 models.MLHyperParamClass(
                     name="max_depth",
                     value=str(random.randint(5, 15)),
-                    description="Maximum tree depth"
-                )
+                    description="Maximum tree depth",
+                ),
             ]
 
             # DPI properties
             created_at = int(time.time() * 1000)
             print(start_time)
             dpi_props = models.DataProcessInstancePropertiesClass(
                 name=f"Training {run_id}",
-                created=models.AuditStampClass(time=created_at, actor="urn:li:corpuser:datahub"),
-                createdAt=int(created_at/1000),
+                created=models.AuditStampClass(
+                    time=created_at, actor="urn:li:corpuser:datahub"
+                ),
+                createdAt=int(created_at / 1000),
                 createdBy="jane_doe",
                 loggedModels=["sklearn"],
                 artifactsLocation="s3://mlflow/artifacts",
@@ -261,7 +306,9 @@ def generate_pipeline(
             duration_minutes = run_dict[run_id]["duration"]
             end_time_millis = start_time_millis + duration_minutes * 60000
             result = run_dict[run_id]["result"]
-            result_type = "SUCCESS" if result == InstanceRunResult.SUCCESS else "FAILURE"
+            result_type = (
+                "SUCCESS" if result == InstanceRunResult.SUCCESS else "FAILURE"
+            )
 
             yield from data_process_instance.start_event_mcp(
                 start_timestamp_millis=start_time_millis
@@ -275,7 +322,12 @@ def generate_pipeline(
 
             print("data_process_instance.urn: ", data_process_instance.urn)
             print("start Time:", start_time_millis)
-            print("start Time:", time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(start_time_millis/1000)))
+            print(
+                "start Time:",
+                time.strftime(
+                    "%Y-%m-%d %H:%M:%S", time.localtime(start_time_millis / 1000)
+                ),
+            )
 
             # Model
             selected_aliases = random.sample(model_aliases, k=random.randint(1, 2))
@@ -309,4 +361,4 @@ def generate_pipeline(
         for mcp in generate_pipeline(
             "airline_forecast_pipeline_airflow", orchestrator=ORCHESTRATOR_AIRFLOW
         ):
-            graph.emit(mcp)
+            graph.emit(mcp)
diff --git a/metadata-ingestion/src/datahub/api/entities/dataprocess/dataprocess_instance.py b/metadata-ingestion/src/datahub/api/entities/dataprocess/dataprocess_instance.py
@@ -21,7 +21,7 @@
     DataProcessTypeClass,
     TimeStampClass,
     SubTypesClass,
-    ContainerClass
+    ContainerClass,
 )
 from datahub.metadata.urns import DataPlatformInstanceUrn, DataPlatformUrn, ContainerUrn
 from datahub.utilities.str_enum import StrEnum
@@ -66,7 +66,9 @@ class DataProcessInstance:
     orchestrator: str
     cluster: Optional[str] = None
     type: str = DataProcessTypeClass.BATCH_SCHEDULED
-    template_urn: Optional[Union[DataJobUrn, DataFlowUrn, DatasetUrn, ContainerUrn]] = None
+    template_urn: Optional[
+        Union[DataJobUrn, DataFlowUrn, DatasetUrn, ContainerUrn]
+    ] = None
     parent_instance: Optional[DataProcessInstanceUrn] = None
     properties: Dict[str, str] = field(default_factory=dict)
     url: Optional[str] = None
@@ -409,9 +411,11 @@ def from_container(
         """
         dpi: DataProcessInstance = DataProcessInstance(
             id=id,
-            orchestrator=DataPlatformUrn.from_string(container_key.platform).platform_name,
+            orchestrator=DataPlatformUrn.from_string(
+                container_key.platform
+            ).platform_name,
             template_urn=None,
-            container_urn = container_key.as_urn(),
+            container_urn=container_key.as_urn(),
         )
 
         return dpi
@@ -461,4 +465,4 @@ def generate_inlet_outlet_mcp(
                 yield MetadataChangeProposalWrapper(
                     entityUrn=str(iolet),
                     aspect=iolet.to_key_aspect(),
-                )
+                )
diff --git a/metadata-ingestion/src/datahub/emitter/mcp.py b/metadata-ingestion/src/datahub/emitter/mcp.py
@@ -63,7 +63,10 @@ class MetadataChangeProposalWrapper:
 
     entityType: str = _ENTITY_TYPE_UNSET
     changeType: Union[str, ChangeTypeClass] = ChangeTypeClass.UPSERT
-    entityUrn: Union[None, str,] = None
+    entityUrn: Union[
+        None,
+        str,
+    ] = None
     entityKeyAspect: Union[None, _Aspect] = None
     auditHeader: Union[None, KafkaAuditHeaderClass] = None
     aspectName: Union[None, str] = None
@@ -108,7 +111,7 @@ def construct_many(
     ) -> List["MetadataChangeProposalWrapper"]:
         return [cls(entityUrn=entityUrn, aspect=aspect) for aspect in aspects if aspect]
 
-    def _make_mcp_without_aspects(self) -> MetadataChangeProposalClass: 
+    def _make_mcp_without_aspects(self) -> MetadataChangeProposalClass:
         assert self.entityUrn is None or isinstance(self.entityUrn, str)
         return MetadataChangeProposalClass(
             entityType=self.entityType,
diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py