push

Cosmos-Break · Cosmos-Break · commit 5c5fe43df4a6 · 2023-09-13T14:12:09.000+08:00
diff --git a/train.py b/train.py
@@ -4,6 +4,12 @@
 import numpy as np
 import sys
 
+from dataclasses import dataclass, field
+
+@dataclass
+class CustomTrainingArguments(TrainingArguments):
+    save_steps: int = field(default=100)
+
 # model_path = sys.argv[1]
 
 def setup_seed(seed):
@@ -49,33 +55,33 @@ def read_data(dataset_name, wav_split):
 
 
 # for debug
-read_data('Shanghai_Dialect_Dict', 1)
-read_data('Shanghai_Dialect_Dict', 2)
-random.shuffle(train_data)
-eval_ratio = 0.05
-index = int(len(train_data) * eval_ratio)
-eval_data = train_data[:10]
-train_data = train_data[10:20]
-batch_size = 1
-eval_steps = 100
-fp16 = False
-
-# for train
-# read_data('Shanghai_Dialect_Conversational_Speech_Corpus', 1)
-# read_data('Shanghai_Dialect_Conversational_Speech_Corpus', 2)
-# read_data('Shanghai_Dialect_Scripted_Speech_Corpus_Daily_Use_Sentence', 1)
-# read_data('Shanghai_Dialect_Scripted_Speech_Corpus_Daily_Use_Sentence', 2)
 # read_data('Shanghai_Dialect_Dict', 1)
 # read_data('Shanghai_Dialect_Dict', 2)
-# read_data('Shanghai_Dialect_Zhongguoyuyan', 1)
-
+# random.shuffle(train_data)
 # eval_ratio = 0.05
 # index = int(len(train_data) * eval_ratio)
-# eval_data = train_data[:index]
-# train_data = train_data[index:]
-# batch_size = 32
+# eval_data = train_data[:10]
+# train_data = train_data[10:20]
+# batch_size = 1
 # eval_steps = 100
-# fp16 = True
+# fp16 = False
+
+# for train
+read_data('Shanghai_Dialect_Conversational_Speech_Corpus', 1)
+read_data('Shanghai_Dialect_Conversational_Speech_Corpus', 2)
+read_data('Shanghai_Dialect_Scripted_Speech_Corpus_Daily_Use_Sentence', 1)
+read_data('Shanghai_Dialect_Scripted_Speech_Corpus_Daily_Use_Sentence', 2)
+read_data('Shanghai_Dialect_Dict', 1)
+read_data('Shanghai_Dialect_Dict', 2)
+read_data('Shanghai_Dialect_Zhongguoyuyan', 1)
+
+eval_ratio = 0.05
+index = int(len(train_data) * eval_ratio)
+eval_data = train_data[:index]
+train_data = train_data[index:]
+batch_size = 32
+eval_steps = 100
+fp16 = True
 
 
 print('eval_data_len:', len(eval_data))
@@ -84,7 +90,7 @@ def read_data(dataset_name, wav_split):
 # gradient_checkpointing=True,
 # gradient_accumulation_steps=2,
 
-training_args = TrainingArguments(
+training_args = CustomTrainingArguments(
     save_steps=eval_steps,
     group_by_length=True,
     num_train_epochs=200,
diff --git a/transcribe.py b/transcribe.py
@@ -1,12 +1,24 @@
 import torch
 from huggingsound import SpeechRecognitionModel
-
+import os
 device = "cuda" if torch.cuda.is_available() else "cpu"
 batch_size = 1
 # model = SpeechRecognitionModel("wbbbbb/wav2vec2-large-chinese-zh-cn", device=device)
-model = SpeechRecognitionModel("checkpoint-wav2vec2-large-xlsr-53-chinese-zh-cn-2022-09-02-10_08_26", device=device)
+model = SpeechRecognitionModel("checkpoint-wav2vec2-large-xlsr-53-chinese-zh-cn-2023-08-31-09:02:50", device=device)
 # audio_paths = ["Shanghai_Dialect_Dict/Split_WAV/1.wav", "Shanghai_Dialect_Dict/Split_WAV/2.wav"]
-audio_paths = ["Shanghai_Dialect_Dict/Split_WAV/1.wav"]
+audio_paths = ["Shanghai_Dialect_Dict/Split_WAV1/1.wav"]
+
+# audio_paths = []
+# for x in os.listdir('/data/xumh/asr/zhuanrengongzhuananjian/zhuananjian'):
+#     audio_paths.append('/data/xumh/asr/zhuanrengongzhuananjian/zhuananjian/' + x)
+# print(audio_paths)
+
+audio_paths = []
+for x in os.listdir('/data/xumh/asr/zhuanrengongzhuananjian/zhuanrengong'):
+    audio_paths.append('/data/xumh/asr/zhuanrengongzhuananjian/zhuanrengong/' + x)
+print(audio_paths)
+
+
 
 transcriptions = model.transcribe(audio_paths, batch_size=batch_size)