Spaces:

megatrump
/

test-FunAudioLLM

Paused

megatrump commited on Mar 6

Commit

3b8b027

1 Parent(s): 51e0a26

update

Files changed (1) hide show

api.py CHANGED Viewed

@@ -294,19 +294,24 @@ def transcribe_audio_gradio(audio, language="auto"):
             return "请上传音频文件"
         # 读取音频数据
-        waveform, sample_rate = audio
         # 转换为单声道
-        if waveform.shape[0] > 1:
-            waveform = waveform.mean(dim=0)
-        # 转换为numpy array并归一化
-        input_wav = waveform.numpy().astype(np.float32)
         # 重采样到16kHz
-        if sample_rate != 16000:
-            resampler = torchaudio.transforms.Resample(sample_rate, 16000)
-            input_wav = resampler(torch.from_numpy(input_wav)[None, :])[0, :].numpy()
         # 模型推理
         text = model.generate(

             return "请上传音频文件"
         # 读取音频数据
+        fs, input_wav = audio
+        print('------------------------------')
+        print(fs, type(fs))
+        print(input_wav, type(input_wav))
+        print('------------------------------')
+        input_wav = input_wav.astype(np.float32) / np.iinfo(np.int16).max
         # 转换为单声道
+        if len(input_wav.shape) > 1:
+            input_wav = input_wav.mean(-1)
         # 重采样到16kHz
+        if fs != 16000:
+            resampler = torchaudio.transforms.Resample(fs, 16000)
+            input_wav_t = torch.from_numpy(input_wav).to(torch.float32)
+            input_wav = resampler(input_wav_t[None, :])[0, :].numpy()
         # 模型推理
         text = model.generate(