Spaces:

ByteDance-Seed
/

Seed-X

Running on Zero

App Files Files Community

YuLu0713 commited on Jul 25, 2025

Commit

7226c0f

verified ·

1 Parent(s): a9a4fd4

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -108

app.py CHANGED Viewed

@@ -6,117 +6,38 @@ import torch
 # 支持的语言选项
 LANGUAGES = {
     "Auto Detect": "auto",
-    "English": "English",
-    "Chinese": "Chinese",
-    "Traditional Chinese": "Traditional Chinese",
-    "Russian": "Russian",
-    "Japanese": "Japanese",
-    "Korean": "Korean",
-    "Spanish": "Spanish",
-    "French": "French",
-    "Portuguese": "Portuguese",
-    "German": "German",
-    "Italian": "Italian",
-    "Thai": "Thai",
-    "Vietnamese": "Vietnamese",
-    "Indonesian": "Indonesian",
-    "Malay": "Malay",
-    "Arabic": "Arabic",
-    "Hindi": "Hindi",
-    "Hebrew": "Hebrew",
-    "Burmese": "Burmese",
-    "Tamil": "Tamil",
-    "Urdu": "Urdu",
-    "Bengali": "Bengali",
-    "Polish": "Polish",
-    "Dutch": "Dutch",
-    "Romanian": "Romanian",
-    "Turkish": "Turkish",
-    "Khmer": "Khmer",
-    "Lao": "Lao",
-    "Cantonese": "Cantonese",
-    "Czech": "Czech",
-    "Greek": "Greek",
-    "Swedish": "Swedish",
-    "Hungarian": "Hungarian",
-    "Danish": "Danish",
-    "Finnish": "Finnish",
-    "Ukrainian": "Ukrainian",
-    "Bulgarian": "Bulgarian",
-    "Serbian": "Serbian",
-    "Telugu": "Telugu",
-    "Afrikaans": "Afrikaans",
-    "Armenian": "Armenian",
-    "Assamese": "Assamese",
-    "Asturian": "Asturian",
-    "Basque": "Basque",
-    "Belarusian": "Belarusian",
-    "Bosnian": "Bosnian",
-    "Catalan": "Catalan",
-    "Cebuano": "Cebuano",
-    "Croatian": "Croatian",
-    "Egyptian Arabic": "Egyptian Arabic",
-    "Estonian": "Estonian",
-    "Galician": "Galician",
-    "Georgian": "Georgian",
-    "Gujarati": "Gujarati",
-    "Icelandic": "Icelandic",
-    "Javanese": "Javanese",
-    "Kannada": "Kannada",
-    "Kazakh": "Kazakh",
-    "Latvian": "Latvian",
-    "Lithuanian": "Lithuanian",
-    "Luxembourgish": "Luxembourgish",
-    "Macedonian": "Macedonian",
-    "Maithili": "Maithili",
-    "Maltese": "Maltese",
-    "Marathi": "Marathi",
-    "Mesopotamian Arabic": "Mesopotamian Arabic",
-    "Moroccan Arabic": "Moroccan Arabic",
-    "Najdi Arabic": "Najdi Arabic",
-    "Nepali": "Nepali",
-    "North Azerbaijani": "North Azerbaijani",
-    "North Levantine Arabic": "North Levantine Arabic",
-    "Northern Uzbek": "Northern Uzbek",
-    "Norwegian Bokmål": "Norwegian Bokmål",
-    "Norwegian Nynorsk": "Norwegian Nynorsk",
-    "Occitan": "Occitan",
-    "Odia": "Odia",
-    "Pangasinan": "Pangasinan",
-    "Sicilian": "Sicilian",
-    "Sindhi": "Sindhi",
-    "Sinhala": "Sinhala",
-    "Slovak": "Slovak",
-    "Slovenian": "Slovenian",
-    "South Levantine Arabic": "South Levantine Arabic",
-    "Swahili": "Swahili",
-    "Tagalog": "Tagalog",
-    "Ta’izzi-Adeni Arabic": "Ta’izzi-Adeni Arabic",
-    "Tosk Albanian": "Tosk Albanian",
-    "Tunisian Arabic": "Tunisian Arabic",
-    "Venetian": "Venetian",
-    "Waray": "Waray",
-    "Welsh": "Welsh",
-    "Western Persian": "Western Persian"
 }
 from transformers import AutoModelForCausalLM, AutoTokenizer
-# from huggingface_hub import snapshot_download
-# save_dir = "./model_weights"
-# repo_id = "ByteDance-Seed/Seed-X-PPO-7B"
-# cache_dir = save_dir + "/cache"
-# snapshot_download(
-#   cache_dir=cache_dir,
-#   local_dir=save_dir,
-#   repo_id=repo_id,
-#   local_dir_use_symlinks=False,
-#   resume_download=True,
-#   allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"],
-# )
 device = "cuda"
 MODEL_NAME = "ByteDance-Seed/Seed-X-PPO-7B"
 print("Start dowload")
@@ -130,6 +51,9 @@ print("Ednd dowload")
 # Loading the tokenizer once, because re-loading it takes about 1.5 seconds each time
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 @spaces.GPU(duration=120)
 def translate_text(text, source_lang, target_lang):
@@ -137,7 +61,7 @@ def translate_text(text, source_lang, target_lang):
         return "请输入要翻译的文本"
     try:
         input_tokens = (
-            tokenizer(text, return_tensors="pt")
             .input_ids[0]
             .cpu()
             .numpy()
@@ -150,6 +74,7 @@ def translate_text(text, source_lang, target_lang):
             num_return_sequences=1,
         )
         full_output = tokenizer.decode(translated_chunk[0], skip_special_tokens=True)
         yield full_output
     except Exception as e:
         yield f"翻译出错: {str(e)}"

 # 支持的语言选项
 LANGUAGES = {
     "Auto Detect": "auto",
+    "English": "en",
+    "Chinese": "zh",
+    "Russian": "ru",
+    "Japanese": "ka",
+    "Korean": "ko",
+    "Spanish": "es",
+    "French": "fr",
+    "Portuguese": "pt",
+    "German": "de",
+    "Italian": "it",
+    "Thai": "th",
+    "Vietnamese": "vi",
+    "Indonesian": "id",
+    "Malay": "ms",
+    "Arabic": "ar",
+    "Polish": "pl",
+    "Dutch": "nl",
+    "Romanian": "ro",
+    "Turkish": "tr",
+    "Czech": "cs",
+    "Danish": "da",
+    "Finnish": "fi",
+    "Ukrainian": "uk",
+    "Norwegian Bokmal":"nb",
+    "Norwegian":"no",
+    "Croatian":"hr",
+    "Swedish":"sv",
+    "Hungarian":"hu"
 }
 from transformers import AutoModelForCausalLM, AutoTokenizer
 device = "cuda"
 MODEL_NAME = "ByteDance-Seed/Seed-X-PPO-7B"
 print("Start dowload")
 # Loading the tokenizer once, because re-loading it takes about 1.5 seconds each time
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+def prompting(text, source_lang, target_lang):
+    l = LANGUAGES[target_lang]
+    prompt=f"Translate the following {source_lang} sentence into {target_lang} and explain it in detail:\n{text} <{l}>"
 @spaces.GPU(duration=120)
 def translate_text(text, source_lang, target_lang):
         return "请输入要翻译的文本"
     try:
         input_tokens = (
+            tokenizer(text.strip(), return_tensors="pt")
             .input_ids[0]
             .cpu()
             .numpy()
             num_return_sequences=1,
         )
         full_output = tokenizer.decode(translated_chunk[0], skip_special_tokens=True)
+        full_output = full_output.replace(text.strip(),"")
         yield full_output
     except Exception as e:
         yield f"翻译出错: {str(e)}"