Spaces:

algorithmicsuperintelligence
/

prompt-optimizer

Running

App Files Files Community

codelion commited on 27 days ago

Commit

4f668f2

verified ·

1 Parent(s): 0533c5a

Upload app.py

Browse files

Files changed (1) hide show

app.py +51 -20

app.py CHANGED Viewed

@@ -256,28 +256,49 @@ def collect_prompt_history(output_dir: str) -> List[Dict]:
     try:
         prompts = []
-        # Look for all program files
-        program_files = sorted(glob.glob(os.path.join(output_dir, "program_*.txt")))
-        # Also check for logs to get scores
-        log_dir = os.path.join(output_dir, "logs")
-        for pfile in program_files:
-            try:
-                with open(pfile, 'r') as f:
-                    prompt_content = f.read()
-                # Extract program ID from filename
-                prog_id = os.path.basename(pfile).replace("program_", "").replace(".txt", "")
-                prompts.append({
-                    "prompt": prompt_content,
-                    "id": prog_id,
-                    "file": pfile
-                })
-            except:
                 continue
         return prompts
     except Exception as e:
         print(f"Error collecting prompt history: {e}")
@@ -554,6 +575,7 @@ def create_config_file(model: str, work_dir: str):
             "temperature": 0.7,
         },
         "max_iterations": 10,
         "diff_based_evolution": False,  # Use full rewrite mode for prompts (not diff/patch mode)
         "evolution": {
             "population_size": 10,
@@ -562,6 +584,9 @@ def create_config_file(model: str, work_dir: str):
             "explore_ratio": 0.3,
             "exploit_ratio": 0.6,
         },
         "evaluator": {
             "timeout": 3600,  # 1 hour timeout (effectively disabled, but prevents NoneType arithmetic errors)
             "cascade_evaluation": False,  # Disable cascade to prevent signal errors
@@ -693,13 +718,19 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
             progress(0.85, desc="Evaluating best evolved prompt on 20 samples...")
-            # Get the best prompt
-            best_prompt_path = os.path.join(output_dir, "best_program.txt")
             if os.path.exists(best_prompt_path):
                 with open(best_prompt_path, "r") as f:
                     best_prompt = f.read()
             else:
-                best_prompt = initial_prompt
             # Evaluate best prompt (using 20 samples like initial eval for consistency)
             final_eval = evaluate_prompt(

     try:
         prompts = []
+        # OpenEvolve saves programs in checkpoint directories as JSON files
+        # Structure: output_dir/checkpoints/checkpoint_{iteration}/programs/{program_id}.json
+        checkpoints_dir = os.path.join(output_dir, "checkpoints")
+        if not os.path.exists(checkpoints_dir):
+            return []
+        # Find all checkpoint directories
+        checkpoint_dirs = sorted(glob.glob(os.path.join(checkpoints_dir, "checkpoint_*")))
+        for checkpoint_dir in checkpoint_dirs:
+            programs_dir = os.path.join(checkpoint_dir, "programs")
+            if not os.path.exists(programs_dir):
                 continue
+            # Read all program JSON files
+            program_files = glob.glob(os.path.join(programs_dir, "*.json"))
+            for pfile in program_files:
+                try:
+                    with open(pfile, 'r') as f:
+                        program_data = json.load(f)
+                    # Extract the code (prompt) from the program data
+                    prompt_content = program_data.get("code", "")
+                    prog_id = program_data.get("id", os.path.basename(pfile).replace(".json", ""))
+                    iteration = program_data.get("iteration_found", 0)
+                    metrics = program_data.get("metrics", {})
+                    prompts.append({
+                        "prompt": prompt_content,
+                        "id": prog_id,
+                        "file": pfile,
+                        "iteration": iteration,
+                        "metrics": metrics
+                    })
+                except Exception as e:
+                    print(f"Error reading program file {pfile}: {e}")
+                    continue
+        # Sort by iteration
+        prompts.sort(key=lambda x: x.get("iteration", 0))
         return prompts
     except Exception as e:
         print(f"Error collecting prompt history: {e}")
             "temperature": 0.7,
         },
         "max_iterations": 10,
+        "checkpoint_interval": 2,  # Save checkpoints every 2 iterations to preserve prompt history
         "diff_based_evolution": False,  # Use full rewrite mode for prompts (not diff/patch mode)
         "evolution": {
             "population_size": 10,
             "explore_ratio": 0.3,
             "exploit_ratio": 0.6,
         },
+        "database": {
+            "log_prompts": True,  # Save prompts used to generate each program
+        },
         "evaluator": {
             "timeout": 3600,  # 1 hour timeout (effectively disabled, but prevents NoneType arithmetic errors)
             "cascade_evaluation": False,  # Disable cascade to prevent signal errors
             progress(0.85, desc="Evaluating best evolved prompt on 20 samples...")
+            # Get the best prompt (OpenEvolve saves to output_dir/best/best_program.txt)
+            best_prompt_path = os.path.join(output_dir, "best", "best_program.txt")
             if os.path.exists(best_prompt_path):
                 with open(best_prompt_path, "r") as f:
                     best_prompt = f.read()
             else:
+                # Fallback: try without the "best" subdirectory
+                best_prompt_path_alt = os.path.join(output_dir, "best_program.txt")
+                if os.path.exists(best_prompt_path_alt):
+                    with open(best_prompt_path_alt, "r") as f:
+                        best_prompt = f.read()
+                else:
+                    best_prompt = initial_prompt
             # Evaluate best prompt (using 20 samples like initial eval for consistency)
             final_eval = evaluate_prompt(