Spaces:

algorithmicsuperintelligence
/

prompt-optimizer

Running

codelion commited on 24 days ago

Commit

1a53d87

verified ·

1 Parent(s): 69d4c01

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -504,7 +504,7 @@ def parse_evolution_history(output_dir: str) -> str:
 def create_evaluator_file(dataset_name: str, split: str, model: str,
                          input_field: str, target_field: str, work_dir: str):
-    """Create an evaluator.py file for OpenEvolve that uses 75 samples for better signal."""
     evaluator_code = f'''
 import os
 import random
@@ -514,9 +514,9 @@ from openai import OpenAI
 def evaluate(prompt: str) -> dict:
     """
-    Evaluate a prompt using 75 fixed samples for stronger evolution signal.
-    75 samples balances signal strength (vs 50) with API rate limits (vs 150).
     Includes early stopping and rate limit handling.
     """
     try:
@@ -535,8 +535,8 @@ def evaluate(prompt: str) -> dict:
             else:
                 raise
-        # Sample 75 samples with seed 42 for good signal without excessive API calls
-        num_samples = 75
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
@@ -973,7 +973,7 @@ def optimize_prompt(initial_prompt: str, dataset_name: str, dataset_split: str,
 - **Model**: {model}
 - **Initial Eval**: 50 samples
 - **Final Eval**: 50 samples (same samples for fair comparison)
-- **Evolution**: 75 samples per variant (balanced signal vs API limits)
 - **Iterations**: 10
 ### Results

 def create_evaluator_file(dataset_name: str, split: str, model: str,
                          input_field: str, target_field: str, work_dir: str):
+    """Create an evaluator.py file for OpenEvolve that uses same 50 samples as initial/final eval."""
     evaluator_code = f'''
 import os
 import random
 def evaluate(prompt: str) -> dict:
     """
+    Evaluate a prompt using 50 fixed samples - SAME as initial and final evaluation.
+    Using the same 50 samples ensures evolution optimizes for the exact test set.
     Includes early stopping and rate limit handling.
     """
     try:
             else:
                 raise
+        # Sample 50 samples with seed 42 - SAME as initial/final evaluation for consistency!
+        num_samples = 50
         if len(dataset) > num_samples:
             # Use SAME sampling logic as initial/final eval
             indices = random.sample(range(len(dataset)), num_samples)
 - **Model**: {model}
 - **Initial Eval**: 50 samples
 - **Final Eval**: 50 samples (same samples for fair comparison)
+- **Evolution**: 50 samples per variant (SAME samples as initial/final for consistency!)
 - **Iterations**: 10
 ### Results