Spaces:

awacke1
/

CodeCompetitionClaudeVsGPT

Sleeping

App Files Files Community

CodeCompetitionClaudeVsGPT / app.py

awacke1

Update app.py

4e1519e verified 12 months ago

raw

history blame

11 kB

	import streamlit as st
	import pandas as pd
	import numpy as np
	from sentence_transformers import SentenceTransformer
	from sklearn.metrics.pairwise import cosine_similarity
	import requests
	from datetime import datetime
	import os

	HF_KEY = os.getenv('DATASET_KEY')

	# Initialize session state variables
	if 'search_history' not in st.session_state:
	st.session_state['search_history'] = []
	if 'search_columns' not in st.session_state:
	st.session_state['search_columns'] = []
	if 'initial_search_done' not in st.session_state:
	st.session_state['initial_search_done'] = False
	if 'hf_token' not in st.session_state:
	st.session_state['hf_token'] = HF_KEY

	def fetch_dataset_info_auth(dataset_id, hf_token):
	"""Fetch dataset information with authentication"""
	info_url = f"https://huggingface.co/api/datasets/{dataset_id}"
	headers = {"Authorization": f"Bearer {hf_token}"}
	try:
	response = requests.get(info_url, headers=headers, timeout=30)
	if response.status_code == 200:
	return response.json()
	except Exception as e:
	st.warning(f"Error fetching dataset info: {e}")
	return None

	def fetch_dataset_splits_auth(dataset_id, hf_token):
	"""Fetch available splits for the dataset"""
	splits_url = f"https://datasets-server.huggingface.co/splits?dataset={dataset_id}"
	headers = {"Authorization": f"Bearer {hf_token}"}
	try:
	response = requests.get(splits_url, headers=headers, timeout=30)
	if response.status_code == 200:
	return response.json().get('splits', [])
	except Exception as e:
	st.warning(f"Error fetching splits: {e}")
	return []

	def fetch_parquet_urls_auth(dataset_id, config, split, hf_token):
	"""Fetch Parquet file URLs for a specific split"""
	parquet_url = f"https://huggingface.co/api/datasets/{dataset_id}/parquet/{config}/{split}"
	headers = {"Authorization": f"Bearer {hf_token}"}
	try:
	response = requests.get(parquet_url, headers=headers, timeout=30)
	if response.status_code == 200:
	return response.json()
	except Exception as e:
	st.warning(f"Error fetching parquet URLs: {e}")
	return []

	def fetch_rows_auth(dataset_id, config, split, offset, length, hf_token):
	"""Fetch rows with authentication"""
	url = f"https://datasets-server.huggingface.co/rows?dataset={dataset_id}&config={config}&split={split}&offset={offset}&length={length}"
	headers = {"Authorization": f"Bearer {hf_token}"}
	try:
	response = requests.get(url, headers=headers, timeout=30)
	if response.status_code == 200:
	return response.json()
	except Exception as e:
	st.warning(f"Error fetching rows: {e}")
	return None

	class ParquetVideoSearch:
	def __init__(self, hf_token):
	self.text_model = SentenceTransformer('all-MiniLM-L6-v2')
	self.dataset_id = "tomg-group-umd/cinepile"
	self.config = "v2"
	self.hf_token = hf_token
	self.load_dataset()

	def load_dataset(self):
	"""Load initial dataset sample"""
	try:
	rows_data = fetch_rows_auth(
	self.dataset_id,
	self.config,
	"train",
	0,
	100,
	self.hf_token
	)

	if rows_data and 'rows' in rows_data:
	processed_rows = []
	for row_data in rows_data['rows']:
	row = row_data.get('row', row_data)
	processed_rows.append(row)

	self.dataset = pd.DataFrame(processed_rows)
	st.session_state['search_columns'] = [col for col in self.dataset.columns
	if not any(term in col.lower() for term in ['embed', 'vector', 'encoding'])]
	else:
	self.dataset = self.load_example_data()

	except Exception as e:
	st.warning(f"Error loading dataset: {e}")
	self.dataset = self.load_example_data()

	self.prepare_features()

	def load_example_data(self):
	"""Load example data as fallback"""
	return pd.DataFrame([{
	"video_id": "example",
	"title": "Example Video",
	"description": "Example video content",
	"duration": 120,
	"start_time": 0,
	"end_time": 120
	}])

	def prepare_features(self):
	"""Prepare text features for search"""
	try:
	# Combine relevant text fields for search
	text_fields = ['title', 'description'] if 'title' in self.dataset.columns else ['description']
	combined_text = self.dataset[text_fields].fillna('').agg(' '.join, axis=1)
	self.text_embeds = self.text_model.encode(combined_text.tolist())

	except Exception as e:
	st.warning(f"Error preparing features: {e}")
	self.text_embeds = np.random.randn(len(self.dataset), 384)

	def search(self, query, column=None, top_k=20):
	"""Search using text embeddings and optional column filtering"""
	query_embedding = self.text_model.encode([query])[0]
	similarities = cosine_similarity([query_embedding], self.text_embeds)[0]

	# Column filtering
	if column and column in self.dataset.columns and column != "All Fields":
	mask = self.dataset[column].astype(str).str.contains(query, case=False)
	similarities[~mask] *= 0.5

	top_k = min(top_k, len(similarities))
	top_indices = np.argsort(similarities)[-top_k:][::-1]

	results = []
	for idx in top_indices:
	result = {
	'relevance_score': float(similarities[idx]),
	**self.dataset.iloc[idx].to_dict()
	}
	results.append(result)

	return results

	def render_video_result(result):
	"""Render a video result with enhanced display"""
	col1, col2 = st.columns([2, 1])

	with col1:
	if 'title' in result:
	st.markdown(f"Title: {result['title']}")
	st.markdown("Description:")
	st.write(result.get('description', 'No description available'))

	# Show timing information
	start_time = result.get('start_time', 0)
	end_time = result.get('end_time', result.get('duration', 0))
	st.markdown(f"Time Range: {start_time}s - {end_time}s")

	# Show additional metadata
	for key, value in result.items():
	if key not in ['title', 'description', 'start_time', 'end_time', 'duration',
	'relevance_score', 'video_id', '_config', '_split']:
	st.markdown(f"{key.replace('_', ' ').title()}: {value}")

	with col2:
	st.markdown(f"Relevance Score: {result['relevance_score']:.2%}")

	# Display video if URL is available
	video_url = None
	if 'video_url' in result:
	video_url = result['video_url']
	elif 'youtube_id' in result:
	video_url = f"https://youtube.com/watch?v={result['youtube_id']}&t={start_time}"

	if video_url:
	st.video(video_url)

	def main():
	st.title("🎥 Video Dataset Search")

	# Get HF token from secrets or user input
	if not st.session_state['hf_token']:
	st.session_state['hf_token'] = st.secrets.get("HF_TOKEN", None)

	if not st.session_state['hf_token']:
	hf_token = st.text_input("Enter your Hugging Face API token:", type="password")
	if hf_token:
	st.session_state['hf_token'] = hf_token

	if not st.session_state.get('hf_token'):
	st.warning("Please provide a Hugging Face API token to access the dataset.")
	return

	# Initialize search class
	search = ParquetVideoSearch(st.session_state['hf_token'])

	# Create tabs
	tab1, tab2 = st.tabs(["🔍 Video Search", "📊 Dataset Info"])

	# ---- Tab 1: Video Search ----
	with tab1:
	st.subheader("Search Videos")
	col1, col2 = st.columns([3, 1])

	with col1:
	query = st.text_input("Enter your search query:",
	value="" if st.session_state['initial_search_done'] else "")
	with col2:
	search_column = st.selectbox("Search in field:",
	["All Fields"] + st.session_state['search_columns'])

	col3, col4 = st.columns(2)
	with col3:
	num_results = st.slider("Number of results:", 1, 100, 20)
	with col4:
	search_button = st.button("🔍 Search")

	if search_button and query:
	st.session_state['initial_search_done'] = True
	selected_column = None if search_column == "All Fields" else search_column

	with st.spinner("Searching..."):
	results = search.search(query, selected_column, num_results)

	st.session_state['search_history'].append({
	'query': query,
	'timestamp': datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
	'results': results[:5]
	})

	for i, result in enumerate(results, 1):
	with st.expander(
	f"Result {i}: {result.get('title', result.get('description', 'No title'))[:100]}...",
	expanded=(i==1)
	):
	render_video_result(result)

	# ---- Tab 2: Dataset Info ----
	with tab2:
	st.subheader("Dataset Information")

	# Show available splits
	splits = fetch_dataset_splits_auth(search.dataset_id, st.session_state['hf_token'])
	if splits:
	st.write("### Available Splits")
	for split in splits:
	st.write(f"- {split['split']}: {split.get('num_rows', 'unknown')} rows")

	# Show dataset statistics
	st.write("### Dataset Statistics")
	st.write(f"- Loaded rows: {len(search.dataset)}")
	st.write(f"- Available columns: {', '.join(search.dataset.columns)}")

	# Show sample data
	st.write("### Sample Data")
	st.dataframe(search.dataset.head())

	# Sidebar
	with st.sidebar:
	st.subheader("⚙️ Search History")
	if st.button("🗑️ Clear History"):
	st.session_state['search_history'] = []
	st.experimental_rerun()

	st.markdown("### Recent Searches")
	for entry in reversed(st.session_state['search_history'][-5:]):
	with st.expander(f"{entry['timestamp']}: {entry['query']}"):
	for i, result in enumerate(entry['results'], 1):
	st.write(f"{i}. {result.get('title', result.get('description', 'No title'))[:100]}...")

	if __name__ == "__main__":
	main()