In a Training Loop 🔄

1 56 145

Peng Wang

stillarrow

https://peter-peng-w.github.io/

AI & ML interests

None yet

Recent Activity

liked a dataset about 12 hours ago

agentica-org/DeepCoder-Preview-Dataset

liked a model 3 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

updated a model 7 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__scpo_no_std_code_hidden_only_shortcut_guard

View all activity

Organizations

None yet

liked a dataset about 12 hours ago

agentica-org/DeepCoder-Preview-Dataset

Viewer • Updated Apr 9, 2025 • 25k • 1.96k • 105

liked a model 3 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Text Generation • 33B • Updated Feb 24, 2025 • 842k • • 1.56k

updated a model 7 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__scpo_no_std_code_hidden_only_shortcut_guard

Text Generation • 2B • Updated 7 days ago • 121 • 1

upvoted a paper 8 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 231

updated a model 9 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__grpo_no_std_code_hidden_only_shortcut_guard

Updated 9 days ago • 28

published 2 models 9 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__scpo_no_std_code_hidden_only_shortcut_guard

Text Generation • 2B • Updated 7 days ago • 121 • 1

stillarrow/qwen2.5-coder-1.5b-instruct__jspo_no_std_code_hidden_only_shortcut_guard

Updated 9 days ago • 7

updated a model 9 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__jspo_no_std_code_hidden_only_shortcut_guard

Updated 9 days ago • 7

published a model 9 days ago

stillarrow/qwen2.5-coder-1.5b-instruct__grpo_no_std_code_hidden_only_shortcut_guard

Updated 9 days ago • 28

updated a model 9 days ago

stillarrow/qwen2.5-math-7b__math_subject_proportional_cluster-246fecfa-et_mix_lambda_no_drift_off_ratio_100

Updated 9 days ago • 55

published a model 9 days ago

stillarrow/qwen2.5-math-7b__math_subject_proportional_cluster-246fecfa-et_mix_lambda_no_drift_off_ratio_100

Updated 9 days ago • 55

updated a model 9 days ago

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-0939fc56-policy_lambda_no_drift_off_ratio_100

Updated 9 days ago • 51

published a model 9 days ago

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-0939fc56-policy_lambda_no_drift_off_ratio_100

Updated 9 days ago • 51

upvoted a paper 10 days ago

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Paper • 2602.10090 • Published Feb 10 • 53

updated 2 models 10 days ago

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-6bc47709-et_mix_lambda_no_drift_off_ratio_100

Updated 10 days ago • 54

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-aabaf976-policy_lambda_no_drift_off_ratio_100

Updated 10 days ago • 40

published 2 models 10 days ago

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-6bc47709-et_mix_lambda_no_drift_off_ratio_100

Updated 10 days ago • 54

stillarrow/qwen2.5-math-7b__skill_accuracy_binning_max_entrop-aabaf976-policy_lambda_no_drift_off_ratio_100

Updated 10 days ago • 40

liked a model 26 days ago

nvidia/llama-nv-embed-reasoning-3b

Feature Extraction • 3B • Updated Apr 10 • 3.91k • 19

upvoted a paper 28 days ago

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Paper • 2604.14268 • Published Apr 15 • 119

Peng Wang

AI & ML interests

Recent Activity

Organizations

stillarrow's activity