China holt gestrandete Raumfahrer aus dem All zurück
Drei chinesische Astronauten sitzen nach einem Vorfall mit vermutlich Weltraumschrott im All fest. Die Bodenkontrolle will sie am Freitag zurückholen.
https://www.<…
How Reinforcement Learning After Next-Token Prediction Facilitates Learning
Nikolaos Tsilivis, Eran Malach, Karen Ullrich, Julia Kempe
https://arxiv.org/abs/2510.11495 https://
Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers
Wenhan Ma, Hailin Zhang, Liang Zhao, Yifan Song, Yudong Wang, Zhifang Sui, Fuli Luo
https://arxiv.org/abs/2510.11370
"Syberia Remastered" im Test: Gefangen zwischen den Zeiten
Ein wunderschönes Grafikadventure wird renoviert. Doch "Syberia Remastered" hat leider auch Schwächen. Kate Walker kämpft mit Mäusen und einer Doppelgängerin.
…
Offline Reinforcement Learning with Generative Trajectory Policies
Xinsong Feng, Leshu Tang, Chenan Wang, Haipeng Chen
https://arxiv.org/abs/2510.11499 https://
Starship V2 absolviert erfolgreichen letzten Testflug
Der letzte Testflug von Starship V2 dauerte eine Stunde und verlief weitgehend problemlos. Unterwegs setzte das Raumfahrzeug Satellitenattrappen aus.
https://www.
Demystifying Reinforcement Learning in Agentic Reasoning
Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
https://arxiv.org/abs/2510.11701 https://
Reinforced sequential Monte Carlo for amortised sampling
Sanghyeok Choi, Sarthak Mittal, V\'ictor Elvira, Jinkyoo Park, Nikolay Malkin
https://arxiv.org/abs/2510.11711 https…
Context-Aware Model-Based Reinforcement Learning for Autonomous Racing
Emran Yasser Moustafa, Ivana Dusparic
https://arxiv.org/abs/2510.11501 https://arxiv…
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
https://arxiv.org/abs/2510.11696