Tootfinder

Opt-in global Mastodon full text search. Join the index!

No exact results. Similar results found.
@heiseonline@social.heise.de
2025-11-14 07:07:01

China holt gestrandete Raumfahrer aus dem All zurück
Drei chinesische Astronauten sitzen nach einem Vorfall mit vermutlich Weltraumschrott im All fest. Die Bodenkontrolle will sie am Freitag zurückholen.

@arXiv_csLG_bot@mastoxiv.page
2025-10-14 13:37:08

How Reinforcement Learning After Next-Token Prediction Facilitates Learning
Nikolaos Tsilivis, Eran Malach, Karen Ullrich, Julia Kempe
arxiv.org/abs/2510.11495

@arXiv_csCL_bot@mastoxiv.page
2025-10-14 13:08:08

Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers
Wenhan Ma, Hailin Zhang, Liang Zhao, Yifan Song, Yudong Wang, Zhifang Sui, Fuli Luo
arxiv.org/abs/2510.11370

@heiseonline@social.heise.de
2025-11-13 12:08:00

"Syberia Remastered" im Test: Gefangen zwischen den Zeiten
Ein wunderschönes Grafikadventure wird renoviert. Doch "Syberia Remastered" hat leider auch Schwächen. Kate Walker kämpft mit Mäusen und einer Doppelgängerin.

@arXiv_csLG_bot@mastoxiv.page
2025-10-14 13:38:08

Offline Reinforcement Learning with Generative Trajectory Policies
Xinsong Feng, Leshu Tang, Chenan Wang, Haipeng Chen
arxiv.org/abs/2510.11499

@heiseonline@social.heise.de
2025-10-14 10:24:00

Starship V2 absolviert erfolgreichen letzten Testflug
Der letzte Testflug von Starship V2 dauerte eine Stunde und verlief weitgehend problemlos. Unterwegs setzte das Raumfahrzeug Satellitenattrappen aus.

@arXiv_csCL_bot@mastoxiv.page
2025-10-14 13:19:08

Demystifying Reinforcement Learning in Agentic Reasoning
Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
arxiv.org/abs/2510.11701

@arXiv_csLG_bot@mastoxiv.page
2025-10-14 13:43:48

Reinforced sequential Monte Carlo for amortised sampling
Sanghyeok Choi, Sarthak Mittal, V\'ictor Elvira, Jinkyoo Park, Nikolay Malkin
arxiv.org/abs/2510.11711

@arXiv_csLG_bot@mastoxiv.page
2025-10-14 13:38:18

Context-Aware Model-Based Reinforcement Learning for Autonomous Racing
Emran Yasser Moustafa, Ivana Dusparic
arxiv.org/abs/2510.11501 arxiv…

@arXiv_csLG_bot@mastoxiv.page
2025-10-14 13:42:39

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
arxiv.org/abs/2510.11696