Fusing Rewards and Preferences in Reinforcement Learning
Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Matthias Grossglauser
https://arxiv.org/abs/2508.11363 https://…
Strategic Cyber Defense via Reinforcement Learning-Guided Combinatorial Auctions
Mai Pham, Vikrant Vaze, Peter Chin
https://arxiv.org/abs/2509.10983 https://
Vom alten Glanz als wichtiger Industriestandort ist nicht mehr viel übrig. Ich war ja erst vor 2.5 Jahren das erste man hier, meine Schwester und ihr Mann schon kurz nach der samtenen Revolution. Allerdings sah damals auch Prag noch ganz anders aus als heute.
Auf jeden Fall scheint sich in letzter Zeit viel zu tun, im Zentrum der Stadt ist wohl vieles gegangen, es wird fleissig renoviert und investiert.
Hier übrigens über Hotel. 5 Minuten vom Bahnhof, mit Brauerei.
Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
Marius Dragoi, Ioana Pintilie, Florin Gogianu, Florin Brad
https://arxiv.org/abs/2510.08325 https://
Anthropic raised a $13B Series F led by Iconiq at a $183B post-money valuation, up from $61.5B in March 2025, and says it has a $5B revenue run-rate (Anthropic)
https://www.anthropic.com/news/anthropic-raises-series-f-at-usd183b-post-money-valuation
Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest
Xiao Yang, Mehdi Ben Ayed, Longyu Zhao, Fan Zhou, Yuchen Shen, Abe Engle, Jinfeng Zhuang, Ling Leng, Jiajing Xu, Charles Rosenberg, Prathibha Deshikachar
https://arxiv.org/abs/2509.05292
Cognitive Effort in the Two-Step Task: An Active Inference Drift-Diffusion Model Approach
Alvaro Garrido Perez, Viktor Lemoine, Amrapali Pednekar, Yara Khaluf, Pieter Simoens
https://arxiv.org/abs/2508.04435
Interacting vertex reinforced random walks on complete sub-graphs
Fernando P. A. Prado, Rafael A. Rosales
https://arxiv.org/abs/2508.15992 https://arxiv.or…
On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation
Jiacai Liu, Wenye Li, Ke Wei
https://arxiv.org/abs/2509.18822 https://arxiv…
Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
Yiran Shen, Yu Xia, Jonathan Chang, Prithviraj Ammanabrolu
https://arxiv.org/abs/2510.01167 h…