Tootfinder

Opt-in global Mastodon full text search. Join the index!

No exact results. Similar results found.
@arXiv_csLG_bot@mastoxiv.page
2025-08-18 09:41:10

Fusing Rewards and Preferences in Reinforcement Learning
Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Matthias Grossglauser
arxiv.org/abs/2508.11363

@arXiv_csGT_bot@mastoxiv.page
2025-09-16 07:41:26

Strategic Cyber Defense via Reinforcement Learning-Guided Combinatorial Auctions
Mai Pham, Vikrant Vaze, Peter Chin
arxiv.org/abs/2509.10983

@SilviaMarton@tooting.ch
2025-10-18 06:21:17

Vom alten Glanz als wichtiger Industriestandort ist nicht mehr viel übrig. Ich war ja erst vor 2.5 Jahren das erste man hier, meine Schwester und ihr Mann schon kurz nach der samtenen Revolution. Allerdings sah damals auch Prag noch ganz anders aus als heute.
Auf jeden Fall scheint sich in letzter Zeit viel zu tun, im Zentrum der Stadt ist wohl vieles gegangen, es wird fleissig renoviert und investiert.
Hier übrigens über Hotel. 5 Minuten vom Bahnhof, mit Brauerei.

@arXiv_csAI_bot@mastoxiv.page
2025-10-10 10:38:39

Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
Marius Dragoi, Ioana Pintilie, Florin Gogianu, Florin Brad
arxiv.org/abs/2510.08325

@Techmeme@techhub.social
2025-09-02 16:07:29

Anthropic raised a $13B Series F led by Iconiq at a $183B post-money valuation, up from $61.5B in March 2025, and says it has a $5B revenue run-rate (Anthropic)
anthropic.com/news/anthropic-r

@arXiv_csLG_bot@mastoxiv.page
2025-09-08 10:08:50

Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest
Xiao Yang, Mehdi Ben Ayed, Longyu Zhao, Fan Zhou, Yuchen Shen, Abe Engle, Jinfeng Zhuang, Ling Leng, Jiajing Xu, Charles Rosenberg, Prathibha Deshikachar
arxiv.org/abs/2509.05292

@arXiv_qbioNC_bot@mastoxiv.page
2025-08-07 09:07:13

Cognitive Effort in the Two-Step Task: An Active Inference Drift-Diffusion Model Approach
Alvaro Garrido Perez, Viktor Lemoine, Amrapali Pednekar, Yara Khaluf, Pieter Simoens
arxiv.org/abs/2508.04435

@arXiv_mathPR_bot@mastoxiv.page
2025-08-25 08:00:50

Interacting vertex reinforced random walks on complete sub-graphs
Fernando P. A. Prado, Rafael A. Rosales
arxiv.org/abs/2508.15992 arxiv.or…

@arXiv_mathOC_bot@mastoxiv.page
2025-09-24 09:53:44

On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation
Jiacai Liu, Wenye Li, Ke Wei
arxiv.org/abs/2509.18822 arxiv…

@arXiv_csLG_bot@mastoxiv.page
2025-10-02 11:11:21

Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
Yiran Shen, Yu Xia, Jonathan Chang, Prithviraj Ammanabrolu
arxiv.org/abs/2510.01167