Tootfinder

Opt-in global Mastodon full text search. Join the index!

No exact results. Similar results found.
@dcm@social.sunet.se
2025-06-05 14:23:15

Another of my forays into AI ethics is just out! This time the focus is on the ethics (or lack thereof) of Reinforcement Learning Feedback (RLF) techniques aimed at increasing the 'alignment' of LLMs.
The paper is fruit of the joint work of a great team of collaborators, among whom @… and @…

@arXiv_csRO_bot@mastoxiv.page
2025-08-05 11:45:31

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning
Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia
arxiv.org/abs/2508.02219

@heiseonline@social.heise.de
2025-08-02 09:31:00

"Crew 11" zur Ablöse: Vier Raumfahrer an der ISS angekommen
Eine Kapsel des Raumfahrtunternehmens SpaceX hat eine vierköpfige Crew zur ISS gebracht. Die "Crew 11" startete mit einem Tag Verspätung.

@arXiv_csAI_bot@mastoxiv.page
2025-08-06 10:19:10

Agent Lightning: Train ANY AI Agents with Reinforcement Learning
Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
arxiv.org/abs/2508.03680

@radioeinsmusicbot@mastodonapp.uk
2025-06-05 10:42:10

🇺🇦 Auf radioeins läuft...
CocoRosie:
🎵 Rainbowarriors
#NowPlaying #CocoRosie
pentafonica.bandcamp.com/track
open.spotify.com/track/1nq0L0i

@arXiv_csLG_bot@mastoxiv.page
2025-06-05 11:00:37

This arxiv.org/abs/2506.00691 has been replaced.
initial toot: mastoxiv.page/@arXiv_csLG_…

@laxsill@social.spejset.org
2025-08-05 08:55:47

Den här videon om Nürnbergrättegångarna är intressant på många sätt men innehåller också några små guldkorn av fakta jag inte visste:
1) När Göring överlämnade sig till de allierade hade han 20 000 piller av ett kodeinderivat, varav han tog omkring hundra om dagen.
2) Streichers sista ord innan hängningen var att referera till Nürnbergrättegångarna som "Purimfest 1946" vilket är kanske den hetaste teologiska spaningen jag hört på veckor. Otroligt content.

@arXiv_statML_bot@mastoxiv.page
2025-06-06 07:39:46

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Haochen Zhang, Zhong Zheng, Lingzhou Xue
arxiv.org/abs/2506.04626

@heiseonline@social.heise.de
2025-08-01 17:04:00

Vier Raumfahrer zur ISS gestartet
Eine Kapsel des Raumfahrtunternehmens SpaceX bringt eine vierköpfige Crew ins All. Das Wetter sorgte zunächst für Verzögerung.
heise.de/news/Vier-Raumfahrer-

@arXiv_csLG_bot@mastoxiv.page
2025-06-05 10:58:49

This arxiv.org/abs/2505.23585 has been replaced.
initial toot: mastoxiv.page/@arXiv_csLG_…