Another of my forays into AI ethics is just out! This time the focus is on the ethics (or lack thereof) of Reinforcement Learning Feedback (RLF) techniques aimed at increasing the 'alignment' of LLMs.
The paper is fruit of the joint work of a great team of collaborators, among whom @… and @…
CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning
Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia
https://arxiv.org/abs/2508.02219
Agent Lightning: Train ANY AI Agents with Reinforcement Learning
Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
https://arxiv.org/abs/2508.03680
🇺🇦 Auf radioeins läuft...
CocoRosie:
🎵 Rainbowarriors
#NowPlaying #CocoRosie
https://pentafonica.bandcamp.com/track/cocorosie-rainbowarriors
https://open.spotify.com/track/1nq0L0isqgGi5CpvkvPGLm
This https://arxiv.org/abs/2506.00691 has been replaced.
initial toot: https://mastoxiv.page/@arXiv_csLG_…
Den här videon om Nürnbergrättegångarna är intressant på många sätt men innehåller också några små guldkorn av fakta jag inte visste:
1) När Göring överlämnade sig till de allierade hade han 20 000 piller av ett kodeinderivat, varav han tog omkring hundra om dagen.
2) Streichers sista ord innan hängningen var att referera till Nürnbergrättegångarna som "Purimfest 1946" vilket är kanske den hetaste teologiska spaningen jag hört på veckor. Otroligt content.
Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Haochen Zhang, Zhong Zheng, Lingzhou Xue
https://arxiv.org/abs/2506.04626
Vier Raumfahrer zur ISS gestartet
Eine Kapsel des Raumfahrtunternehmens SpaceX bringt eine vierköpfige Crew ins All. Das Wetter sorgte zunächst für Verzögerung.
https://www.heise.de/news/Vier-Raumfahrer-
This https://arxiv.org/abs/2505.23585 has been replaced.
initial toot: https://mastoxiv.page/@arXiv_csLG_…