From tests to effect sizes: Quantifying uncertainty and statistical variability in multilingual and multitask NLP evaluation benchmarks
Jonne S\"alev\"a, Duygu Ataman, Constantine Lignos
https://arxiv.org/abs/2509.22612
:misskey12_67: :akkoma: :fedibird1: などいろいろあるよ [参照]
案内、もう一度あげとくね
@… 私はのえたん!(?)
おはようございます(今日の分)
おはようございます(昨日の分)
バブ曽根ちゃん #心
カンマの位置がおかしいな??
(755,908円です)