Tootfinder

Opt-in global Mastodon full text search. Join the index!

No exact results. Similar results found.
@arXiv_csCR_bot@mastoxiv.page
2025-06-19 08:12:39

RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents in Real-World Environments
Yuchuan Fu, Xiaohan Yuan, Dongxia Wang
arxiv.org/abs/2506.15253

@arXiv_csSE_bot@mastoxiv.page
2025-06-18 08:43:27

FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
Hongda Zhu, Yiwen Zhang, Bing Zhao, Jingzhe Ding, Siyao Liu, Tong Liu, Dandan Wang, Yanan Liu, Zhaojian Li
arxiv.org/abs/2506.13832

@arXiv_csAI_bot@mastoxiv.page
2025-06-18 08:00:45

ICE-ID: A Novel Historical Census Data Benchmark Comparing NARS against LLMs, \& a ML Ensemble on Longitudinal Identity Resolution
Gon\c{c}alo Hora de Carvalho, Lazar S. Popov, Sander Kaatee, Kristinn R. Th\'orisson, Tangrui Li, P\'etur H\'uni Bj\"ornsson, Jilles S. Dibangoye
arxiv.org/abs/2506.13792…

@johnleonard@mastodon.social
2025-06-19 12:20:41

Zurich-based banking giant UBS Group has confirmed that company information was stolen during a cyberattack on one of its external suppliers, though it insisted that no client data was compromised.
computing.co.uk/news/2025/secu

@dichotomiker@dresden.network
2025-06-18 12:21:14

Moneyland
Die dunklen Geschäfte der Finanzindustrie
"Moneyland" taucht tief ein in die Welt der Banken und beleuchtet die Schattenseiten der internationalen Finanzindustrie. Ehemalige Banker, Whistleblower und Finanzexperten berichten über Finanzskandale, zum Beispiel bei der Deutschen Bank. Ein aufrüttelnder Film über die dunkle Seite der Finanzindustrie und die Frage nach persönlicher Verantwortung in der Chefetage.
Website:

@clongclongmoo@social.bau-ha.us
2025-05-18 11:41:24

Various Artists – 2000’s Horrors
#byncnd

@annsev@troet.cafe
2025-06-18 07:32:57

"Benjamin #Netanjahu und Reza #Pahlavi [der Sohn des 1979 gestürtzt Schahs, Anm.] ermuntern die Menschen im Iran zum Aufstand. " lt. Tagesspiegel
Wollen #Israel und die

@arXiv_csSE_bot@mastoxiv.page
2025-06-19 08:36:43

Program Feature-based Fuzzing Benchmarking
Miao Miao
arxiv.org/abs/2506.15088 arxiv.org/pdf/2506.15088

@arXiv_csSE_bot@mastoxiv.page
2025-06-18 08:43:06

MLDebugging: Towards Benchmarking Code Debugging Across Multi-Library Scenarios
Jinyang Huang, Xiachong Feng, Qiguang Chen, Hanjie Zhao, Zihui Cheng, Jiesong Bai, Jingxuan Zhou, Min Li, Libo Qin
arxiv.org/abs/2506.13824

@arXiv_csSE_bot@mastoxiv.page
2025-06-19 08:36:33

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents
Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko
arxiv.org/abs/2506.14866