
Их GPT-4 под маскировкой (‘o3’) галлюцинировал, как протонный шторм, 33% времени в этих столь надёжных бенчмарках. Миниатюрное продолжение (‘o4-mini’) пережило полное межгалактическое разрушение почти половину времени. Встречайте GPT-5, предполагаемого спасителя, хвастающегося более глупыми заблуждениями (~9%). Однако настоящие эксперты говорят, что он медленнее ленивца под седативными средствами, более нерешительный, чем нехотя поднятый палец автостопщика, и всё ещё выдаёт небылицы – доказывая, что бенчмарки примерно так же полезны, как полотенце в сверхновой. 😏