10 апреля 2020

MediaTek попалась на читерстве с бенчмарками

По материалам AnandTech

История вокруг того, что некоторые производители смартфонов могут играться с настройками своих аппаратов таким образом, чтобы на бенчмарк-тестах они выдавали характеристики выше, чем могут в реальной жизни, – дело давнее. Громкий скандал был в 2013 году, когда подобные опции были найдены в смартфоне Samsung Galaxy S4. Было даже судебное разбирательство, закончившееся для Samsung штрафом в 13,4 млн долларов. Поднятая в результате шумиха в СМИ дала свой эффект, крупные производители смартфонов от подобной практики отказались – потенциальный ущерб сильно перевешивал все возможные плюсы.

Но в последнюю пару лет к этим методам стали возвращаться. В первую очередь речь идет о китайских вендорах. Наиболее известный случай был два года назад, когда выяснилось, что Huawei отключает температурный троттлинг, позволяя бенчмаркам разгонять чипсет до максимально возможных параметров, пока не срабатывает температурная защита, отключающая все. Снова привлечение внимания сработало, и компания перешла к более прозрачным и честным механизмам, да и у устройств проблем стало меньше.

Проблема при этом никуда не делась. Рынок китайских вендоров настолько велик, что никто не в состоянии проверить каждое устройство на предмет честности при работе с бенчмарками. В результате обман подобных программ сохраняется как общепринятая практика. Т.е. возврат Huawei к практике настройки аппаратов для бенчмарков в особый режим – это вполне рациональное соображение, поскольку все так делают.

Определенным предохранителем был тот факт, что производитель чипсета мог ограничивать возможности разработчика устройства. Т.е. ни один аппарат в принципе не мог «разогнаться» до величин, не предусмотренных создателями чипсета. И вот тут-то мы подходим к той практике, которую вела компания MediaTek последние несколько лет. Если раньше обвинять в завышении характеристик нужно было создателей смартфонов, то теперь оказывается, что подобную практику внедряли на самом базовом уровне, непосредственно при создании чипсета.

Helio P95 производительнее Dimensity 1000L?!

Внимание журналистов из AnandTech привлек аппарат Oppo Reno 3 Pro. Его европейская версия строится на чипсете MediaTek Helio P95. На тестах в PCMark смартфон выдал параметры, которых никак нельзя было ожидать от устройства на платформе с ядрами Cortex-A75. Еще интереснее оказалось сравнение с китайской версией Reno3, которая строится на платформе MediaTek Dimensity 1000L – более новой и производительной, но при этом показывающей в бенчмарке результат хуже, чем Р95. Копнули поглубже, и оказалось, что путь лежит в настоящую пропасть.

Истинная производительность и фейковая производительность смартфона Oppo Reno3 Pro

Проверка с помощью анонимизированной версии PCMark подтвердила предположение о фейковых результатах смартфона. Причем поразила не столько общая разница в результатах (в целом она составила около 30%), сколько масштаб подделок отдельных подтестов. Например, в проверке на загрузку записью данных отклонения составили 75%. Причем PCMark обычно не используют для читерства – он не только призван имитировать работу устройства под реальной нагрузкой, но также является тестом для определения времени работы от батареи. То есть если в нем подделать результат производительности, то высокий расход заряда негативно скажется на показателях автономности.

Контрольная проверка была сделана с помощью Oppo Reno3 Pro. У него есть еще одна китайская версия на чипсете Snapdragon 765G. Если компания Oppo осуществляет махинации с результатами бенчмарков, то он тоже должен выдавать завышенные показатели в PCMark. Однако результаты тестов показали, что он работает с бенчмарком ровно на том же уровне производительности, что и с любым другим приложением. Дальнейшее исследование того, как Oppo Reno3 обманывал бенчмарки, показало, что эта схема применяется MediaTek вот уже несколько лет:

Oppo Reno3 Pro – белый список бенчмарков для «Спортивного режима»

В файлах ПО устройства имеется файл power_whitelist_cfg.xml, чаще всего расположенный в папках /vendor/etc. Проверка файла показала, что в нем находится список наиболее популярных приложений с различными режимами расхода энергии для них, а также список различных бенчмарков. Нашлось APK ID для PCMark, и там был выставлен режим расхода энергии с характерным названием «Спортивный режим». Разумеется, в списке нет абсолютно всех бенчмарков, но самые основные в нем присутствуют. Как используемые повсеместно GeekBench, AnTuTu, 3DBench и PCMark, так и несколько устаревшие вроде Quadrant или популярного в Китае 鲁大师 / Master Lu. Присутствуют и новейшие бенчмарки для работы с ИИ: Master Lu AIBench и ZTH AI Benchmark. 

Oppo Reno3 Pro и прицел на непубличные бенчмарки

Самым поразительным было наличие корпоративной версии Kishonti GFXBench. Для него не было «Спортивного режима», но присутствовали изменения в дефолтных DVFS, температурных настроек и планировщика. То есть данный список включает в себя бенчмарки, которые не предназначены для публичного использования, и их включение не может быть оправдано желанием удовлетворить потребность покупателей похвастаться высокими показателями своего смартфона, поскольку доступ к ним есть только у небольшого числа людей.

«Спортивный режим» Oppo Reno 3 (Dimensity 1000L)
«Спортивный режим» Oppo Reno 3 Pro (Helio P95)

Но что же этот «Спортивный режим» делает? Для начала он незаметно изменяет некоторые параметры DVFS чипсета, например, заставляя контроллер памяти все время работать на максимальной частоте. Планировщик также перенастраивается таким образом, чтобы более агрессивно работать с нагрузкой, что дает возможность задачам быстрее поднимать частоту ядер процессора и поддерживать ее более длительное время, подобно тому, как это делают режимы буста.

Не совсем понятно, за что отвечают строки с _FPS_, но характерное название намекает на то, что они должны влиять на показания бенчмарков. Самая странная вещь, что в списке имеются строки, которые разгоняют файловую систему на устройствахF2FS, что и обуславливает работу с бенчмарками вроде AndroBench.

И так практически на всех устройствах с MediaTek

Важный момент. Такие файлы присутствуют не только в смартфонах OPPO. Их можно найти практически во всех устройствах, которые получили платформы от MediaTek. Конечно, полной проверки всех устройств, присутствующих на рынке, не проводилось, но вот таблица, которую смогли составить в AnandTech при беглой проверке:

Удивляет широта охвата. Самым старым аппаратом с «читерскими файлами» оказался Sony XA1 с чипсетом Helio P20 образца 2016 года. И далеко не факт, что это действительно самый старый аппарат с таким оснащением. Характерно, что у аппарата самый короткий список бенчмарков, а современные, работающие с ИИ вообще отсутствуют. Не менее характерно и то, что компания Sony никогда не попадала в списки «читеров», напротив, избегая привлекать к себе внимание такой практикой. А это указывает на то, что происхождение данный механизм ведет непосредственно от MediaTek и интегрирован в BSP (Board Support Package) платформы.

Oppo Reno3 Pro (P95) – Новое ПО и Изначальное ПО (списки убраны)

Не менее подозрительно и то, что при проверке ПО смартфона Oppo Reno3 Pro журналисты AnandTech обнаружили исчезновение этого списка бенчмарков. Произошло это после выпуска обновления ПО от OPPO. К сожалению, это не означало, что список вообще удалили и механизм перестал работать. При запуске бенчмарков смартфон продолжал себя вести по-прежнему, демонстрируя все те же характеристики, что и ранее в «Спортивном режиме». Так что список не убрали, а перепрятали.

Официальная позиция MediaTek

Компания MediaTek не могла остаться в стороне от обвинений AnandTech и дала изданию официальный ответ:

Заявление MediaTek для AnandTech


MediaTek следует общепринятым отраслевым стандартам и уверена, что сравнительные тесты точно отражают возможности наших чипсетов. Мы тесно сотрудничаем с мировыми производителями устройств, когда речь идет о тестировании и проверке в бенчмарках устройств на базе наших чипсетов, но в конечном итоге бренды имеют возможность настраивать свои собственные устройства по своему усмотрению. Многие компании разрабатывают устройства для работы на максимально возможном уровне производительности при проведении сравнительных тестов, чтобы продемонстрировать все возможности чипсета. Это показывает, каков верхний предел производительности на данном чипсете.


Конечно, в реальных сценариях существует множество факторов, которые будут определять работу чипсетов. Наборы микросхем MediaTek предназначены для оптимизации мощности и производительности, чтобы обеспечить наилучшее взаимодействие с пользователем при максимальном сроке работы от аккумулятора. Если кто-то запускает программу с интенсивными вычислениями, например, требовательную игру, чипсет будет интеллектуально приспосабливаться к вычислительным паттернам для обеспечения устойчивой производительности. Это означает, что пользователь будет видеть разные уровни производительности в разных приложениях, поскольку набор микросхем динамически управляет ресурсами процессора, графического процессора и памяти в соответствии с мощностью и производительностью, которые требуются для наилучшего взаимодействия с пользователем. Кроме того, в некоторых регионах могут быть включены разные типы режимов, поэтому производительность устройства может варьироваться в зависимости от требований регионального рынка.
Мы считаем, что демонстрация всех возможностей чипсета при проведении сравнительных тестов соответствует практике других компаний и дает потребителям точную картину производительности устройства.

Такой ответ несколько разочаровывает. Но давайте посмотрим, на чем компания сосредотачивает внимание. В заявлении говорится о том, что различные настройки чипсета позволяют добиться максимально репрезентативной демонстрации его возможностей. В общем случае это действительно так, и ранее уже говорилось о том, что именно так многие производители и поступают, поскольку полностью обмануть бенчмарк нельзя. И только когда разработчик бенчмарка меняет режим замеров производительности, данная схема перестает работать. Это всегда вызывало дискуссию насчет корректности бенчмарков и их результатов, но в любом случае это не вариант MediaTek. Хотя, конечно, стоило бы иметь более подробную техническую информацию о том, как работают все настройки «Спортивного режима».

Но и как аргумент в защиту MediaTek это не годится. Он верен в случае с тем, как GeekBench тестирует процессор или GFXBench проверяет производительность графической подсистемы. Они настроены именно на получение максимально возможных характеристик. Но ведь в схеме вносятся изменения, затрагивающие и работу тестов, пытающихся имитировать нагрузку в реальном использовании, как в случае с PCMark. Они создаются, чтобы оценить смартфон целиком, а не только чипсет.

Тот факт, что MediaTek работает и с такими тестами, прямо противоречит второму абзацу их же заявления, указывающему, что чипсеты предоставляют оптимизированный режим работы в реальных условиях. Если это так, то почему бы не дать чипсету и ПО возможность честно продемонстрировать свои способности? Что дает обман бенчмарков накопителя и файловой системы и как это влияет на возможности чипсета?

Заявление MediaTek, что производители смартфонов добавляют специальные режимы максимальной производительности, безусловно, верно. Об этом уже говорилось неоднократно, и это стало как раз результатом привлечения внимания к особым режимам работы с бенчмарками.

Включение высокопроизводительного режима в устройствах Oppo

В смартфонах OPPO и многих других китайских производителей есть специальный «Высокопроизводительный режим», который можно выбрать в настройках смартфона. Он отличается от обычного режима высокой производительности, который имеется в смартфонах Samsung или Huawei, поскольку в нем аппарат выводится на режим, при котором энергоэффективность отсутствует как таковая. Это совершенно бесполезный для повседневного использования режим, но он присутствует во многих устройствах, включая модели на Snapdragon. Зато так можно получить максимум баллов в бенчмарке.

Но дело в том, что это чистый маркетинг, который не нужен ни большинству пользователей, ни производителю чипсета. То есть MediaTek в общем случае не должна была бы заниматься разработкой такого режима работы. Запуск бенчмарков в дефолтном состоянии смартфона как раз и давал бы представление о производительности в повседневном использовании аппарата. Однако отличие еще и в том, что механизм MediaTek непрозрачный. Он работает скрытно, тогда как у тех же OPPO пользователь сознательно включает аппарат в особый режим и его предупреждают о перегреве.

Компания MediaTek также ссылается на «требования рынка», которые заставляют ее действовать подобным образом и даже существуют в виде «отраслевых стандартов». К сожалению, это правда. И именно в этом суть проблемы.

Эти механизмы не создавались бы, если бы не было запроса со стороны производителей устройств. С точки зрения компании они просто пытаются удовлетворить запросы покупателей. И вот вопрос. Это MediaTek разработала систему детекции бенчмарков по собственной инициативе или же со стороны покупателей чипсетов когда-то в прошлом последовал подобный запрос? Если судить по тому, что нет сведений о том, что и другие производители чипсетов предоставляют производителям устройств аналогичные механизмы, то становится понятно, что MediaTek могла бы оставаться в стороне, поскольку от оглашения информации она теряет больше, чем выигрывает.

В результате создается впечатление, что чипсеты компании и их программное обеспечение не оптимизированы в достаточной мере для того, чтобы на настройках по умолчанию обеспечивать стабильную производительность и эффективность. Вместо этого требуется ручная перенастройка чипсетов, чтобы они выдавали в бенчмарках положенный результат. Результатом такого подхода для индустрии является подрыв доверия к тому, что показывают бенчмарки. По крайней мере, в случае с MediaTek их нужно теперь воспринимать с большим скепсисом. Насколько это явление было массовым и какую стратегию развития выберет компания, станет понятно в скором времени, когда появятся новые результаты тестов устройств с чипсетами данного разработчика.

Читайте также

29 комментариев на «“MediaTek попалась на читерстве с бенчмарками”»

  1. А ведь люди уже забыли историю с Huawei и Samsung. Обман забыли, а маркетинг сработал.

    • Nike_tushinskiy:

      Можно поподробней. Тут не забанят, это статья не от эдуарда

  2. Евгений:

    Все что нужно знать о высоких стандартах этики в подвале.

  3. LMCo:

    Никогда такого не было.

  4. Jeton579:

    Кому эти попугаи в бенчмарках интересны кроме школоты?

    • Так китайцам и интересны, постоянно пипки измеряют, чтобы в рейтингах быть выше всех

    • #безкороны ака "Эдуард..." v6:

      если бы были нормальные бенчи, то я бы точно не взял эксинос…

    • Buzzing:

      Любому, кто хочет понять различия между процессорами.
      Вот решите вы купить новый телефон, а вам там за одни и те же деньги предложат Медиатек 100, Эксинос 100 и Снэпдрэгон 100, а бэнчмарков нет, никаких. Только обзоры аппаратов от журналистов, где пишут шаблонные «не тормозит, батарею держит нормально, связь приличная». И как будете выбирать?

      • Jeton579:

        Сейчас в основном выбираю по камерам и другим опциям, потому что в моих задачах не тормозят даже бюджетные телефоны. Но если бы нужны были производительные процы, то точно бы не выбирал их по количесву попугаев в бенчах а смотрел непосредственно в интересующих меня играх.

        • Buzzing:

          Смотрели бы в конкретных играх, хорошо, но общая картина то всё равно была бы примерно такой же, какой её показывают бэнчмарки.
          Но я больше про то, что синтетика — удобный способ сравнения продуктов разных производителей без лишней лапши от каждого из них (а статья как раз о том, что Медиатек пропихивал лапшу и сюда).

      • Lecron:

        Возьму любой, если нет других требований. Ибо сейчас они все избыточные для среднего их покупателя. Нужно очень хорошо понимать, не просто на уровне больше — лучше, а зачем тебе и именно тебе, нужна та или иная метрика.
        В данном случае выберу Снеп, как имеющий лучшую поддержку и разнообразие сторонних прошивок. Даже если это будет Снеп 90 или вовсе 80.

        • Buzzing:

          Ну, я бы тоже Снэп выбрал, но сейчас я, например, ориентируюсь в их линейке, понимая, что любой свежий процессор 6ХХ, 7ХХ или 8ХХ мои потребности, в принципе, покроет, однако, в ситуации, если я вдруг решу выбрать что-то на другой платформе, будь то Эксинос или Медиатек, то я вообще не буду иметь никакого представления о том, что значат их индексы и какой процессор мне пытаются предложить, потому что до этого не было необходимости в этом разбираться. Но вооружившись результатами бэнчмарков я минут за 15 смогу прикинуть, за какое их решение какие деньги я был бы готов отдать.

          • Lecron:

            И снова повторю, если есть какие-то четко обозначенные специфичные требования, отказ от которых — стоп-фактор. Как в былые времена есть комп, который кино показывает, а есть который НЕ показывает. Остальным, погрешность даже ±20%, без теста не видна и можно просто ориентироваться на позиционирование смартфона.
            Более того, как уже написали, критерии выбора сейчас лежат далеко за границей чипсета. Кому-то камера, другим автономность, третьим, например мне, важно где расположен разъем наушников, сверху или снизу))

            Поэтому, не понимаю такой массовости интереса не только к синтетике, а вообще к различиям между процессорами. Это как с меломанами и аудиофилами, пока первые наслаждаются, вторые страдают))

  5. Alexandr.Noskov:

    Ну как тут не вспомнить чипсеты Broadcom, которые в некоторых смартфонах Micromax выдавали себя за Qualcomm? ?

  6. Lecron:

    Все врут!

  7. forest:

    Т.е. сначала журналисты годами применяют синтетические тесты в обзорах, создавая и продвигая саму потребность на рынке в подобных методах измерения производительности. Затем эти же журналисты удивляются почему производители играют с результатами тестов, целое расследование устроили.
    Ну браво Шерлок, дело раскрыто, вы по сути сами их об этом просите, мы спокойно прожили бы и без ваших «попугаев» ?

    • Lecron:

      С ПК поведение журналистов аналогично, но почему-то фальсфикаций нет. Кажется. Так может суть в другом?

      • forest:

        AMD были пионером фальсификации бечмарков ещё в двухтысячные.

        • Lecron:

          Изгалялись с рейтингами — да. Но в то время, это было даже оправдано. Позволяло сравнить две модели по цифрам, похожим на частоты. Потом, когда архитектуры разошлись настолько разительно, это сравнение пропало само. А вот с бенчмарками, ни одного не помню.

          • SewAwOw:

            Потому что пк аудитории синтетика не так интересна, как мобильной. Ей подавай «реальные», игровые рез-ты, которые очень трудно подделать (если включен оверлей с показом фпс, фреймтайма, частот гп, цп, их температуры и загрузки). Такую накрутку быстро выведут на чистую воду. Потому на пк и не занимаются этим. Народ гораздо смышленней, чем мобильная ЦА.

    • SewAwOw:

      Ну так а чьим желаниям потакают журналисты? Правильно, аудитории. Сама аудитория хочет видеть результаты этих бенчмарков. Если журналист выпустит обзор смартфона без рез-тов антуту и ему подобных, в комментах по-любому начнется срач и вой, почему это нет синтетики, что автору занесли за сокрытие правды и т.д. Журналистам приходится приспосабливаться к запросам своей ЦА. Да что там говорить, журналисты и сами часть этой ЦА, такие же юзеры, коим хочется видеть циферки и делиться ими.

    • Я редко пишу и снимаю обзоры, но там я не прогоняю смартфон через бенчмарки. Это бессмысленно, я считаю, сейчас 80% смартфонов работают в повседневном использовании нормально

  8. 112:

    Заказуха
    Медитек опять выстрелил хорошей линейкой процов
    А на неё выливают ушат помоев

  9. Anton Petrusevich:

    Мне, наоборот, после прочтения статьи кажется, что чипсет заставляют так или иначе тормозить ради снижения энергопотребления, а по «особым случам» сниматься с тормозов. Так что я сходу не вижу вины производителя, что для бенчмарков тормоза убираются.

  10. Игорь Мукосеев:

    Чувствуется рука Снапдраконов, ибо новые процы Метиатеков реально огонь…

  11. Алексей Кузнецов:

    есть одна модель у сяоми, Ноте 4, так вот у неё две версии, одна на мтк, другая на снапе, угадайте где лучше реальная производительность и лучше держит заряд батареи примерно на 2/3?)