rex711 (rex711) wrote,
rex711
rex711

Как формируется ТОП яндекс-новости. Пример протестные акции по России

Оригинал взят у varlamov.ru в "Яндекс" признал плохой работу "Яндекс.Новостей" во время протестных акций

Люди идут по проезжей части Тверской улицы во время несогласованной акции. Фото: Филипп Киреев

Представители "Яндекса" ответили на претензии пользователей "Яндекс.Новостей" и признали, что вчера, 26 марта, сервис отставал от картины дня, а на главной странице почти не было новостей о протестных акциях, прошедших в ряде российских городов.

"Ведомости": Сюжет о задержании Навального исчез из главных новостей "Яндекса"

"Медуза": Многие российские СМИ (почти) не заметили массовых протестов. И топ "Яндекса" тоже

TJ: Было ли в топе "Яндекс.Новостей" слишком мало сюжетов об антикоррупционных митингах

Навальный: За "Яндекс" сегодня просто стыдно. Проституция как на Первом канале. И хватит уже врать "это алгоритм"

"Многие посчитали, что Яндекс сознательно убирал новостные сюжеты об акциях протеста из топа Яндекс.Новостей, и обвинили нас в цензуре, не особенно разбираясь в происходящем. Это не так: никакого ручного вмешательства быть не может, работа Яндекс.Новостей по-прежнему полностью подчиняется алгоритмам.

Мы чувствуем необходимость объяснить, как именно выглядел топ новостей в течение 26 марта — и почему. Во-первых, различные новости, связанные с антикоррупционными митингами, были на главной Яндекса. Во-вторых, они периодически исчезали и появлялись снова.

Как формируется топ-5 новостей?

Любая тема, которую освещают СМИ, состоит из отдельных новостей. Алгоритм Яндекс.Новостей объединяет похожие новости в сюжеты. Для большой темы о митингах, прошедших по всей России, было сформировано несколько сюжетов, которые касались самых разных аспектов — от оценки количества участников в Москве до задержаний во Владивостоке. Дальше автоматически оценивается вес каждого сюжета. Для этого используется много факторов — состав источников, плотность потока информации, время публикации сообщений, вес других сюжетов на ту же тему. Сюжеты ранжируются по весу, первые пять попадают на главную страницу Яндекса. Топ обновляется и, соответственно, изменяется — вчера это происходило каждые три-четыре минуты.

Что происходило с новостями про митинги?

В момент начала акции — она стартовала на Дальнем Востоке — событие освещали далеко не все СМИ. В результате в первой половине дня сюжеты формировались лишь из сообщений небольших источников, и некоторое время, примерно до 12:15 по Москве, их общего веса не хватало, чтобы вынести тему в топ-5.

Из-за чего сюжеты о протестах пропадали из топ-5?

На это могли влиять другие темы. Несколько раз в течение дня появлялись популярные сюжеты. Например, про Евровидение или помощника депутата, а в Москве — про весенний фестиваль. Их вес был больше, чем вес сюжетов про акции протеста. Более того, в некоторых случаях вес мог быть завышен — в Яндекс.Новостях существует недобросовестная оптимизация, аналогичная поисковой, и мы с ней боремся.

При этом, разумеется, сами новости о митинге никуда не исчезали — они оставались в Яндекс.Новостях и корректно находились поиском.

Может, вы стали как-то по-другому считать вес? Раньше такого не было.

Нет, принципы подсчёта не изменились. Изменился состав источников. В связи с принятием закона о новостных агрегаторах Яндекс.Новости с января 2017 года могут показывать на главной странице, в сюжетах и в тематических рубриках только материалы СМИ, зарегистрированных в Роскомнадзоре. Поэтому количество источников по сравнению с прошлым годом сократилось — это также влияет на вес сюжетов. И если о гололёде в Москве вчера написали практически все городские источники, то о протестах только те, кто решил об этом писать. В таком случае у двух разных сюжетов оказываются неравные шансы на выход в топ.

А вам не кажется, что вес сюжетов о митингах был недостаточен, если они пропадали из топа?

Кажется. Мы признаём, что вчера Яндекс.Новости отставали от картины дня. Скорее всего, дело в том, что алгоритм кластеризации, который склеивает новости в сюжеты, а сюжеты — в темы, не всегда мог объединять в одну тему, например, сообщения о задержаниях во Владивостоке и об аресте Навального в Москве. Иными словами, временами агрегатор мог рассматривать одну большую, сложную и географически обширную тему про протесты как несколько разных тем, что, в свою очередь, могло повлиять на качество работы сервиса. Точно так же алгоритм срабатывает, когда есть много новостей про ДТП с разными людьми в разных городах. Он полагает, что это разные события, и не объединяет их в общий сюжет.

Пока неточная работа алгоритма кластеризации — всего лишь гипотеза; мы по-прежнему разбираемся, как 26 марта сообщения в Яндекс.Новостях собирались в сюжеты и в темы. Если ошибки и правда были, мы будем на них учиться. Однако ситуация в целом непростая — мы агрегатор, и искусственно поднимать ту или иную тему в условиях молчания крупных СМИ, очевидно, не можем".

"Яндекс"



Навальный арестован на 15 суток

По итогам вчерашних протестов


Медведев рассказал про свои выходные: дела неплохо, на лыжах покатался 😜

Антиправительственная акция в Москве: Трансляция окончена

Антиправительственные митинги по всей России: Трансляция окончена






Subscribe
promo rex711 march 19, 12:11 104
Buy for 30 tokens
За 2017 год рынок недвижимости в России стагнировал. По продажам небольшой падение по сравнению с 2016 годом. Объемы продаж сохранились благодаря десятке регионов, где отмечается рост. Это Москва и область, Питер и область, Кубань и еще несколько регионов. В большинстве регионов…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments