sfw
nsfw

nodeJs

Подписчиков:
0
Постов:
3

Анализ трендов YouTube и определение накруток часть 2


TubeWarden - сервис, который собирает историю изменений лайков/дизлайков видео из трендов Youtube. Этот сервис в автоматическом режиме отмечает видео в которых есть подозрение на накрутку. Так же есть плагин, который в трендах Youtube отмечает подозрительные видео.

В комментариях к предыдущей статье были справедливые замечания: невозможно по одному (или нескольким) графикам  изменения лайков/дизлайков сказать, была ли накрутка. Любые подозрительные перепады можно объяснить работой CQRS, вспышками на Солнце, пьяным аднимом, который разлил сидр на сервер в недрах Google и т.д. Да, один график плавный, другой ступенчатый, но, возможно у всех видео время от времени случайным образом встречается подобное поведение?

Именно поэтому для составления общей картины нужно собирать информацию со всех видео которые попали в тренды и попытаться найти закономерности. Если получиться найти что-то общее между накрученными видео, значит подобные графики не являются чем-то случайным. Статистика собирается с 31-го декабря. Это не так много, тем не менее кое что интересное начинает прорисовываться. В данной статье описывается что удалось найти за этот срок.

Очень не хотелось ставить тег "Политота", так как накручивают не только политики, но вообще все: домохозяйки, строители, блоггеры и .т.д. Тем не менее результаты таковы, что без этого тега никуда.

Что было сделано за 3 недели (отчет перед спонсором)
Да, появился спонсор: некий добрый анон перечислил мне на кошелек (возможно, случайно) 100 деревянных, за это посылаю ему лучи добра.
1. Собирается больше информации: каналы Youtube, теги видео
2. Фильтр видео по ключевому слову. Алгоритм построения ключевых слов для видео будет описан ниже.
3. Улучшил алгоритм распознавания накруток (как мне кажется по крайней мере)
4. Изменения в интерфейсе.
5. Зарегистрировал плагин для Firefox. Пытался так же для оперы сделать но при попытке загрузить плагин выдается ошибка: Please verify your email. При этом аккаунт давно активирован.
6. Причесал код, теперь при взгляде на него глаза кровоточат чуть меньше.

Общая информация
Всего было проанализировано: 1768 видео
Из них:
накрутка лайков: 76 видео (4.3%)
накрутка дизлайков: 105 видео (6%)
накрутка лайков и дизлайков: 8 видео (0.4%)
По каждому видео статистика собирается с момента попадания видео в тренды. Статистика перестает собираться через 24 часа после выхода видео из трендов (но минимум 48 часов).

Средние показатели по лайкам/дизлайкам
Среднее количество лайков среди всех видео: 19045
Среднее количество дизлайков среди всех видео: 3287
Логично предположить, что у видео, у которых наблюдается накрутка лайков/дизлайков эти показатели будут выше среднего. На самом деле все не совсем так:

Среднее количество лайков среди накрученных видео по лайкам: 9407 (49% от среднего)
Среднее количество лайков среди накрученных видео по дизлайкам: 22598 (118% от среднего)
Среднее количество дизлайков среди накрученных видео по лайкам: 5068 (154% от среднего)
Среднее количество дизлайков среди накрученных видео по дизлайкам: 25675 (783% от среднего)

Таким образом накрутки лайков не помогают, такие видео не набирают половину от среднего показателя лайков. В то время как накрутка дизлайков работает крайне эффективно. Это связано с тем, что в среднем количество дизлайков очень низкое и из-за этого на него легче влиять.

Статистика по каналам
всего каналов: 925
Количество каналов достаточно большое по сравнению с общим количеством видео. Поэтому подавляющее большинство каналов (596) попали в тренды только один раз. 

Каналы с систематической накруткой лайков выявить не получилось. Нет ни одного канала, у которого за рассматриваемый период есть более двух накрученных видео по лайкам. Возможно, это связано с работой Youtube, периодически такие видео удаляют а каналы банят. Нужно собрать больше статистики.

А вот среди каналов с систематической накруткой дизлайков есть явный победитель.
Топ каналов, у которых больше других видео с накрученными дизлайками:
1. kamikadzedead: 17 видео (89% от общего проанализированного количества видео)
2. Новости 24/365: 8 видео  (47% от общего проанализированного количества видео)
3. Волшебная Россия: 4 видео (66% от общего проанализированного количества видео)
4. Алексей Навальный: 4 видео (80% от общего проанализированного количества видео)
5. Навальный LIVE: 3 видео (60% от общего проанализированного количества видео)

Любопытно что kamikadzedead в свое время переживал, что у его видео замораживают просмотры.  С просмотрами на Youtube вообще все интересно, но ничего подозрительного в графике просмотров на его канале мне найти не удалось. Но, как известно,  если у вас паранойя, то это еще не значит, что за вами не следят. Поздравим победителя!

Статистика по ключевым словам
У каждого видео на Youtube есть список тегов. Тегами могут быть как слова, так и словосочетания. Чтобы как-то с этим работать было сделано следующее: название и теги видео разбиваются на отдельные слова, у слов удаляются окончания. В результате получается набор ключевых слов привязанных к видео.

В этом разделе так же интересны ключевые слова на которые больше всего накручивают дизлайки, так как и в этом случае есть явный победитель. Кто же этот несчастный, которого гнобят невидимые силы, не дают ему жить? Для меня результат оказался несколько неожиданный. 
Топ ключевых слов по накрутке дизлайков:
1. Путин: 53 видео (30% от общего количества видео с этим тегом)
2. Грудинин: 38 видео (43% от общего количества видео с этим тегом)
3. Навальный: 27 видео (40% от общего количества видео с этим тегом)
4. Политика: 20 видео (22%  от общего количества видео с этим тегом)
5. Камикадзе: 19 видео (73% от общего количества видео с этим тегом)

С Путиным при ближайшем рассмотрении получается довольно занятная ситуация. У меня сложилось впечатление, что лайки накручивают на хвалебных видео, а дизлайки - на видео в которых его ругают. Впрочем, это мое субъективное ощущение, выводы  каждый может сделать сам.
Ссылка на список видео с тегом "Путин" с накрученными лайками:
https://tubewarden.ru/videos/like?s=%D0%9F%D1%83%D1%82%D0%B8%D0%BD

Ссылка на список видео с тегом "Путин" с накрученными дизлайками:
https://tubewarden.ru/videos/dislike?s=%D0%9F%D1%83%D1%82%D0%B8%D0%BD

С тегом Грудинин по моему субъективному впечатлению  ситуация другая: дизлайки накручивают на видео в которых его хвалят, а лайки - там где его ругают. Но опять же, это можно проверить самим.

Выводы
Похоже, что накручивать лайки на Youtube не так полезно. Пока не удалось найти канал, у которого за рассматриваемый период есть более двух накрученных видео по лайкам.  Возможно это связано с тем, что недавно Youtube заблокирован сразу пачку каналов которые, предположительно, занимались накрутками. Вот один пример:

По дизлайкам же удалось найти критерии по которым накрутка происходит гораздо чаще среднего.

Автоматическое определение накруток на YouTube

В эти новогодние праздники решил не бухать, а сделать какую-нибудь хрень. В результате получился проект для поиска роликов YouTube с накрученными лайками/дизлайками. Данный проект в автоматическом режиме собирает статистику и отмечает подозрительные ролики. В настоящий момент анализируются тренды только российского ютуба. Исходный код выложен на github, если кто хочет побыдлокодить - пожалуйста.

Принцип работы
1. Получает список видео, которые попали в тренды, для каждого видео запускается сбор статистики.
2. Периодически запрашивает и сохраняет в базу данных текущее количество лайков/дизлайков/просмотров для видео.
3. Выдающийся искусственный интеллект отмечает видео, у которых есть резкий скачок количества лайков/дизлайков.
Так же сделал плагин для хрома,который в трендах YouTube показывает статистику, а так же отмечает накрученные ролики:
1^ 5634 Ц\657Л Посмотреть статистику
\Ьз925 Ц*22Л2 ПОСМОТреТЬ СТЭТИСТИКу
\hs86	51 Посмотреть статистику,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,YouTube,накрутка,typescript,nodeJs,быдлокод,песочница,tubewarden

Сбор статистики запустил вечером 31-го. В настоящий момент данных накоплено не так много, тем не менее интересные результаты есть. В первые дни этого года в трендах было 4 ролика с записью обращения некого президента, при этом 3 ролика были отмечены как накрученные по лайкам. Статистика этих роликов выглядела так:

40000
35000
30000
25000
20000
15000
10000
Дизлайков
05:00
11:00
17:00
23:00,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,YouTube,накрутка,typescript,nodeJs,быдлокод,песочница,tubewarden



Отличия от dislikemeter.com:
1. Открытый исходный код. Авторы dislikemeter так же планируют выложить код, но пока этого не сделали.
2. Статистика собирается в автоматическом режиме для всех видео с трендов. В дальнейшем,возможно, добавлю, чтобы статистика собиралась со всех видео с каналов, на которых замечены накрутки.
3. Из-за того что видео собираются и анализируются в автоматическом режиме нет политической агажированности. Все происходит исключительно по воле беспристрастного искусственного разума.
4. Автоматическое определение накрутки.
5. Авторыdislikemeter публикуют свои наблюдения на пикабу.
Так как я нищеброд, а деньги на сервера собирать пока не научился, то проект запущен на калькуляторе. Если одновременно зайдет больше одного человека, то все может упасть. Однако переживать не нужно, сбор статистики выполняется на отдельном сервере.

Ссылка на проект: tubewarden.ru

Отличный комментарий!

Это что? Работа ютубовской накрутко-детектилки, которая откатывает накрученные просмотры?
Это Gravity defied
Здесь мы собираем самые интересные картинки, арты, комиксы, мемасики по теме nodeJs (+3 постов - nodeJs)