Как работает инструмент для парсинга веб-страниц в автоматических коллекциях?

Думает, что помогает
Регистрация
15 Дек 2017
Сообщения
3,384
#21
есть ли такая же возможность парсинга не хтмл кода, а json, то есть поиск не по регекспу, а задавая ключи json?
Так как вся страница получается необработанной, то и через Regexp можно получить ID "kinopoisk_id":"([0-9]{3,7})"
В будущем будет добавлена обработка JSON.
есть ли возможность временно закомментировать ненужную на данный момент строку, которую удалять не хочется, но и использовать тоже?
Добавлена возможность закомментировать, добавив первым символом #
то есть если длина массива для парсинга будет больше 5, то он проигнорируется, значит для комментирования можно просто добавить в конце строки ~NO
Или так.
 
mangopapa
Енот
Новичек
Регистрация
10 Сен 2019
Сообщения
102
#24
Посмотреть вложение 1736

Вам нужно найти сайт на котором используют ID КиноПоиск и брать конкретно ID КиноПоиск для автообновления коллекций.

Пример, берем URL самого популярного торрент сайта:

http://rutracker.org/forum/viewforum.php?f=1950

Посмотреть вложение 1738

Смотрим как выглядят ссылки на новость и составляем RegExp:

href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">

Посмотреть вложение 1737

Находим в новости ID КиноПоиска и составляем RegExp:

kinopoisk\.ru\/([0-9]{3,10})\.gif

Посмотреть вложение 1739

Теперь всё собираем воедино:

КаждыйЧас~ЗаходитьНаURL~НаходитьСсылкуНаНовости~НаходитьIDКиноПоискаВНовостях~СохранятьИхВКоллекцию

1~http://rutracker.org/forum/viewforum.php?f=1950~href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">~kinopoisk\.ru\/([0-9]{3,10})\.gif~poslednie-obnovleniya

И в коллекцию добавятся фильмы, ID КиноПоиск которых будут найдены на страницах.

Посмотреть вложение 1746

Перед тем, как составлять RegExp условие, протестируйте его онлайн на regex101.com
  • Копируете весь HTML страницы нужного Вам сайта в regex101:

  • Составляем условие чтобы получить только тот текст, который нужен (он обводится скобками) и будет выделен зеленым цветом:

а если с videoCDN брать получиться ?
 
mangopapa
Енот
Новичек
Регистрация
10 Сен 2019
Сообщения
102
#27
кто нибудь пробывал это делать ?
у кого получилось поделитесь ссылкой пожалуйста!
просто я не вдупляю как это сделать, у меня не получается
 
Думает, что помогает
Регистрация
15 Дек 2017
Сообщения
3,384
#28
кто нибудь пробывал это делать ?
у кого получилось поделитесь ссылкой пожалуйста!
просто я не вдупляю как это сделать, у меня не получается
Используйте те, которые указаны в этой теме, позже будет много примеров.
 
Енот
Новичек
Регистрация
24 Окт 2019
Сообщения
149
#29
попробовал сделать по вышеописанной схеме, тестил с ифрейма фильмы, сериалы, с видеоцдн фильмы, сериалы, с рутрекера, и с кинопоиска.
со всех мест кроме ифрейма(сериалы) все добавилось автоматом. и работает ) отличная функция! огромное спасибо разработчикам!
 
Новичек
Регистрация
15 Апр 2020
Сообщения
22
#30
Посмотреть вложение 1736

Вам нужно найти сайт на котором используют ID КиноПоиск и брать конкретно ID КиноПоиск для автообновления коллекций.

Пример, берем URL самого популярного торрент сайта:

http://rutracker.org/forum/viewforum.php?f=1950

Посмотреть вложение 1738

Смотрим как выглядят ссылки на новость и составляем RegExp:

href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">

Посмотреть вложение 1737

Находим в новости ID КиноПоиска и составляем RegExp:

kinopoisk\.ru\/([0-9]{3,10})\.gif

Посмотреть вложение 1739

Теперь всё собираем воедино:

КаждыйЧас~ЗаходитьНаURL~НаходитьСсылкуНаНовости~НаходитьIDКиноПоискаВНовостях~СохранятьИхВКоллекцию

1~http://rutracker.org/forum/viewforum.php?f=1950~href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">~kinopoisk\.ru\/([0-9]{3,10})\.gif~poslednie-obnovleniya

И в коллекцию добавятся фильмы, ID КиноПоиск которых будут найдены на страницах.

Посмотреть вложение 1746

Перед тем, как составлять RegExp условие, протестируйте его онлайн на regex101.com
  • Копируете весь HTML страницы нужного Вам сайта в regex101:

  • Составляем условие чтобы получить только тот текст, который нужен (он обводится скобками) и будет выделен зеленым цветом:
подскажите пожалуйста, от куда чено брать и куда как вставлять.
 
Новичек
Регистрация
15 Апр 2020
Сообщения
22
#34
Посмотреть вложение 1736

Вам нужно найти сайт на котором используют ID КиноПоиск и брать конкретно ID КиноПоиск для автообновления коллекций.

Пример, берем URL самого популярного торрент сайта:

http://rutracker.org/forum/viewforum.php?f=1950

Посмотреть вложение 1738

Смотрим как выглядят ссылки на новость и составляем RegExp:

href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">

Посмотреть вложение 1737

Находим в новости ID КиноПоиска и составляем RegExp:

kinopoisk\.ru\/([0-9]{3,10})\.gif

Посмотреть вложение 1739

Теперь всё собираем воедино:

КаждыйЧас~ЗаходитьНаURL~НаходитьСсылкуНаНовости~НаходитьIDКиноПоискаВНовостях~СохранятьИхВКоллекцию

1~http://rutracker.org/forum/viewforum.php?f=1950~href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">~kinopoisk\.ru\/([0-9]{3,10})\.gif~poslednie-obnovleniya

И в коллекцию добавятся фильмы, ID КиноПоиск которых будут найдены на страницах.

Посмотреть вложение 1746

Перед тем, как составлять RegExp условие, протестируйте его онлайн на regex101.com
  • Копируете весь HTML страницы нужного Вам сайта в regex101:

  • Составляем условие чтобы получить только тот текст, который нужен (он обводится скобками) и будет выделен зеленым цветом:
кто нибудь может все по порядку объяснить как это все делается? куда заходить, чего нажимать , что где прописать ?
 
Думает, что помогает
Регистрация
15 Дек 2017
Сообщения
3,384
#35
кто нибудь может все по порядку объяснить как это все делается? куда заходить, чего нажимать , что где прописать ?
Модуль Контент - Автоматические коллекции - Парсинг веб-страниц

1~http://rutracker.org/forum/viewforum.php?f=1950~href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">~kinopoisk\.ru\/([0-9]{3,10})\.gif~poslednie-obnovleniya
 
Новичек
Регистрация
15 Апр 2020
Сообщения
22
#36
Модуль Контент - Автоматические коллекции - Парсинг веб-страниц

1~http://rutracker.org/forum/viewforum.php?f=1950~href="(viewtopic\.php\?t=[0-9]{1,8})"\sclass="torTopic\sbold\stt-text">~kinopoisk\.ru\/([0-9]{3,10})\.gif~poslednie-obnovleniya
Алиса, это мне надо скопировать и вставить ничего менять не надо? а в строку ( Редактировать список) ничего писать не надо?