Datacol ошибка загрузки таймаут загрузки страницы

В предыдущих видео мы освоили принципы настройки программы. Теперь мы покажем как действовать в случаях, когда созданная настройка работает не так, как хотелось бы. Настоятельно рекомендуем просмотреть видео ОТ НАЧАЛА И ДО КОНЦА! Для тех, кто вечно спешит))), под видео приведены ссылки на его отдельные части, касающиеся специфических моментов диагностики.

Настроили кампанию, а она работает некорректно или вообще не запускается? Посмотрев данное видео вы сможете быстро найти и исправить ошибку в настройке.

Для начала разберемся, в каких случаях кампания работает некорректно. Во-первых, о некорректной работе говорит отсутствие результатов сбора данных после завершения работы кампании. Кроме того, если результатов нет в течение 2-3 минут (даже если кампания еще выполняется), это также чаще всего свидетельствует о некорректной настройке. Напомним, результаты работы кампании отображаются в соответствующей панели после ее запуска. Первые результаты появляются в тот же момент, когда программа их находит.

Как видим, предварительно можно сделать вывод, что кампания работает корректно, ведь результаты появились.
Во-вторых, об ошибках настройки свидетельствует слишком малое количество результатов, по крайней мере, меньше того, которое мы ожидали собрать. Однако этот критерий относителен, ведь в интерфейсе программы по умолчанию отображаются только первые 50 найденных результатов. В полном объеме данные доступны после экспорта в файл, CMS или базу данных. Данное ограничение можно изменить в настройках кампании.

Также, стоит помнить, что демо версия программы собирается не более 25 результатов.
В-третьих, одно или несколько полей данных могут вообще не собираться. Это видно по пустым колонкам в таблице результатов.

Обратите внимание, что это актуально только если вся колонка пустая (то есть значение не найдено ни на одной странице). Это можно проверить применив разные виды сортировки к таблице. Если же нашлось хотя бы несколько групп данных с заполненным значением поля, то это обычно значит, что: либо, поле данных доступно не на всех страницах, либо на разных страницах оно должно получаться с помощью разных сигнатур, либо подобранные сигнатуры можно сделать более универсальными, чтобы значение поля находилось везде, где оно есть. Под сигнатурами здесь подразумеваются xpath или регулярные выражения.

Четвертый случай — это отсутствие выгруженных в соответствии с настройками экспорта результатов работы кампании. Имеется в виду, что результаты получены (то есть видны в панели результатов), однако не сохранены в файл, CMS или базу данных.

Теперь мы покажем как действовать в каждом из вышеописанных случаев, чтобы определить в чем конкретно заключается проблема, а также решить ее либо наметить направление решения.

Есть один универсальный прием, который стоит попробовать перед исследованием любых проблем, кроме тех, которые касаются экспорта собранных данных. Нужно заменить стандартный загрузчик на браузер. Суть в том, что изначально настройка кампании осуществляется с помощью мастера, в которым вебстраницы грузятся именно браузером, а не встроенным загрузчиком Datacol. Поэтому, если для работы, из соображений скорости обработки, все же выбран стандартный загрузчик, могут возникать непредвиденные ситуации. Они объясняются тем, что встроенный загрузчик и браузер, грузят страницы и формируются DOM модель по разному. Для примера данная кампания. Запускаем и видим, что кампания быстро завершается, при этом не собрав данных вообще. Установим браузер в качестве загрузчика. Проверяем. Теперь все нормально. Обратите внимание, если в качестве загрузчика используется плагин, то данный шаг можно пропустить, поскольку в таких случаях он обычно не дает результата.

Если установка браузера в качестве загрузчика не помогла решить проблему, то можно вернуть начальные настройки.

Теперь рассмотрим первые 2 случая, в частности, когда данные вообще не найдены, либо их найдено слишком мало. Здесь стоит начать с изучения логов. Практически всегда логи позволяют определить причину неполадки. Рассмотрим это на нескольких примерах. Запустим настройку. Кампания завершилась без результатов. Просмотрим ее логи.

Обратите внимание, что по умолчанию отображаются все типы лог-сообщений, независимо от их смысла или важности. Для удобства просмотра лога можно включить или выключить отображение тех или иных сообщений. Однако мы рекомендуем это делать только тогда, когда вы научитесь работать с логами и будете хорошо понимать, какие сообщения вам нужны в тот или иной момент.

Видим, что проблема заключается в превышении таймаута загрузки страницы. Попытаемся исправить проблему, увеличив максимально допустимый таймаут загрузки. Запустим кампанию.

Теперь результаты появляются и все отрабатывает как надо. Заметим, что если после увеличения таймаута хотя бы до 20-30 секунд проблема остается, то чаще всего сайт либо висит, либо заблокировал нас. Это можно проверить открыв страницу сайта в обычном браузере на нашем компьютере. Помимо того, ошибки загрузки могут возникать в сценарии браузера. Об их диагностике и исправлении мы поговорим в дальнейших видео.

Рассмотрим еще один пример. Опять же, кампания завершилась, а результатов нет. Откроем лог. В нем мы видим, что в самом начале работы на исходной странице, ссылок не найдено. Соответственно Datacol остановил свою работу, поскольку в очередь не было добавлено новых страниц для обработки. Для начала стоит проверить, а есть ли они вообще на странице. Чтобы это сделать, откроем страницу в нашем браузере по умолчанию. Это можно сделать кликнув по ссылке левой кнопкой мыши.

Видим, что ссылки на посты, а также ссылки пагинации присутствуют. Значит проблема скорее всего заключается в некорректно заданных правилах сбора ссылок. В большинстве случаев подкорректировать настройки сбора ссылок можно с помощью пикера. Задано 2 xpath выражения, однако найденных соответствий нет. Некорректные xpath выражения можно удалить. Теперь подберем новые, корректные. Принципы подбора Xpath для сбора ссылок были изложены в первых видеоинструкциях. Сохраняем подобранные сигнатуры. Запускаем кампанию для теста. Теперь результаты появляются и все отрабатывает как надо.

Рассмотрим другой пример. Видим, что поле “регион работы” не собирается. Опять же, перед тем как грешить на настройку, проверим наличие информации на самом исходном сайте. Данные присутствуют, поэтому ищем проблему в настройке.

Наиболее вероятная причина — некорректно настроенные сигнатуры сбора данных, то есть xpath или регулярные выражения. Предварительно для корректировки можно воспользоваться Picker-ом. Кликнем дважды левой кнопкой на поле данных, чтобы открыть пикер в режиме подбора сигнатур для полей данных.

Вариант xpath задан, однако найденных соответствий нет. Тогда кликаем на нужных данных, чтобы автоматически подобрать новый xpath и подкорректировать ранее созданный. Все получилось. Сохраняем. Перезапускаем кампанию.

Так нам удалось подкорректировать сбор данных. Следует отметить, что иногда проблемы сбора данных найти и исправить не так просто. Иногда для их решения нужно проводить более тщательное тестирование. Об этом мы расскажем в дальнейших видео.

Сейчас мы только упомянем, что если пустым оказывается поле с изображением, которое мы загружаем на локальный компьютер, то первым делом стоит проверить включен ли режим сохранения тегов, а уже потом переходить к другим мероприятиям. Например протестируем кампанию. Видим, что поле фото пустое. Проверим включено ли сохранение тегов. Оно выключено. Включим его. Протестируем повторно. Теперь все работает корректно. Более подробно о диагностике проблем сохранения изображений мы поговорим в дальнейших видео.

Рассмотрим случай отсутствия выгруженных в соответствии с настройками экспорта результатов работы кампании. Напомним, при настройке с помощью мастера собранные данные по умолчанию должны выгружаться в Excel файл, который генерируется после окончания работы кампании в папке Мои документы. Имя файла по умолчанию соответствует названию кампании. Заметим, что при наличии результатов сбора данных файл должен генерироваться внезависимости от того завершилась ли кампания сама, либо была остановлена пользователем. Однако настройки сохранения можно переопределить. В дереве быстрой настройки видно, какие форматы экспорта используются в настройке.

Чаще всего, ошибки экспорта видны в логе. Кампания завершилась, перейдем в Мои документы. Файла с экспортом здесь нет. Посмотрим лог работы кампании. Перейдем в конец лога, ведь экспорт обычно осуществляется в конце работы. Здесь мы находим описание ошибки экспорта. Видимо она произошла из за того, что на компьютере нет директории, в которую настроено сохранение. Исправим это. Можно выбрать определенную папку для сохранения, а можно оставить путь пустой строкой. В последнем случае, сохранение будет осуществляться в папку Мои документы. Сохраним и протестируем. Теперь файл сохранился.

Более продвинутые методы диагностики и исправления ошибок работы кампаний будут приведены в дальнейших видео.

В предыдущих видео мы освоили принципы настройки программы. Теперь мы покажем как действовать в случаях, когда созданная настройка работает не так, как хотелось бы. Настоятельно рекомендуем просмотреть видео ОТ НАЧАЛА И ДО КОНЦА! Для тех, кто вечно спешит))), под видео приведены ссылки на его отдельные части, касающиеся специфических моментов диагностики.

Настроили кампанию, а она работает некорректно или вообще не запускается? Посмотрев данное видео вы сможете быстро найти и исправить ошибку в настройке.

Для начала разберемся, в каких случаях кампания работает некорректно. Во-первых, о некорректной работе говорит отсутствие результатов сбора данных после завершения работы кампании. Кроме того, если результатов нет в течение 2-3 минут (даже если кампания еще выполняется), это также чаще всего свидетельствует о некорректной настройке. Напомним, результаты работы кампании отображаются в соответствующей панели после ее запуска. Первые результаты появляются в тот же момент, когда программа их находит.

Как видим, предварительно можно сделать вывод, что кампания работает корректно, ведь результаты появились.
Во-вторых, об ошибках настройки свидетельствует слишком малое количество результатов, по крайней мере, меньше того, которое мы ожидали собрать. Однако этот критерий относителен, ведь в интерфейсе программы по умолчанию отображаются только первые 50 найденных результатов. В полном объеме данные доступны после экспорта в файл, CMS или базу данных. Данное ограничение можно изменить в настройках кампании.

Также, стоит помнить, что демо версия программы собирается не более 25 результатов.
В-третьих, одно или несколько полей данных могут вообще не собираться. Это видно по пустым колонкам в таблице результатов.

Обратите внимание, что это актуально только если вся колонка пустая (то есть значение не найдено ни на одной странице). Это можно проверить применив разные виды сортировки к таблице. Если же нашлось хотя бы несколько групп данных с заполненным значением поля, то это обычно значит, что: либо, поле данных доступно не на всех страницах, либо на разных страницах оно должно получаться с помощью разных сигнатур, либо подобранные сигнатуры можно сделать более универсальными, чтобы значение поля находилось везде, где оно есть. Под сигнатурами здесь подразумеваются xpath или регулярные выражения.

Четвертый случай — это отсутствие выгруженных в соответствии с настройками экспорта результатов работы кампании. Имеется в виду, что результаты получены (то есть видны в панели результатов), однако не сохранены в файл, CMS или базу данных.

Теперь мы покажем как действовать в каждом из вышеописанных случаев, чтобы определить в чем конкретно заключается проблема, а также решить ее либо наметить направление решения.

Есть один универсальный прием, который стоит попробовать перед исследованием любых проблем, кроме тех, которые касаются экспорта собранных данных. Нужно заменить стандартный загрузчик на браузер. Суть в том, что изначально настройка кампании осуществляется с помощью мастера, в которым вебстраницы грузятся именно браузером, а не встроенным загрузчиком Datacol. Поэтому, если для работы, из соображений скорости обработки, все же выбран стандартный загрузчик, могут возникать непредвиденные ситуации. Они объясняются тем, что встроенный загрузчик и браузер, грузят страницы и формируются DOM модель по разному. Для примера данная кампания. Запускаем и видим, что кампания быстро завершается, при этом не собрав данных вообще. Установим браузер в качестве загрузчика. Проверяем. Теперь все нормально. Обратите внимание, если в качестве загрузчика используется плагин, то данный шаг можно пропустить, поскольку в таких случаях он обычно не дает результата.

Если установка браузера в качестве загрузчика не помогла решить проблему, то можно вернуть начальные настройки.

Теперь рассмотрим первые 2 случая, в частности, когда данные вообще не найдены, либо их найдено слишком мало. Здесь стоит начать с изучения логов. Практически всегда логи позволяют определить причину неполадки. Рассмотрим это на нескольких примерах. Запустим настройку. Кампания завершилась без результатов. Просмотрим ее логи.

Обратите внимание, что по умолчанию отображаются все типы лог-сообщений, независимо от их смысла или важности. Для удобства просмотра лога можно включить или выключить отображение тех или иных сообщений. Однако мы рекомендуем это делать только тогда, когда вы научитесь работать с логами и будете хорошо понимать, какие сообщения вам нужны в тот или иной момент.

Видим, что проблема заключается в превышении таймаута загрузки страницы. Попытаемся исправить проблему, увеличив максимально допустимый таймаут загрузки. Запустим кампанию.

Теперь результаты появляются и все отрабатывает как надо. Заметим, что если после увеличения таймаута хотя бы до 20-30 секунд проблема остается, то чаще всего сайт либо висит, либо заблокировал нас. Это можно проверить открыв страницу сайта в обычном браузере на нашем компьютере. Помимо того, ошибки загрузки могут возникать в сценарии браузера. Об их диагностике и исправлении мы поговорим в дальнейших видео.

Рассмотрим еще один пример. Опять же, кампания завершилась, а результатов нет. Откроем лог. В нем мы видим, что в самом начале работы на исходной странице, ссылок не найдено. Соответственно Datacol остановил свою работу, поскольку в очередь не было добавлено новых страниц для обработки. Для начала стоит проверить, а есть ли они вообще на странице. Чтобы это сделать, откроем страницу в нашем браузере по умолчанию. Это можно сделать кликнув по ссылке левой кнопкой мыши.

Видим, что ссылки на посты, а также ссылки пагинации присутствуют. Значит проблема скорее всего заключается в некорректно заданных правилах сбора ссылок. В большинстве случаев подкорректировать настройки сбора ссылок можно с помощью пикера. Задано 2 xpath выражения, однако найденных соответствий нет. Некорректные xpath выражения можно удалить. Теперь подберем новые, корректные. Принципы подбора Xpath для сбора ссылок были изложены в первых видеоинструкциях. Сохраняем подобранные сигнатуры. Запускаем кампанию для теста. Теперь результаты появляются и все отрабатывает как надо.

Рассмотрим другой пример. Видим, что поле “регион работы” не собирается. Опять же, перед тем как грешить на настройку, проверим наличие информации на самом исходном сайте. Данные присутствуют, поэтому ищем проблему в настройке.

Наиболее вероятная причина — некорректно настроенные сигнатуры сбора данных, то есть xpath или регулярные выражения. Предварительно для корректировки можно воспользоваться Picker-ом. Кликнем дважды левой кнопкой на поле данных, чтобы открыть пикер в режиме подбора сигнатур для полей данных.

Вариант xpath задан, однако найденных соответствий нет. Тогда кликаем на нужных данных, чтобы автоматически подобрать новый xpath и подкорректировать ранее созданный. Все получилось. Сохраняем. Перезапускаем кампанию.

Так нам удалось подкорректировать сбор данных. Следует отметить, что иногда проблемы сбора данных найти и исправить не так просто. Иногда для их решения нужно проводить более тщательное тестирование. Об этом мы расскажем в дальнейших видео.

Сейчас мы только упомянем, что если пустым оказывается поле с изображением, которое мы загружаем на локальный компьютер, то первым делом стоит проверить включен ли режим сохранения тегов, а уже потом переходить к другим мероприятиям. Например протестируем кампанию. Видим, что поле фото пустое. Проверим включено ли сохранение тегов. Оно выключено. Включим его. Протестируем повторно. Теперь все работает корректно. Более подробно о диагностике проблем сохранения изображений мы поговорим в дальнейших видео.

Рассмотрим случай отсутствия выгруженных в соответствии с настройками экспорта результатов работы кампании. Напомним, при настройке с помощью мастера собранные данные по умолчанию должны выгружаться в Excel файл, который генерируется после окончания работы кампании в папке Мои документы. Имя файла по умолчанию соответствует названию кампании. Заметим, что при наличии результатов сбора данных файл должен генерироваться внезависимости от того завершилась ли кампания сама, либо была остановлена пользователем. Однако настройки сохранения можно переопределить. В дереве быстрой настройки видно, какие форматы экспорта используются в настройке.

Чаще всего, ошибки экспорта видны в логе. Кампания завершилась, перейдем в Мои документы. Файла с экспортом здесь нет. Посмотрим лог работы кампании. Перейдем в конец лога, ведь экспорт обычно осуществляется в конце работы. Здесь мы находим описание ошибки экспорта. Видимо она произошла из за того, что на компьютере нет директории, в которую настроено сохранение. Исправим это. Можно выбрать определенную папку для сохранения, а можно оставить путь пустой строкой. В последнем случае, сохранение будет осуществляться в папку Мои документы. Сохраним и протестируем. Теперь файл сохранился.

Более продвинутые методы диагностики и исправления ошибок работы кампаний будут приведены в дальнейших видео.

  • #121

Кинул в профиль. Посмотрите что можно сделать, чтобы он все категории парсил. Ну или хотя бы категории по очереди можно было менять.

При парсинге шел конфликт относительных ссылок, и их структура дублировалась, поэтому ты парсил не существующие страницы категорий и соответственно там нет товаров.
Исправленный проект в личке смотри

  • #122

Это плагин для парсинга данных где ajax загрузка есть?

Для просмотра ссылки Войди или Зарегистрируйся – плагин загрузки страницы с помощью браузера Chrome с поддержкой Javascript (бесплатный плагин)

  • #123

П

Огромное спасибо. А не подскажете, как при этом забрать те картинки, которые в миниатюрах под основной? (типа слайды в галерее)
Для просмотра ссылки Войди или Зарегистрируйся

о идее //td[@class=»pimages»] это для парсинга всех изображений, большого и маленьких снизу, нажми сохранять теги и в заменах маленькие изображения сделай большими и удали лишнее. Если не получиться скинь компанию

  • #124

Друзья, а нет ли у кого настройки datacol для парсинга yell.ru

killoff

  • Модер.
  • #125

Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия

5.54 Cracked by ..::CyberGod::..

(с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

  • #126

Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия

5.54 Cracked by ..::CyberGod::..

(с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

killoff

  • Модер.
  • #127

Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

действительно после получаса перебора разных вариантов один рабочий оказался, хотя все данные что через регулярку что через xpath на странице повторяются только раз, и по сути выцепить эти данные прога должна без проблем, но что то где-то глючит.

Кстати, напарсил фришных проксей, проверял их для конкретного сайта, а когда ставлю их в парсер — парсинг не работает, и из 10-100 нужных страниц может записать данные только одной случайной страницы… Тут уже явная проблема с проксями или тоже в настройках ещё что то может где-то быть? :dead::at:

  • #128

Друзья, приветствую!

Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
Подскажите как?
Я что то голову сломал уже……………..

p.s.
«5.54 Cracked by ..::CyberGod::..» — нормальная рабочая версия… по крайней мере у меня всё ОК с несколькими магазинами на ура работала!)

  • #129

5.54 Cracked by ..::CyberGod:: — с гугла у меня парсится сайты, а вот не сохраняются.

  • #130

Друзья, приветствую!

Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
Подскажите как?
Я что то голову сломал уже……………..

А что там не так? Опишите что делали, что не получается, попробую помочь.

This topic has been deleted. Only users with topic management privileges can see it.

  • При загрузке через BAS https://biznesi.su/, возникает ошибка, при этом код ответа сервера 200, и сайт все таки загружается.
    Кто нибудь сможет пояснить почему так?



  • А подробнее?
    Скрипт проверяет статус ответа 200, но в басе ошибка.


  • @qool89 said in Ошибка загрузки страницы:

    А подробнее?
    Скрипт проверяет статус ответа 200, но в басе ошибка.

    Проверь Таймаут — Может не успевает полностью загрузиться страница, поэтому и ошибка. Увеличь Таймаут до 180 сек
    86f34c78-2ad9-491e-9584-355cb1e2ce80-image.png


  • @Kingstreet06 вы сами пробовали открывать?
    страница грузится очень быстро, но на первых же секундах вылазит ошибка.
    Там много javascript. разбираться мне лень.


  • @tet-vivi said in Ошибка загрузки страницы:

    @Kingstreet06 вы сами пробовали открывать?
    страница грузится очень быстро, но на первых же секундах вылазит ошибка.
    Там много javascript. разбираться мне лень.

    Добавьте в блок игнорирования ошибок.
    У меня почему-то все нормально, блок Was Error не срабатывает.


  • @Kingstreet06 на текущей и на старых версия ошибка.
    Таймаут 180 сек тоже не помогает.


  • @tet-vivi
    Попробовал с отпечатками, с 1-ым отпечатком возникла ошибка после 3 секунд действия загрузить. Проверил еще 2 отпечатка — там прошло без ошибок.
    061e7c30-a96f-40a0-9d09-a78edb7617a8-image.png


  • @Kingstreet06 я тестировал без отпечатка


  • @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.


  • @UserTrue said in Ошибка загрузки страницы:

    @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

    Оно тоже не работает нормально. Элемент может и появиться, но кликать по странице нельзя будет, т.к не закончилась полная загрузка.
    Таких проблем не возникает если у тебя мега со скоростью 100+


  • @FastSpace said in Ошибка загрузки страницы:

    Таких проблем не возникает если у тебя мега со скоростью 100+

    Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.


  • @UserTrue said in Ошибка загрузки страницы:

    @FastSpace said in Ошибка загрузки страницы:

    Таких проблем не возникает если у тебя мега со скоростью 100+

    Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.

    У меня на это глубокая кастомная проверка, сделал еще когда скорость была низкая моих прокси.


  • Всем спасибо!
    разобрался, сайт хитрый, сначала загружается страница с js.
    index.txt


  • А после релоуд, из за этого похоже и ошибка.


  • @UserTrue said in Ошибка загрузки страницы:

    @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

    @UserTrue, подскажите, пожалуйста.
    Ориентироваться на закрывающий html или body это хорошая или плохая идея?


  • @kuzkuz said in Ошибка загрузки страницы:

    Ориентироваться на закрывающий html или body это хорошая или плохая идея?

    Плохая


  • @UserTrue said in Ошибка загрузки страницы:

    @kuzkuz said in Ошибка загрузки страницы:

    Ориентироваться на закрывающий html или body это хорошая или плохая идея?

    Плохая

    А если мне надо с кода тянуть некое значение (текст) ? а не кликать по элементам


  • @kuzkuz said in Ошибка загрузки страницы:

    @UserTrue said in Ошибка загрузки страницы:

    @kuzkuz said in Ошибка загрузки страницы:

    Ориентироваться на закрывающий html или body это хорошая или плохая идея?

    Плохая

    А если мне надо с кода тянуть некое значение (текст) ? а не кликать по элементам

    Без разницы, и в таком случае уж точно лучше ждать появления элемента с текстом


  • @UserTrue спасибо. спрошу тут чтобы не плодить темы.
    Я верно понимаю, то что код документа прогрузился до конца (например, по коду определили наличие </html> ) это вовсе не значит что счетчик liveinternet зачел переход? нужно чтобы он «отработал» да?


  • Cases, Datacol, FAQ

    Проблемы со сбором ссылок

    Две самые основные проблемы сбора ссылок в Датакол:

    1. Наличие пробела в ссылке
    2. Не корректная относительная пагинация

    1. Наличие пробелов в УРЛ у меня как-то само собой не укладывается в голове и видеть их не привычно. Хотя сейчас это часто встречается. Но выглядит далеко не эстетично)) У СЕОШников это уж точно вызовет недоумение.
    Для сбора ссылок Datacol использует регулярное выражение, в качестве шаблона

    <a[^>]+hrefs*=s*["']{0,1}([^s"'>]+)["'s>]+

    Это можно узнать из справки. И в этой регулярке нет места пробелу, точнее он исключен оттуда

    [^s"'>]

    поэтому если ссылки с пробелами — то он их не находит по-умолчанию.

    Чтобы собрать такие URL пропишем исправленную регулярку

    <a[^>]+hrefs*=s*["']{0,1}([^"'>]+)["'s>]+

    Для этого перейдем во вкладку «Навигация» и далее «Продвинутые» и внесем этот regexp в «Строки соответствия ссылки»

    Datacol - Наличие пробела в ссылке

    2. Встречаются сайты, где URL делают относительными, т.е в начале УРЛ не ставят /, например

    <a href="catalog/product-1.html">ссылка</a>

    а правильно было бы так

    <a href="/catalog/product-1.html">ссылка</a>

    Часто такое попадается в ссылках пагинации и тогда Датакол впадает в бесконечный цикл и если посмотреть ЛОГ файл то увидим примерно такую картину:

    • http://site1.com/catalog/page-name?page1
    • http://site1.com/catalog/page-name?page1?page1
    • http://site1.com/catalog/page-name?page1?page1?page1
    • http://site1.com/catalog/page-name?page1?page1?page1?page1

    и так будет бесконечно и парсинг у Вас встанет на месте.

    Для таких целей можно использовать динамический плагин для относительных ссылок. Но зачастую, если это не случай из примера плагина — то пользователям тяжело его адаптировать под себя.

    Есть очень простой вариант, сделать одну замену (regexp) при загрузке. Для этого перейдем во вкладку «Загрузка» — «Замены»:

    href="([^/]) на href="/$1

    Датакол - Не корректная относительная пагинация

    Вот и все. В 99% это поможет Вам, без использования плагинов.

    Written by Администратор
    in 12.10.2018
    / 3803 Wiews

    Добрый день. Вопрос к знатокам Datacol.
    Ссылок 219, но результаттов меньше 200 возвращается в таблицу.
    В случае если товара нет я сделал поле данных «Отсутствует?» но оно не помогло особо.

    Надо чтобы в любом случае возвращались все 219 результатов, даже если некоторые страницы не загрузились или ошибки по ним.
    Как то можно это сделать?
    Спасибо

    Файл кампании: https://yadi.sk/d/yQaLV8vI3NMuTT


    • Вопрос задан

      более трёх лет назад

    • 782 просмотра

    Пригласить эксперта

    Нужно смотреть ЛОГ файл. В основном это может быть 3 причины
    1 — какое-то из обязательных полей не найдено
    2 — ошибки в загрузки страниц
    3 — не корректный xpath или регулярка


    • Показать ещё
      Загружается…

    Сбер

    Нижний Новгород

    от 220 000 ₽

    11 апр. 2023, в 13:10

    2000 руб./за проект

    11 апр. 2023, в 13:07

    13000 руб./за проект

    11 апр. 2023, в 13:03

    750 руб./за проект

    Минуточку внимания

    Ошибка 504 Gateway Timeout (от англ. «тайм-аут шлюза») — это код состояния HTTP, который указывает на то, что веб-сервер не получил своевременного ответа от вышестоящего сервера при попытке загрузить страницу. Простыми словами, ошибка 504 Gateway Timeout — это свидетельство о сбое на сервере, когда он выступает шлюзом или в качестве прокси.

    В нашей статье клиент — браузер, а сервер — специализированная или выделенная машина.

    Как выглядит ошибка 504

    В зависимости от конфигурации у ошибки 504 есть различные формы написания:

    • 504 Error.
    • «Время ответа сервера истекло».
    • HTTP Error 504.
    • «Ошибка таймаута шлюза».
    • Gateway timeout.
    • The server didn’t respond in time.

    Точный текст ошибки зависит от того, какой именно сервер используется в качестве фронта и какой в качестве бэка. Самые частые сценарии — Nginx и Apache, соответственно.

    Один из возможных вариантов ошибки

    Один из возможных вариантов ошибки

    Почему возникает ошибка 504

    Самая популярная причина — перегрузка сервера. Давайте посмотрим, почему она происходит и какие источники встречаются наиболее часто.

    Источник перегрузки может быть связан как с непрогнозируемым наплывом трафика, так и с ошибками, которые возникают на самом сайте. Так что даже источник сбоя на сервере может относится к внутренним сбоям сайта.

    Ошибки от плагинов

    Многие веб-мастера устанавливают большое количество разнообразных плагинов для расширения функционала сайта. Например, для внедрения кеширования страниц или добавления на сайт CDN (сеть доставки контента). Подобные плагины могут загружать данные со сторонних источников — например, удаленных серверов. Если на таком сервере возникает сбой, определенная страница или сайт целиком может начать отдавать 504-ю ошибку.

    Ошибки от скриптов

    Это то же самое, что и ошибки от плагинов, так как плагин представляет из себя один или несколько скриптов. Если скрипт загружает данные с удаленного сервера, но возникает сбой или задержка при выполнении, может появиться ошибка Gateway Timeout. Когда один или несколько скриптов выполняются слишком долго, это приводит к таймауту.

    Аномальное увеличение посещаемости

    Если на сайте резко увеличивается трафик, сервер может работать медленнее. Чем больше трафика, тем больше запросов к серверу. Со временем количество неотвеченных запросов только увеличивается, в итоге взаимодействие с сервером прекращается и отправляется код состояния 504 Bad Gateway.

    Небольшие скачки посещаемости не представляют угрозы для производительности сервера

    Небольшие скачки посещаемости не представляют угрозы для производительности сервера

    Израсходование лимитов тарифного плана хостинга

    Начальные тарифы не предназначены для сайтов с высокой посещаемостью. В панели управления хостингом убедитесь, что статическая нагрузка, оперативная память, дисковая квота и другие ресурсы сервера не превышаются.

    Пример лимитов по серверным ресурсам на начальном тарифе хостинга Beget

    Пример лимитов по серверным ресурсам на начальном тарифе хостинга Beget

    Загрузка на сайт файлов

    Каждый раз, когда вы обращаетесь к сайту через административную панель, статическая нагрузка на сервер повышается. Например, вы загружаете видео или большое количество изображений либо импортируете длинный список товаров в интернет-магазин XML-файлом.

    Во всех вышеуказанных сценариях статическая нагрузка на сервер будет заметно увеличиваться, так как каждый переданный мегабайт требует дополнительных вычислительных ресурсов от серверной машины.

    Хакерские атаки

    504 ошибку могут вызывать различные атаки на сайт — например, распределенная атака типа «отказ в обслуживании». Чтобы диагностировать эту причину — обратитесь в поддержку хостинга. Если атака подтвердится — установите на сайт защитный экран, например Cloudflare.

    Схема атаки типа denial-of-service

    Схема атаки типа denial-of-service

    Вредоносный код в файлах сайта

    Вирусы, шелы, бэкдоры и другие уязвимости сайта могут привести к тому, что он будет заражен вредоносным кодом. В этом случае можно ожидать самое непредсказуемое поведение ресурса, включая появление разнообразных кодов состояния HTTP и других негативных последствий, например, утечки данных. Это зависит от того, какую цель преследует хакер, пытаясь воздействовать на ваш сайт.

    Браузер Google Chrome не позволит открыть сайт, если он заражен вирусом или содержит иное вредоносное ПО

    Браузер Google Chrome не позволит открыть сайт, если он заражен вирусом или содержит иное вредоносное ПО

    Ошибка в браузере

    В редких случаях код ответа 504 может свидетельствовать о некорректной работе браузера. Например, у вас отключен JavaScript или в кэше накопилось большое количество ошибок. Все это может привести к тому, что страница не будет загружаться корректно. Попробуйте сменить браузер или устройство и откройте проблемную страницу. Если получилось, то это именно ваш сценарий.

    Как исправить ошибку 504 вебмастеру

    Теперь рассмотрим, как решить ошибку самостоятельно. Отдельно пользователю и отдельно вебмастеру.

    У вебмастера есть гораздо больше возможностей, чтобы повлиять на ошибку.

    1. Во первых: нужно обратиться в саппорт используемого хостинга и уточнить, не превышены ли лимиты по использованию ресурсов серверного железа на вашем аккаунте. Если вы укладываетесь в ограничения выбранного тарифного плана, то нужно искать другой источник появления 504-й.
    2. Во вторых: вспомните, какие глобальные изменения вы делали на сайте в последнюю неделю или две. Возможно вы меняли тему (дизайн) сайта, глобальный вид URL или устанавливали какие-либо плагины.

    Если вы вспомнили конкретное изменение, просто откатитесь к предыдущей версии: например, удалите плагин или верните старую тему сайта.

    «У меня VPS с Nginx / Apache»

    С такой конфигурацией сервера возникновение 504 ошибки встречается довольно часто. Чтобы устранить ее, найдите конфигурационный файл сервера, который называется httpd.conf. Находится он в дистрибутиве Apache, соответственно. Что нужно сделать:

    1. Устанавливаем значение тайм-аута на 700 секунд и сохраняем файл. Перезагружаем бэкенд (для этого используем команду service nginx reload) и проверяем, ушла ошибка или нет.
    2. Находим файл php.ini. Открываем его и изменяем значение максимального времени исполнения на 300 секунд. Опять перезагружаем backend (используем команду service nginx reload) и проверяем, ушла ошибка или нет.

    Параметр для значения Timeout устанавливаем на 700 секунд, а max_execution_time изменяем на 300 секунд

    Параметр для значения Timeout устанавливаем на 700 секунд, а max_execution_time изменяем на 300 секунд

    В некоторых случаях изменить время максимального исполнения файла не удастся, так как это может быть запрещено конфигурацией сервера.

    Изменение портов в панели управления хостингом

    Также попробуйте изменить порты для обращения к сайту. Так вы решите проблему в случаях, когда выполнение скрипта занимает продолжительное время (более 30 секунд). В разных панелях управления хостингом нужно устанавливать разные порты. Например в Plesk — это 8080, в ISPManager — 8081.

    Примеры портов для Plesk

    Примеры портов для Plesk

    «У меня на сайте используются CDN: что делать»

    Выше мы уже говорили о том, что кэширующий сервер может стать причиной длительного ожидания ответа от главного сервера. Чтобы решить эту проблему, отключите сеть доставки содержимого на своем сайте. После этого очистите кэш сайта и попробуйте открыть проблемную страницу. Если ошибку 504 вызывал CDN, то страница сразу откроется.

    Два типа дистрибуции контента сайта. CDN справа

    Два типа дистрибуции контента сайта. CDN справа

    Перенос сайта на другую сетевую конфигурацию

    Если изменить значение максимального времени исполнения в php.ini для вас затруднительно, вы можете просто перейти на облачный тариф хостинга. В облачной инфраструктуре доступно тонкое управление параметрами сервера, включая регулировку технических ограничений.

    Пример конфигураций облачных серверов у Selectel

    Пример конфигураций облачных серверов у Selectel

    Включите журналирование ошибок

    Этот способ поможет точно установить, в каком именно месте происходит ошибка, не позволяющая открыть страницу. В CMS журналирование может активироваться разными способами. Например, на WordPress необходимо открыть файл wpconfig.php и добавить в него три PHP-константы для установки отладки:

    define( ‘wp_debug’, true );

    define( ‘wp_debug_log’, true );

    define( ‘wp_debug_display’, false );

    Сохраняем wpconfig.php. Все, теперь логирование ошибок включено и вы сможете посмотреть источник ошибки в журнале.

    «У меня веб-сервер nginx: что делать»

    В дистрибутиве сервера найдите конфигурационный файл тайм-аута и измените значения для времени:

    • таймаута для отправки прокси;
    • тайм-аута для чтения прокси;
    • времени отправки тайм-аута.

    Мы установили значение для каждого вышеописанного параметра на 750 секунд

    Мы установили значение для каждого вышеописанного параметра на 750 секунд

    Обычно конфигурационный файл тайм-аута находится в следующей директории:

    Найдите конфигурационный файл Nginx по этому пути

    Найдите конфигурационный файл Nginx по этому пути

    Важно: перед открытием конфигурационного файла обязательно подключитесь по протоколу SSH.

    Если вы используете VPS, необязательно вручную искать конфигурационный файл, чтобы изменить значение параметров. Просто откройте административную панель сервера, найдите настройки сервера и добавьте необходимые значения. Как правило, настройки php.ini и параметры httpd всегда разнесены по разным вкладкам. Справедливо это для ISPmanager, Ajenti, Vesta Control Panel и других популярных панелей управления сервером, например, CentOS Web Panel.

    Неполадки сервера

    Создайте тикет в саппорте хостинга и уточните, существуют ли на данный момент какие-либо неполадки с сервером. Это довольно редкий сценарий, но проверить его также необходимо, если ошибку не удалось устранить вообще никакими из вышеописанных способов.

    Пример обращения в саппорт хостинга

    Пример обращения в саппорт хостинга

    Как исправить ошибку 504 пользователю

    Попробуйте открыть проблемную страницу из другого браузера. Если причина сбоя в некорректных настройках обозревателя, этот способ позволит подтвердить такой источник ошибки.

    Очистка DNS

    Очистите кэш DNS в используемой операционной системе:

    • На macOS необходимо открыть «Терминал» и указать команду sudo killall -HUP mDNSResponder.
    • На Windows нужно открыть командную строку и ввести команду: ipconfig /flushdns.

    Очистка сопоставителя DNS в Windows 10

    Очистка сопоставителя DNS в Windows 10

    Другие способы

    Если очистка DNS-кэша не помогла, попробуйте выполнить следующие действия

    1. Обновите страницу с очисткой ее кэша. Для этого используется сочетание горячих клавиш Control + F5. В редких случаях в кэше могут накапливаться ошибки, особенно если вы часто посещали сайт, на котором теперь возникает ошибка.
    2. Попробуйте открыть проблемную страницу с другого устройства. В редких случаях в системе могут накапливаться ошибки, которые препятствуют открытию всего сайта или конкретной страницы. Диагностировать эту причину и поможет смена устройства.
    3. Удалите временные файлы браузера, включая кэш-файлы и файлы-куки.

    В Google Chrome удалить файлы cookie и другие данные сайта, можно в разделе Конфиденциальность и безопасность

    В Google Chrome удалить файлы cookie и другие данные сайта, можно в разделе Конфиденциальность и безопасность

    Заключение: профилактика появления Gateway timeout для вебмастера

    Прежде чем выбирать тариф хостинга, обязательно поинтересуйтесь в поддержке, какой тарифный план подойдет для вашего сайта. При этом вы должны будете предоставить данные по текущему трафику, размеру сайта, а также:

    • Какие ресурсы серверного железа вы планируете использовать.
    • Что хотите настраивать.
    • Наличие каких технологий для вас является критически важным.

    Так вы сможете выбрать максимально подходящий и быстрый сервер под свои задачи. Ну а 504 ошибка точно не будет появляться на сайте.

    Чтобы на веб-странице появился контент, браузер должен получить от сервера, на котором расположен сайт, необходимые данные. Когда на устройстве пользователя, на веб-сервере или на другом промежуточном узле (например, прокси) возникают неполадки, вместо содержимого сайта в браузере появляется страница с ошибкой. Для устранения сбоя, необходимо знать, на чьей стороне он произошел и по какой причине. Понять, что является источником проблемы, помогает цифровой код ошибки. Если он имеет формат 5xx, значит, сбой происходит на стороне сервера. Разбираем в статье ошибку 504 на сайте и способы ее устранения.

    Что значит ошибка 504 и когда она появляется

    Ошибка 504 Gateway Time Out — это ошибка, возникающая при загрузке сайта, если запрос пользователя передавался на сервер, хранящий данные веб-ресурса, через промежуточный сервер, действующий как шлюз или прокси, и в процессе обработки данного запроса один из серверов не получил ответ от другого в течение максимально допустимого времени ожидания. Обмен данными происходит по HTTP, и если возникает «тайм-аут шлюза», браузер показывает на веб-странице код 504, указывающий на соответствующее состояние протокола.

    Ошибка 504 Gateway Time Out.

    Изображение от Freepik.

    На выполнение некоторых операций на сервере выделяется определенное количество времени. Например, обработка http-запроса на Nginx по умолчанию должна быть завершена за 30 секунд. Лимит времени устанавливается для того, чтобы при избыточной нагрузке сервер мог прервать процесс, который не может выполнить, и перейти к следующей задаче. Средняя продолжительность загрузки сайта составляет всего 1–3 секунды, однако иногда она может увеличиваться, например, если сервер выполняет ресурсоемкие скрипты. Когда на это требуется больше максимально допустимого времени, соединение с клиентом (браузером) разрывается и возникает один из вариантов сообщения «HTTP Error 504 — Gateway Timeout». К повышенной нагрузке на сервер могут привести внутренние сбои на сайте, проблемы с безопасностью, настройки браузера и так далее.

    Если говорить простыми словами, то ошибка 504 означает, что сервер, на котором расположен сайт, не успевает вовремя обработать запрос и ответить пользователю.

    Как исправить ошибку 504 владельцу сайта

    Чтобы исправить ошибку 504, необходимо установить и устранить причину ее возникновения. Некоторые способы решения проблемы требуют вмешательства администратора сайта.

    Долго обрабатывается скрипт

    Если скрипт тяжелый, сервер может не успеть полностью его обработать до появления ошибки. Лучшим решением проблемы будет облегчение скрипта или его замена. Когда это невозможно, увеличивают период ожидания сервера. Лимит времени, за которое скрипт должен быть отработан, устанавливается через директиву «max_execution_time» в файле «php.ini». По умолчанию он составляет 30 секунд. Чтобы он стал больше, необходимо открыть файл и подставить в строку «max_execution_time = 30» новую допустимую продолжительность операции. Кроме того, поменять настройки можно в Nginx и Apache.

    Нестандартные параметры времени ожидания сервера могут понадобиться, если вы используете Nginx в качестве прокси-сервера для Apache. Изменение времени выполнения скрипта на веб-сервере производится в файле «nginx.conf». Порядок действий:

    1. Подключение к серверу по Secure Shell (протоколу для удаленного управления операционной системой).
    2. Ввод команды «sudo nano/etc/nginx/nginx.conf» для запуска файла.
    3. Редактирование блока server: увеличение времени до наступления тайм-аута с 300 секунд до 600:

      Изменение времени выполнения скрипта в файле «nginx.conf».

    4. Перезагрузка веб-сервера командой «service nginx reload».

    Коррекцию файлов «php.ini» и «nginx.conf» лучше проводить совместно. В обоих документах необходимо указать одинаковое время обработки запроса.

    При использовании Apache время обработки запроса редактируется через «httpd.conf». Что необходимо сделать:

    1. Открыть файл.
    2. Ввести строку:

      Через httpd.conf.

    3. Сохранить корректировки и заново запустить сервер.

    Проблемы с CDN

    CDN ― это несколько связанных серверов, предназначенных для того, чтобы ускорить передачу данных сайта его пользователям. CDN сохраняют контент, часто запрашиваемый аудиторией, на кеш-сервере. При повторном запросе этих данных сервер достает их из временной памяти. Таким образом, снижается нагрузка на сервер, являющийся источником контента, и сокращается время обработки запросов пользователей.

    Иногда ошибка 504 может возникать при использовании CDN. Если после отключения от системы работоспособность сайта восстановится, сообщите о проблеме разработчикам сервиса.

    Выросла нагрузка на один из серверов

    К повышенной нагрузке на сервер может привести резкий рост трафика. Наплыв пользователей может быть связан как с намеренными действиями владельца веб-ресурса — с запуском рекламной кампании, так и со случайными событиями — временным увеличением спроса на сезонный товар, продающийся в интернет-магазине. Поскольку количество операций, которое сервер может выполнять одновременно, ограничено его вычислительной мощностью, при избыточной нагрузке хостинг-компьютер перестает отвечать на запросы пользователей. Чтобы он снова мог отдавать данные браузеру, достаточно арендовать компьютер с более мощным железом, например, с виртуального хостинга перейти на VPS. Если планируется проведение маркетинговых мероприятий, лучше заранее арендовать дополнительные вычислительные ресурсы (оперативную память, место на жестком диске и т. д.).

    В компании «Интернет Хостинг Центр» клиенты могут арендовать VPS сервер в России с бесплатной защитой от DDoS на всех тарифах. Выделенный IP и техподдержка входят в стоимость.

    Проверка службы DNS

    Сообщение «Error 504 — Gateway Timeout» может появиться, если DNS-служба не справилась с преобразованием доменного имени в IP-адрес. Причиной ошибки становится перенос веб-ресурса с локального ПК на веб-сервер и автоматически пропадет, после того как новые DNS-данные распространяются по всему Интернету. Процесс занимает около двух суток.

    Проблемы с DNS могут возникнуть на компьютере пользователя. Для их устранения на ПК вызывается командная строка операционной системы, где вводится специальная команда для очистки DNS-кэша, в Windows — это «ipconfig /flushdns».

    Очистка DNS-кэша.

    Спам, вирусы и DDoS-атаки

    Перегрузка сервера может быть вызвана не только возросшим интересом пользователей к вашим товарам и услугам, но и менее позитивными причинами — спамом, вирусами и DDoS-атаками. Для защиты веб-ресурса от вредоносных программ и действий хакеров, необходимо предпринять несколько профилактических мер:

    • проверить наличие антивируса в административной панели хостинга;
    • включить защиту от DDoS;
    • подключить анти-спам плагины в CMS сайта;
    • проверить лог-файлы на наличие часто повторяющихся IP-адресов;
    • установить SSL/TLS;
    • защитить формы обратной связи с помощью капчи;
    • предотвратить публикацию комментариев со ссылками на вредоносное ПО, подключив модерирование контента и так далее.

    Проблемы с плагинами в CMS

    Функции на сайте, созданном с помощью CMS, реализуются благодаря плагинам. Не все они работают достаточно быстро, некоторые из них обрабатываются медленно, что приводит к тайм-ауту шлюза. Чтобы проверить, не является ли установленный плагин причиной сбоя, его необходимо отключить, а затем запустить сайт без него. Если веб-ресурс загрузится, значит, нужно выбрать другой функциональный модуль.

    Как решить проблему, если вы — пользователь

    Неполадки могут возникнуть на стороне пользователя: в его DNS-службе, браузере, программном обеспечении, роутере или модеме. Убедитесь, что настройки ваших устройств, выставлены правильно:

    • обновите страницу, заново указав URL в адресной строке и нажав кнопку ввода (Enter);
    • откройте сайт в другом браузере, если в нем сбой не повторится, обновите браузер с ошибкой до последней версии;
    • запустите веб-ресурс на другом устройстве, чтобы проверить, не связаны ли проблемы с программным обеспечением вашего компьютера;
    • очистите файлы кэша и cookies, чтобы избавиться от ошибок, накопленных браузером за длительное время использования;
    • перезагрузите роутер, чтобы устранить конфликт между обновленным ПО провайдера и вашим устройством;
    • очистите кэш DNS через командную строку ОС.

    Заключение

    Мы разобрали самые популярные причины возникновения ошибки 504 и привели способы решения каждой из них. Надеемся, что наша статья поможет Вам справиться с любой проблемой, способной привести к тайм-ауту шлюза.

    • #121

    Кинул в профиль. Посмотрите что можно сделать, чтобы он все категории парсил. Ну или хотя бы категории по очереди можно было менять.

    При парсинге шел конфликт относительных ссылок, и их структура дублировалась, поэтому ты парсил не существующие страницы категорий и соответственно там нет товаров.
    Исправленный проект в личке смотри

    • #122

    Это плагин для парсинга данных где ajax загрузка есть?

    Для просмотра ссылки Войди или Зарегистрируйся – плагин загрузки страницы с помощью браузера Chrome с поддержкой Javascript (бесплатный плагин)

    • #123

    П

    Огромное спасибо. А не подскажете, как при этом забрать те картинки, которые в миниатюрах под основной? (типа слайды в галерее)
    Для просмотра ссылки Войди или Зарегистрируйся

    о идее //td[@class=»pimages»] это для парсинга всех изображений, большого и маленьких снизу, нажми сохранять теги и в заменах маленькие изображения сделай большими и удали лишнее. Если не получиться скинь компанию

    • #124

    Друзья, а нет ли у кого настройки datacol для парсинга yell.ru

    killoff


    • Модер.
    • #125

    Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
    PS версия

    5.54 Cracked by ..::CyberGod::..

    (с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

    • #126

    Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10…, в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
    PS версия

    5.54 Cracked by ..::CyberGod::..

    (с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?

    Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

    killoff


    • Модер.
    • #127

    Посмотрите логи, в чем проблема обычно кроется там, либо «ошибка загрузки страницы» и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо «на странице не найдены области», тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).

    действительно после получаса перебора разных вариантов один рабочий оказался, хотя все данные что через регулярку что через xpath на странице повторяются только раз, и по сути выцепить эти данные прога должна без проблем, но что то где-то глючит.

    Кстати, напарсил фришных проксей, проверял их для конкретного сайта, а когда ставлю их в парсер — парсинг не работает, и из 10-100 нужных страниц может записать данные только одной случайной страницы… Тут уже явная проблема с проксями или тоже в настройках ещё что то может где-то быть? :dead::at:

    • #128

    Друзья, приветствую!

    Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
    Подскажите как?
    Я что то голову сломал уже……………..

    p.s.
    «5.54 Cracked by ..::CyberGod::..» — нормальная рабочая версия… по крайней мере у меня всё ОК с несколькими магазинами на ура работала!)

    • #129

    5.54 Cracked by ..::CyberGod:: — с гугла у меня парсится сайты, а вот не сохраняются.

    • #130

    Друзья, приветствую!

    Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
    Подскажите как?
    Я что то голову сломал уже……………..

    А что там не так? Опишите что делали, что не получается, попробую помочь.

    Статус DataCol за последние 24 часа

    служба пинга

    В Isnotdown вы сможете в данный момент проверить, работает ли DataCol идеально или, наоборот, регистрирует ли он какую-либо проблему, чтобы предложить свои услуги.

    Служба DataCol работает!

    Советы по устранению неполадок

    Проблема решена? Все еще не можете подключиться к DataCol? Перейдите к шагу 2.

    Включите его снова. Очистите интернет-куки и кеш браузера.
    Все еще зависает и вам не нравится DataCol, затем перейдите к шагу 3.

    Временно отключите антивирус или брандмауэр, работающий в фоновом режиме. Теперь, если вы можете получить доступ к DataCol, имейте в виду, что ваше программное обеспечение безопасности вызывает проблемы. Попробуйте добавить DataCol в список надежных сайтов.

    DNS — это служба, которая переводит DataCol в машиночитаемый адрес, называемый IP-адресом. В большинстве случаев эту работу выполняет ваш интернет-провайдер. Если не открываются только определенные сайты, скорее всего, они повреждены.

    Есть способ обратиться к администраторам DataCol за помощью в связи с текущими простоями. Просто нажмите любую из кнопок ниже и скопируйте приведенный ниже URL-адрес и вставьте его на страницы Facebook, Пример или Форум, чтобы использовать их при обращении за помощью.

    Ошибка загрузки страницы




    Scheduled



    Pinned



    Locked



    Moved


    Поддержка



    21
    Posts



    6
    Posters



    480
    Views

    This topic has been deleted. Only users with topic management privileges can see it.

    • При загрузке через BAS https://biznesi.su/, возникает ошибка, при этом код ответа сервера 200, и сайт все таки загружается.
      Кто нибудь сможет пояснить почему так?

    • А подробнее?
      Скрипт проверяет статус ответа 200, но в басе ошибка.

    • @qool89 said in Ошибка загрузки страницы:

      А подробнее?
      Скрипт проверяет статус ответа 200, но в басе ошибка.

      Проверь Таймаут — Может не успевает полностью загрузиться страница, поэтому и ошибка. Увеличь Таймаут до 180 сек
      86f34c78-2ad9-491e-9584-355cb1e2ce80-image.png

    • @Kingstreet06 вы сами пробовали открывать?
      страница грузится очень быстро, но на первых же секундах вылазит ошибка.
      Там много javascript. разбираться мне лень.

    • @tet-vivi said in Ошибка загрузки страницы:

      @Kingstreet06 вы сами пробовали открывать?
      страница грузится очень быстро, но на первых же секундах вылазит ошибка.
      Там много javascript. разбираться мне лень.

      Добавьте в блок игнорирования ошибок.
      У меня почему-то все нормально, блок Was Error не срабатывает.

    • @Kingstreet06 на текущей и на старых версия ошибка.
      Таймаут 180 сек тоже не помогает.

    • @tet-vivi
      Попробовал с отпечатками, с 1-ым отпечатком возникла ошибка после 3 секунд действия загрузить. Проверил еще 2 отпечатка — там прошло без ошибок.
      061e7c30-a96f-40a0-9d09-a78edb7617a8-image.png

    • @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

    • @UserTrue said in Ошибка загрузки страницы:

      @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

      Оно тоже не работает нормально. Элемент может и появиться, но кликать по странице нельзя будет, т.к не закончилась полная загрузка.
      Таких проблем не возникает если у тебя мега со скоростью 100+

    • @FastSpace said in Ошибка загрузки страницы:

      Таких проблем не возникает если у тебя мега со скоростью 100+

      Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.

    • @UserTrue said in Ошибка загрузки страницы:

      @FastSpace said in Ошибка загрузки страницы:

      Таких проблем не возникает если у тебя мега со скоростью 100+

      Это не из-за скорости ни разу. А то, что страница прогрузилась и не кликает говорит о том, что скорей всего не загрузился какой-то js скрипт, но на нормальных прокси такое случается редко так, что можно не брать во внимание.

      У меня на это глубокая кастомная проверка, сделал еще когда скорость была низкая моих прокси.

    • Всем спасибо!
      разобрался, сайт хитрый, сначала загружается страница с js.
      index.txt

    • А после релоуд, из за этого похоже и ошибка.

    • @UserTrue said in Ошибка загрузки страницы:

      @qool89 Ожидание загрузки не на всех сайтах работает корректно, вместо него может использовать ожидание элемента, который должен быть на сайте.

      @UserTrue, подскажите, пожалуйста.
      Ориентироваться на закрывающий html или body это хорошая или плохая идея?

    • @UserTrue спасибо. спрошу тут чтобы не плодить темы.
      Я верно понимаю, то что код документа прогрузился до конца (например, по коду определили наличие </html> ) это вовсе не значит что счетчик liveinternet зачел переход? нужно чтобы он «отработал» да?

    • 0
      Votes

      14
      Posts

      187
      Views

    • 0
      Votes

      5
      Posts

      343
      Views

    • 0
      Votes

      13
      Posts

      682
      Views

    • 0
      Votes

      3
      Posts

      798
      Views

    Понравилась статья? Поделить с друзьями:
  • Davinci resolve ошибка при запуске
  • Darkest dungeon ошибка opengl
  • Database exists ошибка
  • Davinci resolve ошибка gpu
  • Data folder not found как исправить ошибку