Советы по использованию программы для сбора контактов с сайтов StandartHarvester

Компьютер для сканирования сайтов

С какого компьютера лучше производить сканирование сайтов

Лучше всего выделить отдельную машину для работы программы, так как - наша программа для сбора данных, в результате работы задействует много ресурсов компьютера и интернет-канала. Программа может мешать работать на этой же машине пользователю.

Если же у Вас нет возможности выделить отдельный компьютер - Вы можете разместить ее на "виртуальной машине", заранее ограничив у нее ресурсы. Если же нет возможности сделать "виртуальную машину" - уменьшите "потоки" - об этом подробно описано в разделе "Пошаговые инструкции" нашего сайта.


Как обезопасить себя от вирусов на сканируемых сайтах

Как обезопасить себя от вирусов

В процессе сканирования, в Ваших списках сайтов - могут попадаться "потенциально опасные" url адреса, которые могут нанести вред Вашему компьютеру. Для безопасности, Вы можете установить фаервол или антивирус, благодаря которым 90% угроз будут блокироваться.

А еще лучше разместить StandartHarvester на отдельном компьютере или виртуальной машине для минимизации рисков.


Как удалять дубликаты

Как удалять дубликаты из базы url адресов сайтов

Дубликаты ссылок из баз нужно удалять в первую очередь для того чтобы - StandartHarvester не тратил время на сбор данных с одних и тех же сайтов.

Удалить повторные ссылки Вам поможет приложение "Notepad++" следующим образом:

  1. Скачайте Notepad++ с сайта разработчиков программы ;
  2. Зайдите в Notepad++, во вкладку "Плагины" - "Plugin manager" - "Show Plugin manager";
  3. Найдите в списке плагин "TextFX" и установите его;
  4. Перезагрузите Notepad++;
  5. Зайдите во вкладку "TextFX" - отметьте опции в TextXF: "+Sort outputs only UNIQUE (at column) lines" и "+Sort ascending".
  6. Потом в TextXF выберите "Sort lines case insentive (at column)".
  7. Если Вы все сделали правильно - Notepad++ должен удалить все повторяющиеся ссылки из базы.

Как можно зарабатывать при помощи StandartHarvester

Как можно зарабатывать
  1. Вы можете продавать готовые сформированные базы данных.
  2. Вы можете формировать базы данных "под заказ" клиента.
  3. Вы можете производить любые виды рассылок по собранным базам.
  4. Вы можете формировать каталоги организаций, публикую их на своих сайтах - тем самым генерирую контент и в последствии привлекая трафик на данный сайт из поисковых систем.

Поиск сайтов по ключевым словам в поисковых системах

Почему мы не сделали функцию "поиск сайтов по ключевым словам в поисковых системах"
Почему мы реализовали "сканирование сайтов по списку url"

Существуют программы для парсинга контактов с сайтов по ключевым словам в поисковых системах, но это влечет ряд серьезных неудобств:

  1. Если Вы будете собирать адреса со своего ip - поисковые системы забанят его".
  2. В результате бана - поисковые системы будут постоянно подсовывать Вам капчу.
  3. Если Вы будете использовать proxy - Вам нужно будет покупать подписку на прокси и следить за их работоспособностью.
  4. Работа через proxy - значительно снизит скорость сканирования данных, практика показывает - снижение скорости сканирования в десятки и сотни раз (в результате использования proxy).
  5. IP адреса proxy - поисковики тоже очень быстро банят.
  6. Через поисковики будут собираться только сайты, которые удалось найти в поиске - но есть еще огромное количество других - которые туда не попали по каким то причинам или Вы не подобрали поисковые запросы.
  7. Вам придется постоянно подбирать большое количество поисковых запросов.

Как видите - это очень тормозит работу, приходиться тратить время и заниматься рутинными делами!

Преимущества обработки базы ссылок (что и делает наша StandartHarvester):

  1. Возможность собирать ссылки со своего ip адреса, не боясь что его где-то забанят.
  2. Высокая скорость обработки сайтов.
  3. Программа способна обойти все сайты российского интернета за считанные дни.
  4. К Вам в базу будут попадать сайты, которые сложно найти в поисковых системах.
  5. Вам не нужно тратить время на обеспечение работоспособности программы - сканирование сайтов будет происходить непрерывно, вмешательство пользователя не требуется.