Сборщик email адресов и других контактов (интерфейс)

Главное окно программы
Проект:

1. Новый - создание нового проекта.
2. Открыть - программа открывает сохраненный ранее проект.
3. Сохранить как - сохранение текущего проекта.

Управление:

4. Старт - запуск сканирования.
5. Стоп - остановка сканирования.
6. Продолжить - продолжение сканирования с последующей позиции.

Настройки проекта:

7. Основные - основные настройки проекта.
8. База url - здесь указывается база данных сайтов для сканирования.
9. Вывод - здесь указываются файлы для записи сохраненных результатов (email адреса и другие данные).

Общие настройки:

10. Основные - основные настройки программы.
11. Маски контактов - настройка масок контактов сбора с сайтов.
12. Активация - активация лицензии.

Отображение данных:

13. Статистика - отображает собранные данные со сканируемых сайтах в режиме онлайн.
14. Монитор - отображает с какими сайтами в данный момент происходят соединения.

Нижние поля:

15. Общий лог - отображение данных о событиях в программе.
16. Прогресс - отображение результатов работы программы.

Настройки проекта
Основные:

В данном разделе пользователь может выбрать какие контакты собирать: региональность, категории сайтов и типы контактов.

* Типы контактов - здесь указываются какие типы контактных данных нужно сохранять в результирующий файл, например можно разрешить сохранять только если найден Email адрес, во всех остальных случаях не сохранять.

* Регионы - здесь указываются записи каких регионов разрешено сохранять в результирующий файл, например можно разрешить сохранять только Москву и Санкт-Петербург, записи всех других регионов не сохранять.

* Категории - здесь указываются записи каких сфер деятельности сохранять в результирующий файл, например можно разрешить сохранять только организации, относящиеся к "Строительству и ремонту", записи всех других отраслей не сохранять.

База URL

В данном разделе происходит настройка обработки url адресов, по которым происходит сканирование.

* База адресов - указывается путь к файлу со списком url адресов для сканирования контактов, в момент запуска программы - адреса сканируются именно с этого списка.

* Собирать ссылки - если эта опция отмечена, в момент парсинга email адресов и других данных, программа будет собирать url адреса найденные на страницах сайтов, данные адреса Вам пригодятся для будущего сбора данных.

* Макс. глубина - это максимальная глубина прохождения программы по ссылкам на сайтах. Если отмечено значение "1" - значит программа будет ходить максимум по одной одной ссылке, если ноль - значит будет сканировать только нужные сайты из списка.

* Макс. количество - это максимальное количество ссылок, по которым может зайти программа с одного обработанного сайта.

* Фильтр ссылок - в данной опции задается правило хождения по внешним и внутренним ссылкам, обнаруженным в результате сканирования:
- Все - будут учитываться все ссылки, найденные на странице.
- Тот-же домен - будут учитываться только ссылки того же доменного имени.
- Тот-же путь - будут учитываться ссылки того же каталога.

Вывод

В данном разделе назначаются настройки сохранения информации в результате сканирования сайтов.

* Выходной файл - здесь назначается результирующий файл (формата ".csv"), в данный файл будут записываться результаты сканирования сайтов (email адреса и другие данные).

* Каталог сохранения доменов - здесь назначается каталог, в который будут сохраняться собранные сайты.

* Разделить файл по зонам - если эта опция отмечена, то собранные в результате сканирования сайты - будут сохраняться в разные файлы - в каждый файл отдельная доменная зона.

* Максимальный уровень доменов - если установлена цифра "1" - значит будут обрабатываться только домены первого уровня, например - domen.ru, если цифра "2" - значит будут и первого и второго, например: domen.domen.ru

Общие настройки
Основные

В данном разделе назначаются настройки выхода программы в интернет.

- Настройки прокси:
* Системные настройки - будут использованы системные настройки выхода в интернет.

* Использовать прокси - указывается прокси-сервер, через который должен происходить выход в интернет.

* Таймауты - максимальное время ответа сканируемого сайта.

* Число потоков - указывается количество одновременно сканируемых сайтов, чем больше число - тем больше скорость работы программы.

Фильтры
В данном разделе происходит настройка шаблонов распознавания информации сканируемых сайтов: типов контактов, отраслей и регионов. Сборщик e-mail адресов StandartHarvester может собирать любые типы контактов, маску которых пользователь ему задаст в настройках.

* Маски контактов - здесь указываются типы контактных данных распознаваемой информации в виде шаблонов и регулярных выражений. У каждого типа контактов свое регулярное выражение, у email адресов свое, у телефонов свое т.п.

* Категории - здесь указываются категории и ключевые слова для определения категорий сайтов (сфер деятельности организаций) а также система "обучения" определения категорий.

* Регионы - здесь указываются регионы и ключевые слова для определения регионов на сканируемых сайтах.

Активация

В данном разделе происходит активация программы (если Вы приобрести ключ активации). Для активации необходимо указать Ваш email и ключ.