Нова версія нового парсера

Саша! Запам’ятайте: коли людина краде з одного джерела або з двох, це жахливо, це плагіат; коли людина бере, ну, скажімо, з п’яти джерел, це вже терпимо, це компіляція, а от якщо з шести і більше – це вже чудово, це – ерудиція! (репліка студенту шостого курсу А. Муратову).

Олександр Володимирович Гальперин

Alpha parser представляє із себе швидкісний спуск контенту з блогів, для подальшого масового імпорту в різні CMS. Він не вимагає настроювання шаблонів або т.п. Потрібно просто вказати тему статей для пошуку і почати парсинг. На даний момент він повністю безкоштовний. Вийшла версія 1.7. З нововведень-сінонімізація (тепер парсер може сам сінонімізіровать тексти. Є швидкий варіант з котроткой базою і більш повільний. Якщо що, бази можна виправити. Файли syn_s і syn_b). Так само виправив баг з пустими відповідями від яндекса.
Можливості програми можете переглянути інбоксе

Список функцій:

  1. Парсінг по заданому слову або виразу. Тепер результати можна сортувати за датою публікації або за релевантністю. При цьому під час сортування за датою результати більш тематичні.
  2. Парсинг статей заданої категорії. При цьому відбираються лише статті вказаної категорії або мітки.
  3. Експорт в окремі html файли, rss стрічку або html файл для подальшого імпорту в zebroid або WPT, або у свій формат з шаблону.
  4. Тепер можна парсити веб-щоденники, блоги цілком (статті та коментарі з блогів), записи з блогів, записи з мікроблогів, коментарі з блогів і мікроблогів, форуми, все блоги і форуми.
  5. Можна оббирати певний сервіс (livejournal тощо) або навіть окремий блог.
  6. Функція заміни слів у тексті. (Файл replace.txt в папці парсеру. Для заміни слова "користувач" на "читач" добавте туди рядок "користувач = читач", без лапок.)
  7. Поряд з кожною функцією є знак запитання, при натисканні на який ви отримаєте коротку довідку.
  8. Видалення повторів. Парсер автоматично видаляє 90% повторних статей у випадку якщо одна стаття розміщена на декількох сервісах.
  9. Добавленні стоп слова. (Файл stop_slova.txt в папці парсера. Писати треба по одному слову в рядку. Якщо одне з цих слів зустрічається в тексті статті то стаття не зберігається. Регістр значення не має.)
  10. Можно парсити зібрання списку url статей, або запитів.
  11. Можна вказати ліміт постів або кількості символів в тексті.
  12. Попередній перегляд постів дозволяє вручну відбирати потрібні записи.
  13. Автоматична синонімізація текстів всередині парсера.
It is main inner container footer text