Саша! Запам’ятайте: коли людина краде з одного джерела або з двох, це жахливо, це плагіат; коли людина бере, ну, скажімо, з п’яти джерел, це вже терпимо, це компіляція, а от якщо з шести і більше – це вже чудово, це – ерудиція! (репліка студенту шостого курсу А. Муратову).
Олександр Володимирович Гальперин
Alpha parser представляє із себе швидкісний спуск контенту з блогів, для подальшого масового імпорту в різні CMS. Він не вимагає настроювання шаблонів або т.п. Потрібно просто вказати тему статей для пошуку і почати парсинг. На даний момент він повністю безкоштовний. Вийшла версія 1.7. З нововведень-сінонімізація (тепер парсер може сам сінонімізіровать тексти. Є швидкий варіант з котроткой базою і більш повільний. Якщо що, бази можна виправити. Файли syn_s і syn_b). Так само виправив баг з пустими відповідями від яндекса.
Можливості програми можете переглянути інбоксе
Список функцій:
- Парсінг по заданому слову або виразу. Тепер результати можна сортувати за датою публікації або за релевантністю. При цьому під час сортування за датою результати більш тематичні.
- Парсинг статей заданої категорії. При цьому відбираються лише статті вказаної категорії або мітки.
- Експорт в окремі html файли, rss стрічку або html файл для подальшого імпорту в zebroid або WPT, або у свій формат з шаблону.
- Тепер можна парсити веб-щоденники, блоги цілком (статті та коментарі з блогів), записи з блогів, записи з мікроблогів, коментарі з блогів і мікроблогів, форуми, все блоги і форуми.
- Можна оббирати певний сервіс (livejournal тощо) або навіть окремий блог.
- Функція заміни слів у тексті. (Файл replace.txt в папці парсеру. Для заміни слова “користувач” на “читач” добавте туди рядок “користувач = читач”, без лапок.)
- Поряд з кожною функцією є знак запитання, при натисканні на який ви отримаєте коротку довідку.
- Видалення повторів. Парсер автоматично видаляє 90% повторних статей у випадку якщо одна стаття розміщена на декількох сервісах.
- Добавленні стоп слова. (Файл stop_slova.txt в папці парсера. Писати треба по одному слову в рядку. Якщо одне з цих слів зустрічається в тексті статті то стаття не зберігається. Регістр значення не має.)
- Можно парсити зібрання списку url статей, або запитів.
- Можна вказати ліміт постів або кількості символів в тексті.
- Попередній перегляд постів дозволяє вручну відбирати потрібні записи.
- Автоматична синонімізація текстів всередині парсера.


А в цей час на твітері
wtf with comments?