parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

"Поисковая система"

AL 13.03.2005 15:05

Пытаюсь написать "поисковую систему", которая будет затрагивать сайты только определенной области промышленности (включая доски объявлений). Пока я хочу понять ключевые моменты.

По сбору информации:

1. Робот должен разбирать текст сразу на сайте или брать код в базу и разбирать уже там?
2. Далее, нужно ли чистить html теги, если нужно то какие и как? Самому через replace и match?
3. Узнал, что в php есть функция strip_tags, можно ли использовать функции php внутри парсерного кода?

Пока все. :) Если кто знает поделитесь опытом :) Если интересен проект, возможно совместное создание. Если напишу, проект пойдет на woodtrade.ru Пока есть опыт только по сбору с отдельно взятых сайтов ;-),