Март 2008

15 марта. Жизнь.

15.03.2008

Жизнь дерьмо. Как обычно. Блоггер ру-трафа не даёт. Без спама хрен вам. А как не хотелось-то, а?
В цифрах — сто уников в день с пяти сотен постов. А миллион постов не по-постишь, в лимиты ресурсов упираемся. Хотя, если сделать пару-другую фишек, можно помучаться. Ща сделаю, сек.

Полтора часа прошло.

Вроде сделал. Кстати, я теперь уже не понимаю, зачем изначально было задумывать белую схему, где банить не за что. Ибо сейчас это стали тупо доры. Изобрели велосипед.
И вообще, вспомнил свой первый комплекс. Если с пятисот постов в день денег мало, надо просто сделать 50 тысяч и всё. (Надеюсь, тему не спалил).

Ещё час.

Подчищал баги за кое-кем. Мда, спать пора. Про то, что я выселил Юко на два дня к маме, про работу под заказ, которая была полтора месяца назад и про цыганочку в следующий раз.

14 марта. Тематика текста.

14.03.2008

Напомните про цыганочку рассказать.

Помните, пару лет назад все сомневались, что поисковик может понять тематику текста? Сейчас таких сомневающихся очень мало, но вот как конкретно он определяет, полагаю, знают не многие.

Я вам тоже не расскажу. Пока покажу группы тематических ключевиков (после стемминга), которые я могу получать автоматом. Исходник, как все догадались уже, википедия. В чём преимущество перед всякими вручную собранными \ распарсенными с тематических сайтов базами — взято напрямую из русского текста. Больше текста — точнее результат. Плюс нужен хороший словарь словоформ.

Так вот, по тематике. Поисковики вряд ли определяют тематику текстов. Это смысл понимать надо, имхо. А вот тематическую целостность страницы и тематическую близость разных страниц одного сайта — это очень просто делается автоматом.

Примеры специально не отбирал. Какие получились, такие публикую. Никакого ручного редактирования текстов ни на каком этапе не производилось, могу хоть французский, хоть итальянский так распарсить.

монтажёр, звукооператор, пушкин, монтажер, аниматор, мышонк, конкурсн, сказ, малыш, мультсериа, кукл, сказок, кача, декорац, рисова, анимацио, дипл, игрушк

левополушарн, межполушарн, виртуализм, доарбитражн, зададут, детоубийц, меланхолик, истец, оповещён, истц, кратеньк, коистц, коньдидат, исков, извещён, блокирует, моббинг, козыря, доверител, выдаван, неадмин, гомопед, досудебн, голодоморн, вызывающ, вычёркива, гомоконфликт, запальчивост, выдерж, забаньт

терфенадин, даунорубицин, миелодепресс, дигоксин, нефролитиаз, буллезн, мультиформн, гипомагнием, нефротическ, остеоге, алопец, миелолейкоз, колестирамин, астемизол, гиперурикем, итраконазол, миелосупресс, гематур, панцитопен, азоосперм, аменоре, варфарин, нифедипин, диспноэ, лейкопен, биодоступност, доксорубицин, нейтропен, протромбинов, анафилактоидн

взрываемост, диэфир, парофазн, плавкост, кипен, огнеопас, жаростойкост, переохлаждё, ксенолит, отгонк, диэтилов, борид, мольн, карбонатит, пикринов, аэрос, дифторид, пикрат, пиролитическ, двухосновн, галоген, лужен, легкоплавк, амфотерн, липкост, киселин, жаропрочност, бесцвет, жаростойк, олеум

12 марта. Парсим Википедию.

12.03.2008

Вот здесь — _ttp://download.wikipedia.org/backup-index.html выбираем любую вики (для примера — ruwiki — русский раздел википедии) и скачиваем архив, который помечен как «Articles, templates, image descriptions, and primary meta-pages.». Это основной текст страниц.

Делаем таблицу в базе,
CREATE TABLE `wiki` (
`id` INT NOT NULL AUTO_INCREMENT ,
`title` VARCHAR( 250 ) NOT NULL ,
`text` TEXT NOT NULL ,
PRIMARY KEY ( `id` )
);

Распаковываем архив, запускаем вот этот код,


set_time_limit(1000);
$dbhost="--------";
$dbname="--------";
$dbusername="--------";
$dbpassword="--------";
$file='ruwiki-20080307-pages-articles.xml'; // название распакованного файла

$db = mysql_connect($dbhost, $dbusername, $dbpassword) or die("Could not connect!");
mysql_select_db($dbname, $db) or die("Could not select database");

$t=microtime(true);
$fp=fopen($file,'r');
$add='';
while(!feof($fp)){
$str=$add.fread($fp,1024000);
$pos=strrpos($str,'</page>');
if ($pos) {
	$add='';
	$pos2=strpos($str,'<page>');
	$add=substr($str,$pos+7);
	$str=substr($str,$pos2,$pos-$pos2);
	$temp=explode('<title>',$str);
	$temp2=explode('<text ',$str);
	if (count($temp)!=count($temp2)) die('не совпало');
	for($q=1;$q<count($temp);$q++) {
	  $title=substr($temp[$q], 0,strpos($temp[$q],'</title>'));
	  $pos=strpos($temp2[$q],'>')+1;
	  $body =substr($temp2[$q],$pos,strpos($temp2[$q],'</text>')-$pos);
	  $sql="INSERT INTO `wiki` set `title`='".
          mysql_real_escape_string($title)."', `text`='".
          mysql_real_escape_string($body)."'";
	  mysql_query($sql);
	}
} else {
	$add=$str;
	$str='';
}
}
echo round(microtime(true)-$t,3);

Всё, готово, радуемся. А уж что вы будете делать с этим текстом, решать вам.

80% времени занимает INSERT. Кому интересно, может дописать обьединение запросов.

P.S. Если вдумчивый читатель спросит, зачем нужен explode, почему бы не использовать регулярник, скажем, такой — $img='/< title>(.*?)< \/title>.*?< text[^>]*>(.*?)< \/text>/msS'; ? Потому, что регулярник отработает в 4-5 раз медленнее, к сожалению. Почему не используется какой-нибудь xml-парсер, думаю, тоже понятно. Других вопросов код вызывать не должен.
P.P.S. Вордпресс умудряется поганить код до невозможности. Так что сорри, если что.

12 марта.

12.03.2008

Захотелось что-то изменить в жизни…
Побрил яйца и всё вокруг. :)

Какие-то нестандартные ощущения.

И с Юко какие-то извратные сексуальные игры… вообщем, ничего интересного.

Сижу, качаю википедию.

58 уников за 6 часов

10 марта.

10.03.2008

А вот как изучу блогосферу, стану крутым блоггером, буду писать то, что читатели хотят прочитать, получу тысячу читателей…
с одной стороны прикольно, с другой, нафиг такая лабуда нужна.

Надо парсер настроить, не справляется с нагрузкой. 33 уника за сегодня. Смешно, но вроде индексит и вылезает чуть. Заспамлено всё. Раньше ключевик в тексте употребил — уже вверху по этому ключевику. А сейчас фиг.

9 марта.

09.03.2008

Только сейчас до меня дошла идея, которую я видел чуть больше года назад… Я тормоз…
11. Сделать каталог контекстный, посмотреть.
12. Продвинуть фильмовый сайт по низкочастотникам.

Блин, нужна отдельная страница мониторинга задач. В постах криво получается.

По ссылкам.

08.03.2008

Не забыть. Где их взять.

1. Трекбеки.
2. Сервисы создания списков.
3. Движение DoFollow.
4. Социалки.
5. RSS каталоги.
6. Видео-архивы.
7. Микроблоггинг.

8 марта — 2.

08.03.2008

8. affiliatecube. Протестить.
9. doFollow. Не забыть.
10. Подгонять Юко с игровым блогом.

8 марта.

08.03.2008

Поюзаю как записную книжку.

1. На блоггере. На основе trends на пайпсах сделан парсер, посты делаю вручную пока, смотрим, будет ли траф.
2. Ждём ответ от софткея, польём на них траф по одной теме.
3. Ждём ответ от дерштейна и американцев.
4. Через аллмету можно собрать трекбеки, трекбекать свои блоги.
5. Делаем блог по кредитам.
6. Тестовый дор под яндекс.
7. Запаролить vds-ку.

7 марта. Гугл.

07.03.2008

Что за дела? Уже минут 20 прошло, а выдаче моего нового свежего блога до сих пор нет. На гугл в суд подать вообще реально за такое, нет?

Вот и делай после этого почти белые проекты.

P.S. Поиск по блогам проверил — даже там нет. Ну это вообще писец, сейчас спать пойду, если ещё за 10 минут не появится.