Tegnap kicsit játszottam a Miner.hu API-jával – kiváncsi voltam hogy miket lehet kihozni a blogkereső találati adataiból. Egész jó lett a végeredmény, talán egyszer majd beépül pár dolog belőle a Miner.hu-ba is.

A programocska megtekinthető élőben is a http://barthazi.hu/jaccoter/miner/ címen. Gyakorlatilag az adott keresőkifejezéshez kapcsolódó releváns kifejezéseket hivatott megjeleníteni. Rákeres a beírt kifejezésre, a talált blogbejegyzésekből eltávolítja a HTML részleteket, majd megszámolja, hogy egy adott két vagy három szavas kifejezés hányszor fordul elő. Amelyek többször is előfordulnak, megjeleníti.
Pár trükk van még a programban, egy több ezres tulajdonnév listát is használ, továbbá egy nagyon buta kis algoritmussal ezeket szótövezni is képes, így ragozott neveket is megtalál. A csak “stopword”-öket (gyakori magyar kötőszavak) tartalmazó kifejezéseket pedig kiszűri. Alapvetően kisbetűsít minden kifejezést, hogy az eltérő módon írt, de ugyanolyan szavakat is megtalálja, de a folyamat végén megnézi, hogy melyik a leggyakoribb írásmód, és ezt jeleníti meg.
Hogy mire volt jó ez a kis játék, még nem tudom, de érdekes dolgokat lehet kihozni segítségével, és egy kis ujjgyakorlatnak is jó volt. A Miner.hu címlapon megtalálható Trends kifejezésekkel, vagy egyebekkel érdemes kísérletezni, az általános szavakra nem ad eredményt.
“hogy egy adott két vagy három szavas kifejezés hányszor fordul elő”
Ezt nem értem teljesen… Kifejtenéd?
Bejegyzésenként készítek egy listát a két és három szavas kifejezésekből (milyen szavak állnak egymás után), majd összegzem, hogy összesen egy adott két szóból álló kifejezés hányszor fordult elő összesen a találatokban, illetve hogy egy adott három szóból álló kifejezés hányszor fordult elő összesen. Előfordulások száma szerint rendezem, és voálá (durván).