Tetszik a bejegyzés? Iratkozz fel, oszd meg!


Játék a Miner API-val

Tegnap kicsit játszottam a Miner.hu API-jával – kiváncsi voltam hogy miket lehet kihozni a blogkereső találati adataiból. Egész jó lett a végeredmény, talán egyszer majd beépül pár dolog belőle a Miner.hu-ba is.

Miner.hu

A programocska megtekinthető élőben is a http://barthazi.hu/jaccoter/miner/ címen. Gyakorlatilag az adott keresőkifejezéshez kapcsolódó releváns kifejezéseket hivatott megjeleníteni. Rákeres a beírt kifejezésre, a talált blogbejegyzésekből eltávolítja a HTML részleteket, majd megszámolja, hogy egy adott két vagy három szavas kifejezés hányszor fordul elő. Amelyek többször is előfordulnak, megjeleníti.

Pár trükk van még a programban, egy több ezres tulajdonnév listát is használ, továbbá egy nagyon buta kis algoritmussal ezeket szótövezni is képes, így ragozott neveket is megtalál. A csak “stopword”-öket (gyakori magyar kötőszavak) tartalmazó kifejezéseket pedig kiszűri. Alapvetően kisbetűsít minden kifejezést, hogy az eltérő módon írt, de ugyanolyan szavakat is megtalálja, de a folyamat végén megnézi, hogy melyik a leggyakoribb írásmód, és ezt jeleníti meg.

Hogy mire volt jó ez a kis játék, még nem tudom, de érdekes dolgokat lehet kihozni segítségével, és egy kis ujjgyakorlatnak is jó volt. A Miner.hu címlapon megtalálható Trends kifejezésekkel, vagy egyebekkel érdemes kísérletezni, az általános szavakra nem ad eredményt.

2 Hozzászólás - “Játék a Miner API-val”


  • “hogy egy adott két vagy három szavas kifejezés hányszor fordul elő”

    Ezt nem értem teljesen… Kifejtenéd?

  • Bejegyzésenként készítek egy listát a két és három szavas kifejezésekből (milyen szavak állnak egymás után), majd összegzem, hogy összesen egy adott két szóból álló kifejezés hányszor fordult elő összesen a találatokban, illetve hogy egy adott három szóból álló kifejezés hányszor fordult elő összesen. Előfordulások száma szerint rendezem, és voálá (durván).

Te mit gondolsz?