2017. július 9., vasárnap

A térinformatikai adatbányászat alkalmazása a Google Trends térbeli adatainak elemzésére

Az adatbányászat az egyik legújabb tudományág az informatika területén. Eredete az elektronikus kereskedelem megjelenéséig nyúlik vissza, és lényegében arról szól, hogy nagymennyiségű elektronikus adathalmazban különféle összefüggéseket, mintázatokat fedezhessünk fel. Mint például az úgynevezett társítási mintázatok a kereskedelmi adatok területén. Ahol az adott adatbázisban, amit elemzés alá kell vetni, vannak egyrészt a vásárlók adatai, továbbá a termékek adatai, amiket megvásároltak. Egy ilyen adatbázisból ki lehet elemezni olyan statisztikai adatokat, hogy egyes vásárlók milyen termékeket vásároltak meg egyszerre. Például, hogy a kenyeret vásárlók hány százaléka vett a kenyér mellé tejet is. Ezt hívják az adatbányászatban társítási szabályok elemzésének, hogy ha az adott adatbázis egyes elemei kapcsolatba hozhatók egyes elemekkel, mint például a vásárló a kenyérrel, akkor mennyire hozható kapcsolatba más elemekkel is, esetünkben a tejjel.
A térinformatika szintén egy modern tudományág. A térképen ábrázolható földrajzi adatok informatikai eszközökkel történő elemzésével foglalkozik, és a kereskedelem mellett korunkban a térinformatika területén is egyre inkább teret hódít az adatbányászat. Ugyanis a térképen ábrázolható adatokban is lehet ugyanilyen társítási szabályokat keresni, például lehet elemezni a földrajzi adatokat úgy, hogy ha a térképen ábrázolt városok összességében azokat a parkokat nézzük, amelyek közelében iskola van, akkor megvizsgálhatjuk, hogy az ilyen parkok közelében milyen arányban vannak, mondjuk, sportcentrumok is. Ha nagy arányban, akkor találtunk egy mintázatot, miszerint, ha a térképen egy park közelében iskola van, akkor nagy valószínűséggel sportcentrum is van a közelében, tehát az iskolák, a parkok és a sportcentrumok valamilyen módon összefüggnek egymással.
Nem csak távolságok, hanem irányok esetében is végre lehet hajtani ilyen elemzéseket, mint esetünkben, ha bizonyos parkoktól észak-keletre van egy iskola, akkor az ilyen parkoktól észak-keletre milyen arányban található egy sportcentrum is. A Google Trends internetes alkalmazás pedig a Google kereső keresési adatait elemzi térbeli összefüggésekben. Például ebben az alkalmazásban meg lehet nézni egyszerű rákereséssel, hogy melyik földrajzi helyen milyen arányban kerestek rá az emberek bizonyos kulcsszavakra. Például, hogy Amerika területén melyik államban keretek rá legtöbben a „katolikus” kifejezésre.
Így ha térképet állítanánk össze az egyes kereső kifejezések alapján a világról. Hogy hol milyen kulcsszóra mennyien kerestek rá a világon, akkor a térinformatikai adatbányászat szabályai szerint egy ilyen térképen is kereshetnénk társítási szabályokat. Mint például, hogy ha a világon a megyék között egy megyében 50000-en kerestek rá a „katolikus” kulcsszóra, és ez volt legmagasabb keresőszám a megyék esetében, de sok olyan megye is volt, ahol 25000 és 50000 közötti volt e kereső kifejezésre rákeresők száma, tehát 50% fölötti. Továbbá hasonló a helyzet mondjuk a sci-fi, és a fantasy kereső kifejezések esetében is, akkor lehetne elemezni, mondjuk, azt, hogy ha a katolikus kulcsszó esetében a legmagasabb keresőszámú megyéhez képest 50% fölötti keresőarányú egyes megyék közelében vagy egy a sci-fi kulcsszó esetében ugyanígy 50% fölötti keresőarányú megye, akkor szintén a közelében van e egy ugyanígy 50% feletti keresőaránnyal rendelkező megye a fantasy kulcsszó esetében is. Vagy ugyanezt kielemezhetnénk a földrajzi irányok esetében is a fent már tárgyalt módon.
Egy olyan alkalmazást kellene fejleszteni tehát, ahova begépelünk, mondjuk, három, vagy több kulcsszót, és automatikusan kielemzi a kulcsszavakra legtöbben rákeresett lakosokat magában foglaló megyék egymáshoz viszonyított térbeli adatait. Ezzel egy szinte kimeríthetetlen térbeli elemző eszközre tehetnénk szert, és valamilyen formában össze tudnánk kapcsolni egymással a földrajztudományt és a nyelvtudományt.

Felhasznált Irodalom:

Micheline Kamber: Adatbányászat: Koncepciók és technikák, Panem, 2004.

Google Trends újítások http://longhand.hu/keresooptimalizalas_/google-trends-ujitasok.php#gref

Nincsenek megjegyzések:

Megjegyzés küldése