02/20100
Oszlop és egyéb alapú adatbázisok összehasonlító tesztje 2.0
A jól felépített és dokumentált adatbázis tesztek koronázatlan királya Vadim Tkachenko új tesztet publikált a blogjában.
Ugye emlékszünk, ők járták körbe azt, hogy melyik oszlop alapú MySQL sarjadék (Infobright, MonetDB és LuciDB) képes a leggyorsabban betölteni - és lekérdezni adatokat egyetlen nagy táblába és ból.
A lekérdezések jellemzően nem voltak túl bonyolultak, tartalmaztak némi szűrést és / vagy aggregációt, de komolyan meg kell erőltetni a fantáziánkat, ha a valóság szélfútta és eső barázdálta adattárházainak mezején képzelnénk ezeket a lekérdezéseket hasznos munkára fogni.
Biztosan fájt ez valahol Vadim barátunknak, mélyen a lelkiben, hogy a világtól elrugaszkodott performancia teszt kóklernek gondolhatják sokan - ugyanakkor komoly visszhangja is volt a lelkiismeretesen összerakott teszteknek. Sokan olvasták el, linkelték be, hivatkozták le ezeket a teszteket (köztük nem kisebb személyek, mint én), megjegyezve, hogy a való világban sem vegetáriánus oroszlán, sem visszanövő szűzhártya, sem "select count(*) from table" egyszerűségű DW lekérdezés nem létezik, de azért álmodozni lehet róla.
Olyan nagy volt a teszt olvasottsága, hogy a Greenplum-os srácok is megcsinálták az ingyenes SingleNode verzióra (max 8 párhuzamos processzor magon fut, de tud oszlop alapú tárolást - tömörítést is), és a saját méréseik szerint a Greenplum szinte minden területen szutyokká verte a Vadim által korábban tesztelt adatbázisokat. Kérdéses, hogy mennyire végezték pontosan ugyan azt, mint Vadim - illetve ne felejtsük el, a teszteket a GP saját mérnökei által installált, optimalizált adatbázison futtatták, szemben Vadim-al, aki ugye nem alkalmazottja, és feltételezhetően nem olyan mértékben szakértője az általa tesztelt adatbázisoknak mint a GP-s tesztelők a sajátjuknak.
Ilyen viharos történések után Vadim újított, és megcsinált egy másik tesztet is, méghozzá az igen szép nevű Stars Schema Benchmark-ot. Ez egy TPC-H verzió, amiben már javában vannak finom kis join-ok, több táblás, komplexebb SQL-ek, a korábban is használt szűrésekkel, aggregációkkal, stb kombinálva. A tesztelt adatmennyiség 610GB volt a betöltés előtt, ez persze erősen eltérő adatbázis méretet eredményezett a különféle tárolási metódusok miatt.
Időközben Vadim bedobta a tesztelendők közé az InfiniDB névre hallgató, még béta állapotban leledző csodát is, amiről azt érdemes tudni, hogy oszlop alapú, és a fizetős verziója, amit kevéssé meglepő módon Enterprise Editionnak szólítanak tisztelői, még MPP képességekkel is bír. Vadim természetesen az ingyeneset használta, de már így is kitünt a mezőnyből a több processzor magon párhuzamosan futtatott végrehajtással és az IO hatékony kihasználásával.
A teszt eredmények röviden (hosszan itt, tessék elolvasni mert tanulságos):
MonetDB-t rövid úton diszkvalifikálták, mert nem volt képes ekkora adatmennyiség indexelésére (a betöltés sikerült, de az indexeket memóriában akarta megcsinálni, ami a teszt gépen nem volt lehetséges). A gép tuningolásával, a partíciók variálásával elvileg munkára lehetett volna bírni, de Vadim úgy gondolta, csinálja ezt az, akinek egyszerre két édesanyja pucolt ablakot baltával Novoszibirszkben, így MonetDB RIP.
Infobright és LuciDB közel hasonló eredményeket hoztak a teszt folyamán, bár Infobright bizonyos lekérdezéseknél vacakabbul szerepelt. Mindkettőn látszik, hogy tömörítésre optimalizáltak, de nem képesek több szálon feldolgozni a lekérdezéseket, remélhetőleg nem marad ez így sokáig.
InfiniDB pedig béta ide, béta oda, csúnyán rávert a többiek popsijára. Úgy töltési időben, mint lekérdezésekben magasan a leggyorsabb volt megérdemelten vehette át a győztesnek járó sportcsokit.
A részletes teszt dokumentáció itt található.
Figyelemre méltó még Vadim srác bejelentése, hogy megtetszett neki a tesztelésekből származó népszerűség, és mint egy jó brazil sorozat, nem áll le míg a vak lány meg nem gyógyul, a májzsugoros béka át nem változik fogatlan kínai táncművésszé, vagy minden adatbázist minden más adatbázissal össze nem hasonlított mindenféle, pl OLAP használat teljesítménye szerint. Úgy legyen!
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.