A HG-1 korpusz mondattanilag elemzett mondatokat tartalmaz. Az elemzést az NIIF szuperszámítógépes szolgáltatására támaszkodva végeztük el a Xerox Linguistic Environment LFG elemzőjének segítségével. Nyersanyagként a Magyar Webkorpuszt használtuk, ebből dolgoztuk fel annyi szöveget, hogy az elemzett mondatokban lévő szavak száma a 1,5 millió szót elérje. A webkorpusz összeállítói a sok hibát tartalmazó és/vagy idegen nyelven íródott honlapokat kiszűrték, azonban tartalmi szűrést nem végeztek, a feldolgozott lapok tartalmáért felelősséget nem tudunk vállalni.

A HG-1 korpuszba 152778 olyan mondat került be, melyre a nyelvtanunk egy elemzést adott (752159 szó), és 131008 olyan mondat, amire két elemzésünk volt (771716 szó). Három, vagy annál több elemzést adó mondatokat (a nyelvtanunk által elemzett mondatok 46%-a volt ilyen) a HG-1 korpusz nem tartalmaz.

Az elemző kimeneteként előállt, Prolog programozási nyelven kódolt elemzéseket TigerXML-alapú (a standardhoz képest minimális kiegészítéseket tartalmazó) formátumra hoztuk. Ezt követően egy SQL-alapú relációs adatbázist készítettünk belőle abból a célból, hogy egy felhasználóbarát, webes, online lekérdezőfelületen keresztül akár összetett feltételeket is tartalmazó, ugyanakkor viszonylag gyors kereséseket lehessen végrehajtani a korpuszban. Az elkészült felületen egyszerre csak egy szóra (akár lemma, akár szóalak értelemben) lehet keresni, ugyanakkor további szűrő is beállítható domináló csomópontra, szófajra, valamint egyéb morfológiai jegyekre, mindezek tetszőleges kombinációban. A keresés eredményeként előállt mondatok elemzéseinek (összetevős szerkezeteinek) megjelenítésére a phpSyntaxTree (v1.10) alkalmazást építettük be rendszerünkbe.