A szövegbányászat célja, hogy a szöveges formában - interneten, szöveges adatbázisokban, vállalati intraneteken vagy személyi számítógépeken - tárolt, azaz jellemzően strukturálatlan elektronikus adatokból a rejtett, nem triviális információkat felderítse, illetve a hozzáadott információkat kinyerje. Mivel az elektronikus formában tárolt adatok egyre növekvő hányadát a szöveges dokumentumok teszik ki (a Merill Lynch elemzői szerint az üzleti információk 85%-a strukturálatlan adat: e-mail, emlékeztető, üzleti és kutatási beszámoló, prezentáció, hírek, reklámanyag, weboldal, stb.), ezért egyre nagyobb igény van olyan megoldásokra, amelyekkel hatékonyan lehet szövegeket intelligens módon feldolgozni és elemezni.
A könyv a következő témákat tárgyalja: előfeldolgozás, modellalkotás, reprezentáció, információkinyerés, keresések, osztályozás, csoportosítás, kivonatolás, válaszkereső rendszerek, egyéb feladatok, piaci alkalmazások.
Mivel a szövegbányászati problémák nagy része nyelvfüggő, ezért a mű kiemelten foglalkozik a magyar nyelvű szövegek feldolgozását segítő módszerekkel és eredményekkel, amivel a hazai piaci igények kielégítését is elő kívánja segíteni.
A könyv szovegbanyaszat.typotex.hu címen elérhető internetes mellékletén az anyaghoz kapcsolódó példák, esettanulmányok, kiegészítő anyagrészek találhatók, amelyet gazdag linkgyűjtemény egészít ki.