Domov audio Čo je dolovanie textových údajov? - definícia z technológie

Čo je dolovanie textových údajov? - definícia z technológie

Obsah:

Anonim

Definícia - Čo znamená ťažba textových údajov?

Dolovanie textových údajov zahŕňa vyčíslenie štruktúrovaných informácií pomocou textového dokumentu alebo zdroja. Vyžaduje si to sofistikované analytické nástroje, ktoré spracúvajú text s cieľom získať konkrétne kľúčové slová alebo kľúčové údajové body z toho, čo sa považuje za relatívne surové alebo neštruktúrované formáty.

Dolovanie textových údajov je tiež známe ako dolovanie textu alebo analýza textu.

Techopedia vysvetľuje ťažbu textových údajov

Pri dolovaní textových údajov používajú inžinierske systémy veci, ako sú taxonómie a lexikálna analýza, aby určili, ktoré časti textového dokumentu sú hodnotné ako ťažené údaje. Štatistické modely sú bežne užitočné a systémy môžu používať heuristiku alebo algoritmické odhady, aby sa pokúsili určiť, ktoré časti textu sú dôležité. Medzi ďalšie kontrolné systémy patrí značkovanie a analýza kľúčových slov, kde nástroje hľadajú konkrétne správne mená alebo iné značky a kľúčové slová, aby zistili, o čom sa píše.

Ďalšou jedinečnou súčasťou dolovania textu sa často nazýva analýza sentimentu. V analýze sentimentu, ktorá je vo všeobecnosti omnoho ťažšia ako štatistická analýza, sa analytické nástroje snažia zistiť náladu alebo sentiment za písaným textom a ďalšie aspekty toho, čo riešia, na veľmi subjektívnej a intuitívnej úrovni. So vznikom nástrojov umelej inteligencie sa v analýze sentimentu urobilo veľa pokroku, takže moderná ťažba textových údajov nie je len zbieraním kvantitatívnych odkazov, ale zahŕňa aj zavádzanie koncepčných modelov na vysokej úrovni do ťažby textu, aby sa zistili nové a jedinečné spôsoby. agregovať cenné údaje.

Čo je dolovanie textových údajov? - definícia z technológie