Перейти до основного вмісту

Розпізнавання названого об'єкту (Named-entity recognition) та Business Intelligence

Named-entity recognition (NER, Розпізнавання названого об'єкту), також відоме як entity identification (ідентифікація юридичної особи), entity chunking and entity extraction (вилучення, екстрагування суб`єкта господарювання) - це  підзадача вилучення інформації, для знаходження і класифікції названих об'єктів у тексті до заздалегідь визначених категорій, для прикладу такі як імена осіб, назви організацій, місцезнаходження, час, кількість, грошові значення, відсотки, тощо.

Більшість досліджень, присвячених системам NER, мають ціллю прийняття не анотованого блоку тексту, і наступне виведення анотованого тексту. Для прикладу, неанотований текст на вході NER:

Джим купив 300 акцій Acme Corp. у 2006 році.

І вироблений анотований блок тексту на виході NER, який виділяє імена суб'єктів:

[Джим] Особа купила 300 акцій [Acme Corp.] Організації в [2006] Time.

У цьому прикладі було виявлено і класифіковано ім'я особи, що складається з одного токену, двох назв компанії та тимчасового виразу.

Найсучасніші системи NER для англійської мови дають практично такі ж результати, як і люди, які складають подібні анотації. Наприклад, найкраща система, що вводить MUC-7, набрала 93,39% F-міри, а люди-анотатори набрали 97,60% і 96,95% 

Джерело: Named-entity recognition. From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Named-entity_recognition.


Named-entity recognition (NER, Розпізнавання названого об'єкту), також відоме як entity identification (ідентифікація юридичної особи), entity chunking and entity extraction (вилучення, екстрагування суб`єкта господарювання) - це  підзадача вилучення інформації


NER plus BI

На мій погляд, після накопичення результатів розпізнавання названих об'єктів, з правильно створеного масиву розпізнаних атрибутів названих об`єктів можна отримати різноманітні додаткові корисні знання - за допомогою нового дослідження  засобами Business Intelligence (OLAP (OnLine Analytical Processing), Visual Mining, Data Mining, KPI (Key Performance Indicator), Dachboards, Scorecard, а також вторинного застосування засобів Text Mining (Opinion Mining & Sentiment Analysis),  а також можливого трансформування системи вилучених розпізнаних атрибутів названих об`єктів у систему управління знаннями (Knowledge Management System, KMS). 

Коментарі

Популярні дописи з цього блогу

Недоліки статей Вікіпедії, які варто подолати для підвищення довіри до неї (21.05.23 виправлена дезінформація хакера)

Часто вікі-статті пишуть "всі кому не лінь" під чудернадськими нікнеймами ("легендами прикриття"), а потім правлять також "всі кому не лінь", через який завгодно час. Досвідчені вікі-ігромани у Вікіпедії є авторами кількох сотень чи тисяч вікі-статей та авторами кількох десятків тисяч вікі-правок чужих статей (це не описка), див. ст. Вікіпедія - це "енциклопедія" без довіри?  (гіперпосилання виправлено 20.05.2023 р. після заміни хакером) Найчастіше доповнення вікі-статей здійснюють кластери вікі- ігроманів  з числа вікі-патрульних та вікі-адміністраторів Вікіпедії, які для самореклами і вікі-рейтингу намагаються "відмітися" у максимальній кількості вікі-статей, ін., див. для прикладу:   Вікіпедія: патрульні  (patroller), Вікіпедія: рейтинг .  Є випадки, коли кластери вікі-ігроманів редагували тексти і посилання у статтях більше ніж 8 років, проте жоден з них не помічав елементарні принципові семантичні помилки першого

OSINT (Розвідка відкритих джерел) в екосистемі зв`язаних термінів

OSINT - Open Sourse Intelligence Цей ескіз статті, за винятком інформації про "російсько-українську війну" (гібридну воєнну агресію РФ проти України з 2013 року) початково написаний як фрагмент повної статті про OSINT у січні 2019 року у зв`язку із тим, що її попередній варіант у Вікіпедії базувався на джерелах російського походження, хоча сам термін і технологія мають англомовне походження. Ймовірно, даний текст і  джерела у Вікіпедії буде змінено і викривлено,  як і по багатьом іншим інформаційним hi-tech.  Визначення OSINT, синтезоване на основі англомовних джерел і власних досліджень:  Розвідка відкритих джерел (англ. Open source intelligence, OSINT) — концепція,  методологія і  технологія   добування з відкритих джерел  військової, політичної, економічної та іншої безпекової інформації  і використання її  для підтримки прийняття рішень у сфері національної оборони і безпеки. Добування інформації здійснюється без порушення законодавства. OSINT - це важлива неві

Концепція Ноосфери та мережеві ергатичні організми, мережево-центричні системи і війни, Інтернет речей (уточнено 06.12.19)

Ноосфе́ра (грец. νόος — «розум» і σφαῖρα — «сфера») — сфера розуму; сфера взаємодії суспільства та природи, у межах якої розумна людська діяльність стає визначальним фактором розвитку. У 1944 році сформований Зако́н Ноосфе́ри Верна́дського — положення про перетворення Біосфери, згідно з яким на сучасному рівні розвитку вона неминуче перетворюється в Ноосферу, тобто в сферу, де найважливішу роль в розвитку природи відіграє розум людини.  Як зазначив В.І. Вернадський відповідний термін було введено французьким математиком та філософом Е. Ле Руа разом з його другом Тейяром де Шарденом після їх детального знайомства з вченням Вернадського про біосферу під час його лекцій у Парижі в 1923 р. При цьому Ле Руа визначав ноосферу як сучасну стадію, що її геологічно переживає біосфера. Початок Ноосфери доцільно визначити з того часу, коли розумові дії людей досягли за силою впливу на геосферу і біосферу потужності «геологічної сили» - це явно сталося не пізніше ніж після побудови  Суець