Орієнтовні графіки добування ресурсів на планеті, початок Big Data Age (Zettabyte Age) |
Статистика частоти використання для пошуку в Google з 2004 року ключових слів: big data, business intelligence, machine learning, data mining |
За оцінками джерел PCAST, можливо, до 2020 року на планеті створено біля 35 зеттабайт (трильйонів гігабайт) даних - більшу частину даних у "хмарі". Для передачі такої величезної кількості даних необхідно розвивати широкополосні лінії передачі даних.
Технології Big Data Analytics (DSS BI) легко втратити при зміні керівництва (особливо у державних організаціях), тому їх передача повинна бути важливим елементом діяльності організацій, під час правонаступництва їх керівництва, у т.ч. в IT сфері. Ймовірно, повинна бути встановлена кримінальна відповідальність за безпеку Big Data та Big Data Analytics у державних організаціях України.
В історії людства були етапи різкого збільшення інформації та її розповсюдження - після виникнення писемності, друкарства («Епоха Гутенберга»), після широкого розповсюдження електричного зв'язку, радіо, телебачення, обчислювальної техніки.
Проте, лише у 90-х роках 20-го століття інформація стала надвеликим і глобальним ресурсом, а наприкінці першого десятиліття 21-го століття визначено початок Big Data Age («Ери Великих Даних») або Zettabyte Age («Ери Зеттабайт», 1 зеттабайт = 1 трильйон гігабайт).
Дефініція "big data" («великі дані») – це термін-метафора, який почали активно використовувати у США з 2010 року. Зв’язаний з ним термін «big data age» («ера великих даних») – це один з ключових термінів у доповіді PCAST «Report to the President And Congress «Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology» («Доповідь Конгресу і Президенту США «Конструювання Цифрового майбутнього: що фінансуються з федерального бюджету досліджень і розробок в області мережевих та інформаційних технологій») яка датована груднем 2010. Доповідь містить більше ніж 140 сторінок складного для глибокого розуміння тексту зі сфери NIT R&D. Мною разом зі студентами ЖВІ НАУ (ЖВІ ДУТ) перекладена на українську мову частина цієї доповіді і обговорена на навчальних семінарах, інших навчально-наукових заходах у рамках навчальних дисциплін СППР/DSS (Системи підтримки прийняття рішень/Decision Support System), АСУ СП (Автоматизовані системи управління спеціального призначення), ТССА (Теорія систем і системний аналіз).
У вказаній доповіді PCAST/R&D NIT-2010 Президенту і Конгресу США вказано, що обсяги даних зростають експоненційно. Причин багато, зокрема створення сьогодні майже всіх даних у цифровій формі, розповсюдження датчиків та нових джерел даних, таких як зображення з високою роздільною здатністю та відео. Збір, управління та аналіз даних - це завдання, що швидко зростають у дослідженнях мережевих й інформаційних технологій (NIT). Автоматизовані методи аналізу, такі як data mining (видобуток даних) та machine learning (машинне навчання), сприяють перетворенню даних у знання, а знань у дії. Кожне федеральне агентство має мати “big data” strategy (стратегію "великих даних"). Зазначимо, що на жаль, значна частина IT-спеціалістів у нас не знає, що machine learning є частиною data mining (для прикладу: "машинне навчання з учителем" є основою функції "класифікація" data mining); це незнання радикально знижує ефективність їх розробок.
Довідково: PCAST - President’s Council of Advisors on Science and Technology (Рада консультантів президента США з науки і технологій), входить до складу Office of Science and Technology Policy, OSTP (Офіс президента США з наукової і технологічної політики). PCAST готує ключові аналітичні консалтингові документи для Конгресу і Президента США, які підписують провідні спеціалісти з державних і приватних систем США. Вказана доповідь вище була перенесена у закритий архів (?), а потім знову стала доступною.
За підрахунками PCAST, станом на 2010 рік, щорічно в усьому світі за допомогою численних пристроїв у численних формах генерується близько 1,2 зетабайта (1,2 мільярда терабайт) цифрових даних: віддалені датчики, роздрібні транзакції в Інтернеті, текстові документи, повідомлення електронної пошти, веб-повідомлення, камери та відеозображення, комп'ютерне широкомасштабне моделювання та наукові прилади, такі як прискорювачі частинок та телескопи. На початку статті перераховані джерела Big Data зображені у вигляді рисунка з англомовними термінами і їх українським перекладом.
Дехто пов`язує "big data" зі значним збільшенням інформації у соціальних медіа та у мережах стільникового зв’язку. Проте, у час введення терміну "big data" у 2010 році, стільниковий зв'язок та особливо соцмережі ще не були так сильно розвинені як через кілька років – це видно, для прикладу, з графіків частоти використання у Google пошукових слів Big Data, Facebook, YouTube,Social Media Analytics,Social CRM,GIS, що подані у статті: Ієрархічно-синергетичне об'єднання Social Media Analytics/Social CRM з Business Intelligence і з географічною інформаційною системою / І.А. Круковський, Б.А. Хомів, В.Л. Гаврилюк // Вісник ЖДТУ. – 2013. – Вип. 1 (64). – С. 60-69.
Також інформація стільникового зв’язку зведена до відносно дуже простої бази даних і у поєднанні з географічними і демографічними даними з цієї бази даних дуже ефективна для аналізу з метою підтримки рішень (decision support); але це у меншій мірі відноситься до розпізнавання голосової інформації.
Інформація у соцмережах також зведена до відносно простої дуже великої бази даних і у поєднанні з демографічними й географічними даними дуже ефективна для аналізу, не випадково у соціальних медіа активно використовуються чат-боти; це не відноситься до розпізнавання відео та зображень.
Інформація на сайтах з CMS також спеціально пристосована для швидкого високоавтоматизованого аналізу даних і підтримки рішень. Це не стосується розпізнавання зображень, - не випадкового для боротьби зі програмами-хакерами використовуються капчі, що вимагають від користувача розпізнати зображення (і зробити внесок у розробку алгоритмів розпізнавання графічних образів, - це «машинне навчання з учителем»).
Необхідно розуміти, що основа алгоритмічно-програмних засобів для обробки Big Data почала формуватися відносно давно, орієнтовно з 1950...1960-х років у рамках робіт по розпізнаванню образів, експертних систем, ін.
Більшість задач Big Data Analytics вирішують традиційні з 1995 р. засоби Business Intelligence, а також Text Mining, які отримали подальший розвиток (спрощення) й інтеграцію у 2008 році (Business Intelligence 2.0, DSS BI 2.0).
Для прикладу, реалізована DSS BI 2.0 у 2008 році мала у своєму складі засоби з елементами Text Mining для індексування й простого аналізу більше ніж 100 типів файлів - це практично всі типи файлів на комп`ютері.
З початку 21-го століття, особливо з 2010 року активно розвиваються засоби Text Mining («розкопки текстів»: Opinion Mining, Sentiment Analysis), розпізнавання графічних образів (можна назвати «Image Mining»), розпізнавання смислу звуків в електронних файлах (можна назвати Wave Mining).
У процесі бурхливого розвитку соціальних мереж, почали активно розвиватися Social Media Analytics/Social CRM. Орієнтовно після 2010 року розроблені архітектури GIS BI (Spatial DSS BI 2.0), Social Media DSS BI, Social Media Spatial DSS BI, які використовуються і розвиваються у компанії SemanticForce з України, в інших компаніях.
Зазначимо, що конкуруючий з Business Intelligence термін Machine Learning (машинне навчання) є частиною Data Mining, тобто частиною Business Intelligence. Відокремлене використання часткового терміну і засобів Machine Learning й Data Mining порушує системність термінології й аналізу Business Intelligence, блокує використання більш простих та у деяких випадках більш ефективних засобів (OLAP, ін.).
• REPORT TO THE PRESIDENT AND CONGRES. DESIGNING A DIGITAL FUTURE: FEDERALLY FUNDED RESEARCH AND DEVELOPMENT IN NETWORKING AND INFORMATION TECHNOLOGY by President’s Council of Advisors on Science and Technology, Executive Office of the President President’s Council of Advisors on Science and Technology. DECEMBER 2010.
• Title of thesis Doctor of Philosophy (PhD): System of support of analytical work of corporate informative analytical center. Krukovsky I., Date: 18 February 2009 (2011).
• Узагальнена архітектура системи підтримки прийняття рішень на основі Business Intelligence у розширеному тлумаченні / І.А. Круковський // Вісник ЖДТУ. – 2010. – Вип. 2 (53). – С. 103-111.
• Проект «Концепції дослідного використання Business Intelligence+..». Круковський І.А., 2009. Примітка: «Концепція дослідного використання Business Intelligence+..» у 2009 році - це у термінах США PCAST у 2010 році `big data strategy` for federal agency. Проект Концепції розроблений на основі досліджень і практичних реалізацій у США у сфері Business Intelligence, Data Mining, Business Analytics Software, ets.
• Застосування Business Intelligence у сфері інформаційної безпеки. Доповідь на міжвідомчому міжрегіональному семінарі Наукової Ради НАН України «Технічні засоби захисту інформації». Круковський І.А. Житомир, 11.03.2011 р. (рекомендовано до публікації у фахових наукових виданнях).
• Business Intelligence+KMS - концепція, технологія і засоби підтримки рішень не тривіальними знаннями з первинних даних. Круковський І.А., 2011. Business Intelligence+KMS. [Електронний ресурс]. 01.07.2011 р. – Режим доступу : http://dss-bi.com.ua/
• Архітектура системи підтримки прийняття рішень на основі Business Intelligence з інтегрованою геоінформаційною системою / І.А. Круковський // Проблеми створення, розвитку та застосування інформаційних систем спеціального призначення : 19-а наук.-практ. конф., Житомир, 19 кв. 2012 р. Тези доповідей. Ч.1. – Житомир : ЖВІ НАУ, 2012. – С. 194-195.
• Business Intelligence NEO – актуальний напрямок дослідження і розвитку мережевих та інформаційних технологій. Круковський І.А. // Актуальні питання залучення обдарованих учнів до дослідницької діяльності з використанням мережевих технологій: Матеріали круглого столу 17 лютого. 2012 р., / м. Київ, - Інститут обдарованої дитини НАПН України, 2012. – С. 16-22.
• Проблемні питання використання і розвитку засобів Social Media Analytics, їх інтеграції з Business Intelligence та з елементами ГІС – на прикладі платформи SemanticForce / І.А. Круковський, В.Л. Гаврилюк, Б.А. Хомів // "IVСічневі ГІСи": Інтелектуальна оборона” (науково-практичний форум ) / Академія Сухопутних військ імені гетьмана Петра Сагайдачного: Львів, 22-24 січня 2013 р. - С. 42-45.
• Ієрархічно-синергетичне об'єднання Social Media Analytics/Social CRM з Business Intelligence і з географічною інформаційною системою / І.А. Круковський, Б.А. Хомів, В.Л. Гаврилюк // Вісник ЖДТУ. – 2013. – Вип. 1 (64). – С. 60-69.
• Формалізація й уніфікація термінів та понять в області оцінювання опінії на основі стандарту якості програмних систем ISO 9126 / Б. А. Хомів, С. А. Лупенко, В.В. Яцишин, І. А. Круковський // Проблеми створення, випробування, застосування та експлуатації складних інформаційних систем : збірник наукових праць. Вип. 8 / Житомирський військовий інститут імені С. П. Корольова Національного авіаційного університету. – Житомир : ЖВІ нау, 2013. – С. 173-185.
• Дослідження шляхів об’єднання для організацій Social Media, Social Media Analytics/Social CRM / Круковський І.А. // Проблеми створення, розвитку та застосування високотехнологічних систем спеціального озброєння : ХХ Всеукр. наук.-практ. конф., Житомир, 28 лист. 2014 р. : тези доповідей. / Житомир. військ. ін.-т – Житомир : ЖВІ ДУТ, 2014. – С. 16-17.
• Удосконалена архітектура системи SCADA, об’єднана з Business Intelligence. Круковський І.А. // Проблеми створення, розвитку та застосування високотехнологічних систем спеціального озброєння : ХХ Всеукр. наук.-практ. конф., Житомир, 28 лист. 2014 р. : тези доповідей. / Житомир. військ. ін.-т – Житомир : ЖВІ ДУТ, 2014. – С. 13-14.
• Про впровадження у навчальний процес питань вивчення сучасних технологій обробки інформації на основі IDC`s Business Analytics Software Taxonomy / Круковський І.А., Дзюба І.С. // Модернізація українського суспільства в умовах євроінтеграції: [збірник наукових робіт] / за заг. ред. Т.В. Семенюк, С.М. Коляденко, Н.П. Павлик. — Житомир : Вид-во Житомирського державного університету імені Івана Франка, 2016. – С. 122-126.
• Цікаві положення доповіді PCAST: «Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology». 18.10.2013. Система+. [Електронний ресурс]. – Режим доступу : https://system.dss-bi.com.ua/
• Про вивчення у ВНЗ системи аналізу даних на основі IDC`s Business Analytics Software Taxonomy. 2014. Система+. [Електронний ресурс]. – Режим доступу : https://system.dss-bi.com.ua/
• Business Intelligence та Інформація, Дані, Знання, Мудрість і засновані на них суспільства. Big Data BI DSS group. [Електронний ресурс]. – Режим доступу : https://dss-bi.blogspot.com
• Big Data: A Revolution That Will Transform How We Live, Work, and Think by Viktor Mayer-Schönberger and Kenneth Cukier ISBN-10: 0544227751, ISBN-13/EAN: 9780544227750, Houghton Mifflin Harcourt, Boston, Massachusetts, 2013, 256 pp.
• DSS BI 2.0 & big data strategy (оновлено). Big Data BI DSS group. [Електронний ресурс]. 05.06.2018– Режим доступу : https://dss-bi.blogspot.com
Коментарі
При цьому, часто вказані терміни тлумачать примітивізовано, як аналітику лише числових даних і лише з мереж стільникового зв`язку або соцмереж. Ця особливість у одних випадках викликана маркетинговими цілями продавців послуг, у інших випадках - неповною компетенцією розробників подібних послуг, у тому числі на найвищих ієрархічних рівнях розробників стратегій, технологій і програмних засобів Big Data Analytics для держави, національної безпеки й оборони.
У свою чергу, неповне розуміння чи незнання розробниками програмного забезпечення особливостей Business Intelligence and Business analytics software приводить до того, що розроблені ними засоби Big Data Analytics мають неповний функціонал відповідно до неповної компетенції розробників, аналітиків і керівників. Ця неповна компетенція у теперішній час може бути життєво небезпечною для держави і корпоративних організацій.