Big Data («Великі дані») – це що? Інформація із першоджерела.

Big data (великі дані) - джерела
 Big Data («Великі дані»), джерела вказані у доповіді PCAST-2010: «Report to the President And Congress «Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology»

В історії людства були етапи різкого збільшення інформації та її розповсюдження - після виникнення писемності, друкарства («Епоха Гутенберга»), електричного зв'язку, радіо, телебачення, обчислювальної техніки. 

Проте, лише у 90-х роках 20-го століття інформація стала надвеликим і глобальним ресурсом, а наприкінці першого десятиліття 21-го століття визначено початок Big Data Age («Ери великих даних») або zettabyte age («ери зеттабайт»), 1 зеттабайт = 1 трильйон гігабайт.

Графіки використання  речовини, енергії, інформації, знання, мудрості (dss-bi.blogspot,com)
Орієнтовні графіки добування ресурсів на планеті, "Big Data Age"

Дефініція «Big Data» («Великі дані») – це термін-метафора, який почали активно використовувати у США з 2010 року. Зв’язаний з ним термін «big data age» («ера великих даних») – це один з наскрізних термінів у доповіді PCAST «Report to the President And Congress «Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology» («Доповідь Конгресу і Президенту США «Конструювання Цифрового майбутнього: що фінансуються з федерального бюджету досліджень і розробок в області мережевих та інформаційних технологій») яка датована груднем 2010. 

Довідково: PCAST - President’s Council of Advisors on Science and Technology (Рада консультантів президента США з науки і технологій), входить до складу Office of Science and Technology Policy, OSTP (Офіс президента США з наукової і технологічної політики). PCAST готує ключові аналітичні консалтингові документи для Конгресу і Президента США, які  підписують провідні спеціалісти з державних і приватних систем США.

У цій доповіді  PCAST Президенту і Конгресу США вказано, що обсяги даних зростають експоненційно. Причин багато, зокрема створення сьогодні майже всіх даних у цифровій формі, розповсюдження датчиків та нових джерел даних, таких як зображення з високою роздільною здатністю та відео. Збір, управління та аналіз даних - це питання, що швидко зростає у дослідженнях мережевих й інформаційних технологій (NIT). Автоматизовані методи аналізу, такі як data mining (видобуток даних) та machine learning (машинне навчання), сприяють перетворенню даних у знання, а знань у дії. Кожне федеральне агентство має мати “big data” strategy  (стратегію "великих даних").

За підрахунками PCAST, станом на 2010 рік, щорічно в усьому світі за допомогою численних пристроїв у численних формах генерується близько 1,2 зетабайта (1,2 мільярда терабайт) цифрових даних: віддалені датчики, роздрібні транзакції в Інтернеті, текстові документи, повідомлення електронної пошти, веб-повідомлення, камери та відеозображення, комп'ютерне широкомасштабне моделювання та наукові прилади, такі як прискорювачі частинок та телескопи. На початку статті перераховані джерела Big Data зображені у вигляді рисунка з англомовними термінами і їх українським перекладом. 

Дехто пов`язує "big data" зі значним збільшенням інформації у соціальних медіа та у мережах стільникового зв’язку. Проте, у час введення терміну "big data" у 2010 році, стільниковий зв'язок та особливо соцмережі ще не були так сильно розвинені як через кілька років – це видно, для прикладу, з графіків частоти використання у Google пошукових слів Big Data, Facebook, YouTube,Social Media Analytics,Social CRM,GIS, що подані у статті: Ієрархічно-синергетичне об'єднання Social Media Analytics/Social CRM з Business Intelligence і з географічною інформаційною системою / І.А. Круковський, Б.А. Хомів, В.Л. Гаврилюк // Вісник ЖДТУ. – 2013. – Вип. 1 (64). – С. 60-69.

Частота використання у Google пошукових слів Big Data, Facebook, YouTube,Social Media Analytics,Social CRM,GIS

Також інформація стільникового зв’язку зведена до відносно дуже простої бази даних і у поєднанні з географічними і демографічними даними з цієї бази даних дуже ефективна для аналізу з метою підтримки рішень (decision support); але це у меншій мірі  відноситься до розпізнавання голосової інформації.

 Інформація у  соцмережах також зведена до відносно простої дуже великої  бази даних  і у поєднанні з демографічними й географічними даними дуже ефективна для аналізу, не  випадково у соціальних медіа активно використовуються чат-боти; це не відноситься до розпізнавання відео та зображень. 

Інформація на сайтах з CMS також спеціально пристосована для швидкого високоавтоматизованого аналізу даних і підтримки рішень. Це не стосується розпізнавання зображень, - не випадкового для боротьби зі програмами-хакерами  використовуються капчі, що вимагають від користувача розпізнати зображення (і зробити внесок у розробку алгоритмів розпізнавання графічних образів, - це «машинне навчання з учителем»). 

Необхідно розуміти, що основа алгоритмічно-програмних  засобів для обробки Big Data почала формуватися відносно давно, орієнтовно з 1950...1960-х років у рамках робіт по розпізнаванню образів, експертних систем, ін. 

Більшість задач Big Data Analytics вирішують традиційні з 1995 р. засоби Business Intelligence, а також Text Mining, які отримали подальший розвиток (спрощення) й інтеграцію у 2008 році (Business Intelligence 2.0, DSS BI 2.0). 

Для прикладу, реалізована DSS BI 2.0 у 2008 році мала у своєму складі засоби з елементами Text Mining для індексування й простого аналізу більше ніж 100 типів файлів - це практично всі типи файлів на комп`ютері. 

З початку 21-го століття, особливо з 2010 року активно розвиваються засоби Text Mining («розкопки текстів»: Opinion Mining, Sentiment Analysis), розпізнавання графічних образів (можна назвати «Image Mining»), розпізнавання смислу звуків в електронних файлах (можна назвати Wave Mining). 

У процесі бурхливого розвитку соціальних мереж, почали активно розвиватися Social Media Analytics/Social CRM. Орієнтовно після 2010 року розроблені архітектури GIS BI (Spatial DSS BI 2.0), Social Media DSS BI, Social Media Spatial DSS BI, які використовуються і розвиваються у компанії SemanticForce з України, в інших компаніях.

Зазначимо, що конкуруючий з Business Intelligence термін Machine Learning (машинне навчання) є частиною Data Mining, тобто частиною Business Intelligence. Відокремлене використання часткового терміну і засобів Machine Learning й Data Mining порушує системність термінології й аналізу Business Intelligence, блокує використання більш простих та у деяких випадках більш ефективних засобів (OLAP, ін.). 

Статистика використання для пошуку в Google з 2004 року ключових слів: big data, business intelligence, machine learning, data mining
Статистика частоти використання для пошуку в Google з 2004 року ключових слів: big data, business intelligence, machine learning, data mining

ВИСНОВКИ

  • За оцінками джерел PCAST, можливо, до 2020 року на планеті створено біля 35 зеттабайт (трильйонів гігабайт) даних - більшу частину даних у "хмарі". Для передачі такої величезної кількості даних необхідно розвивати широкополосні лінії передачі даних.
  • Досвід власного науково-практичного дослідження й аналізу даних (див. посилання на деякі опубліковані результати нижче) показує, що основною проблемою в ефективному використанні Big Data є не їх великий об’єм, а різна, часто суперечлива структурованість, а також організаційні проблеми, «людський фактор». Відомі факти, коли керівники, які називають себе «технарями» й менеджери-аналітики рівня мерії і вище у 2020 році не знають навіть приблизно, що означають терміни Business Intelligence, OLAP, Data Mining, Data Warehouse, ін.
  • Досвід показує, що система підтримки рішень (DSS - Decision Support Dydtem) на основі «великих даних» (Big Data DSS, Big Data DSS BI) може бути реалізована тільки як складна ієрархічно-синергетична «система систем». Ці роботи у деякій мірі виконані у рамках Big Data web DSS BI group і вироблено базове розуміння подальшого розвитку Big Data Analytics на основі загальноприйнятої у світі IDC`s Business Analytics Software Taxonomy. Розроблена ієрархічно-синергетична система підсистем для Big Data DSS BI: DSS BI 2.0, ES BI 2.0, DSS BI 3.0 Cloud Computing, Spatial DSS BI, Website DSS BI, Webhosting DSS BI, Social Media DSS BI, Social Media Spatial DSS BI, Network Ergatic Organizm,...). Див. список авторських публікацій.
  • Необхідно підкреслити, що реалізація ефективного аналізу «великих даних» дозволяє перейти на принципово новий рівень корисності аналітичних рішень у всіх сферах.
  • У деяких випадках, деякі глобальні організації в Україні вже перейшли на цей більш високий рівень, насамперед у сфері банківських послуг, стільникового зв’язку, торговельних мереж, ін.
  • Технології Big Data Analytics (DSS BI) легко втратити при зміні керівництва, тому їх передача повинна бути важливим елементом діяльності організацій. Ймовірно, повинна бути встановлена кримінальна відповідальність за безпеку Big Data та Big Data Analytics у державних організаціях України.

Деякі використані джерела:

REPORT TO THE PRESIDENT AND CONGRES. DESIGNING A DIGITAL FUTURE: FEDERALLY FUNDED RESEARCH AND DEVELOPMENT IN NETWORKING AND INFORMATION TECHNOLOGY by President’s Council of Advisors on Science and Technology, Executive Office of the President President’s Council of Advisors on Science and Technology. DECEMBER 2010.

Title of thesis Doctor of Philosophy (PhD): System of support of analytical work of corporate informative analytical center. Krukovsky I., Date: 18 February 2009 (2011).

Узагальнена архітектура системи підтримки прийняття рішень на основі Business Intelligence у розширеному тлумаченні / І.А. Круковський // Вісник ЖДТУ. – 2010. – Вип. 2 (53). – С. 103-111.

Проект «Концепції дослідного використання Business Intelligence+..». Круковський І.А., 2009. Примітка: «Концепція…»  в Україні у 2009 році - це у термінах США PCAST у 2010 році   `big data strategy` for federal agency`; замість терміну "Business Intelligence+" у "Концепції..." у    

Застосування Business Intelligence  у сфері інформаційної безпеки. Доповідь на міжвідомчому міжрегіональному семінарі Наукової Ради НАН України «Технічні засоби захисту інформації». Круковський І.А. Житомир, 11.03.2011 р. (рекомендовано до публікації у фахових наукових виданнях).

Business Intelligence+KMS. Круковський І.А., 2011. Business Intelligence+KMS. [Електронний ресурс]. 01.07.2011 р. – Режим доступу : http://dss-bi.com.ua/

Архітектура системи підтримки прийняття рішень на основі Business Intelligence з інтегрованою  геоінформаційною системою / І.А. Круковський // Проблеми створення, розвитку та застосування інформаційних систем спеціального призначення : 19-а наук.-практ. конф., Житомир, 19 кв. 2012 р.  Тези доповідей. Ч.1. – Житомир : ЖВІ НАУ, 2012. – С. 194-195.

Business Intelligence NEO – актуальний напрямок дослідження і розвитку мережевих та інформаційних технологій. Круковський І.А.  // Актуальні питання залучення обдарованих учнів до дослідницької діяльності з використанням мережевих технологій: Матеріали круглого столу  17 лютого. 2012 р., / м. Київ, - Інститут обдарованої дитини НАПН України, 2012. – С. 16-22.

Проблемні питання використання і розвитку засобів Social Media Analytics, їх інтеграції з Business Intelligence  та з елементами ГІС – на прикладі платформи SemanticForce / І.А. Круковський, В.Л. Гаврилюк, Б.А. Хомів // "IVСічневі ГІСи": Інтелектуальна оборона” (науково-практичний форум ) / Академія Сухопутних військ імені гетьмана Петра Сагайдачного: Львів, 22-24 січня 2013 р. - С. 42-45.

Ієрархічно-синергетичне об'єднання Social Media Analytics/Social CRM з Business Intelligence і з географічною інформаційною системою  / І.А. Круковський, Б.А. Хомів, В.Л. Гаврилюк // Вісник ЖДТУ. – 2013. – Вип. 1 (64). – С. 60-69.

Формалізація й уніфікація термінів та понять в області оцінювання опінії на основі стандарту якості програмних систем ISO 9126 / Б. А. Хомів, С. А. Лупенко, В.В. Яцишин, І. А. Круковський   // Проблеми створення, випробування, застосування та експлуатації складних інформаційних систем : збірник наукових праць. Вип. 8 / Житомирський військовий інститут імені С. П. Корольова Національного авіаційного університету. – Житомир : ЖВІ нау, 2013. – С. 173-185.

Дослідження шляхів об’єднання для організацій Social Media, Social Media Analytics/Social CRM   / Круковський І.А.  // Проблеми створення, розвитку та застосування високотехнологічних систем спеціального озброєння : ХХ Всеукр. наук.-практ. конф., Житомир, 28 лист. 2014 р. : тези доповідей. / Житомир. військ. ін.-т – Житомир : ЖВІ ДУТ, 2014. – С. 16-17.

Удосконалена архітектура системи SCADA, об’єднана з Business Intelligence. Круковський І.А.   // Проблеми створення, розвитку та застосування високотехнологічних систем спеціального озброєння : ХХ Всеукр. наук.-практ. конф., Житомир, 28 лист. 2014 р. : тези доповідей. / Житомир. військ. ін.-т  – Житомир : ЖВІ ДУТ, 2014. – С. 13-14.

Про впровадження у навчальний процес питань вивчення сучасних технологій обробки інформації на основі IDC`s Business Analytics Software Taxonomy / Круковський І.А., Дзюба І.С.  // Модернізація українського суспільства в умовах євроінтеграції: [збірник наукових робіт] / за заг. ред. Т.В. Семенюк, С.М. Коляденко, Н.П. Павлик. — Житомир : Вид-во Житомирського державного університету імені Івана Франка, 2016. – С. 122-126.

Цікаві положення доповіді PCAST: «Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology». 18.10.2013. Система+. [Електронний ресурс]. – Режим доступу : https://system.dss-bi.com.ua/ 

Про вивчення у ВНЗ системи аналізу даних на основі IDC`s Business Analytics Software Taxonomy. 2014. Система+. [Електронний ресурс]. – Режим доступу : https://system.dss-bi.com.ua/

Business Intelligence та Інформація, Дані, Знання, Мудрість і засновані на них суспільства. Big Data BI DSS group. [Електронний ресурс]. – Режим доступу : https://dss-bi.blogspot.com

Big Data: A Revolution That Will Transform How We Live, Work, and Think by Viktor Mayer-Schönberger and Kenneth Cukier ISBN-10: 0544227751, ISBN-13/EAN: 9780544227750, Houghton Mifflin Harcourt, Boston, Massachusetts, 2013, 256 pp.

DSS BI 2.0 & big data strategy (оновлено). Big Data BI DSS group. [Електронний ресурс]. 05.06.2018– Режим доступу : https://dss-bi.blogspot.com


Коментарі

ТОП-5 за весь час

Про критерії швидкого вилучення статей у Вікіпедії та зв`язані сторінки

OSINT (воєнна розвідка відкритих джерел) в екосистемі зв`язаних термінів

Вимоги Google до контенту веб-сайтів, перевірені у процесі їх розробки

DSS BI 2.0 & big data strategy (оновлено)

Інженер по знанням, інженерія знань, штучний інтелект - у першому в СРСР словнику зі штучного інтелекту