Центр сопряженного мониторинга окружающей среды и природных ресурсов
«Мониторинг. Наука и технологии» Рецензируемый и реферируемый научно-технический журнал
Меню раздела «МНТ»
ГЛАВНАЯ
цели и задачи
Перечень ВАК
ВЫПУСКИ
2024
2023
2022
2021
2020
2019
2018
выпуск №1
выпуск №2
статья #01
статья #02
статья #03
статья #04
статья #05
статья #06
статья #07
статья #08
статья #09
статья #10
статья #11
статья #12
статья #13
статья #14
статья #15
статья #16
статья #17
статья #18
статья #19
статья #20
выпуск №3
выпуск №4
выпуск №5
2017
2016
2015
2014
2013
2012
2011
2010
2009
все выпуски
АВТОРАМ
этика
порядок рецензирования
правила для авторов
ПОДПИСКА
О ЖУРНАЛЕ
главный редактор
редакционный совет
редакционная коллегия
документы
свидетельство
issn
ENG
Меню разделов
ГЛАВНАЯ
Раздел: «ЦЕНТР»
Раздел: «МНТ»
Раздел: «СБОРНИК»
Раздел: «MST»

Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Косинов А.В.
Технологии больших данных в работе с данными по свойствам веществ и материалов
Big data technologies in the management of data on substances and materials properties
УДК:
004.65; 025.4
Аннотация:
Предложен новый подход к проблеме интеграции разнородных данных по свойствам веществ и материалов. Потребность в решении этой проблемы связана с существенными различиями в структуре, форматах и семантике данных, собранных во множестве электронных ресурсов, подготовленных в разных научных коллективах. Ключевым элементом предложенного подхода является обращение к технологиям больших данных, изначально ориентированных на работу со множеством неоднородных источников. Предварительные стадии рабочего процесса включают конверсию произвольных источников к стандарту в виде текстового файла в JSON-формате, и связывание включенных в него терминов с классами онтологии (или словаря) для семантической интеграции. Подобная процедура обеспечивает требуемую интеграцию и возможность модификаций структуры данных по мере возникновения новых объектов. Последующие стадии хранения и обработки запросов возлагаются на платформу больших данных Apache Spark, которая обеспечивает различные режимы поиска и навигации по классам онтологии.
Ключевые
слова:
большие данные, база данных, онтология, интеграция данных, структурированные данные, полуструктурированные данные
Abstracts:
A new approach is proposed to the problem of integrating the heterogeneous data on the properties of substances and materials. The essence of the integration process is to overcome the barriers caused by the significant differences in the structure, formats and semantics of data collected in a variety of electronic resources prepared in different scientific teams. A key element of the proposed approach is turning to Big Data technologies, initially oriented to variety of heterogeneous sources management. The preliminary workflow stages include converting arbitrary sources to a standard as a text file in JSON format, and linking the included terms to ontology (or dictionary) classes for semantic integration. This procedure provides the required integration and the ability to modify the data structure as new objects are created. The subsequent stages of storing and processing requests are entrusted to the Big Data platform Apache Spark, which provides various modes of searching and navigating by classes of ontology.
Keywords:
big data, database, ontology, data integration, structured data, semistructured data

Текст статьи Текст статьи
628,5 кБ
Скачать

вернуться к списку статей

Авторы статьи:
ЕРКИМБАЕВ
Адильбек Омирбекович
кандидат технических наук, заведующий лабораторией теплофизических баз данных, Объединенный институт высоких температур РАН
ЗИЦЕРМАН
Владимир Юрьевич
vz1941@mail.ru
кандидат физико-математических наук, ведущий научный сотрудник лаборатории теплофизических баз данных, Объединенный институт высоких температур РАН
КОБЗЕВ
Георгий Анатольевич
доктор физико-математических наук, профессор, главный научный сотрудник - советник Научно-исследовательского центра электрофизики и тепловых процессов, Объединенный институт высоких температур РАН
КОСИНОВ
Андрей Владимирович
инженер-программист лаборатории теплофизических баз данных, Объединенный институт высоких температур РАН
Список литературы:
1.
В.Майер-Шенбергер, К.Кукьер. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. Пер. с англ. М.: Манн, Иванов и Фербер, 2014. 240 с.
2.
Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А. Интенсивное использование цифровых данных в современном естествознании. Научно-техническая информация. Серия 2. 2017. №9. С. 9-22.
3.
Agrawal A., Choudhary A. Perspective: Materials informatics and big data: Realization of the «fourth paradigm» of science in materials science// APL Materials. 2016. V. 4. Art# 053208.
4.
Киселева Н.Н. Информационная инфраструктура современного материаловедения - проекты и результаты // Энергия: экономика, техника, экология. 2017. №7. С. 2-14.
5.
Abbas J. Structures for Organizing Knowledge: Exploring Taxonomies, Ontologies, and Other Schemas. 1st edition. New York: Neal-Schuman Publishers, Inc. 2010. 249 p.
6.
Doerr M. «Ontologies», DCC Digital Curation Manual, S.Ross, M.Day (eds). 2008. URL: http://www.dcc.ac.uk/resource/curation-manual/chapters/ontologies.
7.
Зицерман В.Ю, Кобзев Г.А., Фокин Л.Р. Возможности и перспективы информационных технологий в подготовке и распространении справочных данных: свойства веществ и материалов // Научно-техническая информация. Серия 1. 2004. №2. С. 7-14.
8.
Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Логическая структура физико-химических данных. Проблемы стандартизации и обмена численными данными // Журнал физической химии. 2008. Т. 82. №1. С. 20-31.
9.
Бартунов О., Велихов П. Научные вызовы технологиям СУБД // Суперкомпьютеры. 2011. №5(15). C. 28-31.
10.
The JSON Data Interchange Format. Standard ECMA-404. 1th edition/ October 2013. URL: www.ecma-international.org/publications/files/ECMA-ST/ECMA-404.pdf
11.
Карау Х., Конвински Э., Венделл П., Захария М. Изучаем Spark: молниеносный анализ данных. Пер.с англ. М.: ДМК Пресс. 2015. 304 с.
12.
Frenkel M., Chirico R.D., Diky V.V., et al. XML-based IUPAC Standard for experimental, predicted, and critically evaluated thermodynamic property data storage and capture ThermoML: IUPAC recommendations 2006// Pure and Applied Chemistry. V. 78. Pp. 541-612.
13.
Brown I.D., McMahon B. The Crystallographic Information File (CIF). Data Science Journal. 2006. V. 5. Pp. 174-177.
14.
Chemical Table Files (Wikipedia). URL: https://en.wikipedia.org/wiki/Chemical_table_file
15.
Hill J., Mulholland G., Persson K., et al. Materials science with large-scale data and informatics: Unlocking new opportunities //MRS Bulletin. 2016. V. 41. No. 5. Pp. 399-409.
16.
Когаловский М.Р. Системы доступа к данным, основанные на онтологиях // Программирование. 2012. №4. С. 55-77.
17.
Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Косинов А.В. Онтологии и базы данных - взаимная дополнительность при использовании научных данных // Мониторинг. Наука и технологии. 2015. №3. C. 41-50.
18.
Uschold M., Gruninger M. Ontologies: principles, methods and applications // Knowledge Engineering Review. 1996. V. 11. No. 2. Pp. 93-136.
19.
De Keyser P. Indexing: From Thesauri to the Semantic Web. UK: Woodhead Publishing Ltd. UK: 2012. 243 p.
20.
Erkimbaev A.O., Zitserman V.Yu., Kobzev G.A., Kosinov A.V. Standardization of Storage and Retrieval of Semi-structured Thermophysical Data in JSON-documents Associated with the Ontology. Аналитика и управление данными в областях с интенсивным использованием данных, Сборник научных трудов XIX Международной конференции DAMDID / RCDL'2017, 10-13 октября 2017 г. г. Москва, МГУ, Россия.
21.
Ontobee: A linked data server designed for ontologies. URL: www.ontobee.org
22.
Серебряков В.А., Теймуразов К.Б., Хайруллин Р.И., Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Трахтенгерц М.С. Практическая реализация системы интеграции теплофизических данных на основе онтологической модели предметной области. Инфраструктура научных информационных ресурсов и систем. Труды Четвертого Всероссийского симпозиума (С.-Петербург. 6-8 октября 2014 г.). Под ред. Е.В. Кудашева, В.А. Серебрякова. В 2- тт., Т.1. С. 87-111. М: ВЦ РАН.
23.
ChemSpider. Search and share chemistry. URL: www.chemspider.com
24.
Welсom to ApacheTM Hadoop®! https://hadoop.apache.org/
25.
Michel K., Meredig B. Beyond bulk single crystals: A data format for all materials structure-property-processing relationships. MRS Bulletin. 2016. V. 41. No. 8. Pp. 617-623.
26.
Zhang X., Zhao C., Wang W. A survey on knowledge representation in materials science and engineering: An ontological perspective. Computers in Industry. 2015. V. 73. Pp. 8-22.
27.
Rajan K. Materials Informatics: The Materials «Gene» and Big Data. Annu. Rev. Mater. Res. 2015. V. 45. Pp. 153-169.
28.
Hall S.R., McMahon B. The Implementation and Evolution of STAR/CIF Ontologies: Interoperability and Preservation of Structured Data. Data Science Journal. 2016. V. 15. No. 3. Pp. 1-15.
29.
Karma. A Data Integration Tool. URL: http://usc-isi-i2.github.io/karma/
30.
Knoblock C.A., Szekely P. Exploiting Semantics for Big Data Integration. AI Magazine - Association for the Advancement of Artificial Intelligence. 2015. Pp. 25-38.
 
МНТ Выпуски 2018 Выпуск №2 Статья #10
© ООО «ЦСМОСиПР», 2024
Все права защищены
  +7(926) 067-59-67
  +7(928) 962-32-60