Идентификация виноматериалов с защищенным наименованием места происхождения с применением кластерного анализа

Резюме

Производство продуктов с защищенным наименованием места происхождения (ПЗП) предполагает использование определенного сырья (сорт, органолептические и физико-химические характеристики и т.д), что может быть подтверждено соответствующими испытаниями. В связи с этим актуально обоснование принципов выбора идентификационных критериев, позволяющих определять и подтверждать происхождение отечественных вин с защищенным наименованием места происхождения.

Цель работы - разработка робастного дифференцирующего критерия, позволяющего определять подлинность и происхождение виноматериалов относительно эталона.

Материал и методы. Авторами представлена кластеризационная методика, позволяющая на основе результатов испытаний и разработанных цифровых критериев идентификации подтверждать происхождение виноматериалов Краснодара и Ростова-на-Дону. В качестве критерия использованы данные анализа микро- и макроэлементного состава виноматериалов этих регионов.

Результаты. В статье постулируется: основная задача кластеризации; пути решения с позиций пищевой промышленности с использованием регрессионной модели пищевого продукта; информация по основным кластеризационным метрикам; области применения в зависимости от подхода к идентификации ПЗП. По результатам анализа содержания 21 минерального вещества (10 в мкг/л и 11 в мг/л) была построена регрессионная модель виноматериала. На основе модели были определены кластерные центры. Результирующая модель позволяет разделить два указанных винодельческих региона и сформировать пространственный цифровой дискриминационный критерий, основанный на близости к одному из установленных кластерных центров.

Заключение. Предлагаемая модель может быть адаптирована для идентификации продукции различных отраслей пищевой промышленности.

Ключевые слова:пищевой продукт с указанием географического места происхождения, идентификация, цифровой идентификационный критерий, кластеризация, диаграмма Вороного, регрессионная модель

Финансирование. Работа выполнена в рамках государственного задания ВНИИПБиВП - филиала "ФНЦ пищевых систем им. В.М. Горбатова" РАН.

Конфликт интересов. Авторы декларируют отсутствие конфликтов интересов.

Для цитирования: Семипятный В.К., Хуршудян С.А., Галстян А.Г. Идентификация виноматериалов с защищенным наименованием места происхождения с применением кластерного анализа // Вопросы питания. 2020. Т. 89, № 5. С. 119-126. DOI: https://www.doi.org/10.24411/0042-8833-2020-10072

Вопросы демографии и качества жизни населения непосредственно связаны с питанием. Согласно Стратегии повышения качества пищевой продукции в Российской Федерации до 2030 г., в рационе современного человека все больше внимания уделяется качеству пищевых продуктов. По положению ЕС № 1151/2012 Европейского парламента от 21 ноября 2012 г. пищевые продукты должны не только удовлетворять потребительским запросам, но и соответствовать по своему составу и свойствам современным требованиям нутрициологии. Несколько обособленно располагается группа продуктов с защищенным наименованием места происхождения (ПЗП), исторически свойственных той или иной местности. Качество данной группы продуктов предполагает наличие алгоритма аутентификации и контролируется ГОСТ Р 55242-2012 "Вина защищенных географических указаний и вина защищенных наименований места происхождения. Общие технические условия", а также соответствующими национальными центрами мониторинга [1]. История производства отдельных ПЗП насчитывает многие столетия, в ходе которых сформировались строгие требования к качеству продукта [2]. В ряде стран ПЗП отмечаются особыми знаками, например, вина и сыры отмечают знаками АОС (Франция), DOC (Испания, Италия), а в соответствии с новой классификацией европейских вин будут использовать знак АОР.

Подтверждение географического места происхождения является сложной задачей идентификации, требующей проведения длительных комплексных аналитических измерений. В связи с вступлением в России в силу (с 27 июля 2020 г.) Закона № 230-ФЗ "О внесении изменений в часть четвертую Гражданского кодекса Российской Федерации и статьи 1 и 23.1 Федерального закона "О государственном регулировании производства и оборота этилового спирта, алкогольной и спиртосодержащей продукции и об ограничении потребления (распития) алкогольной продукции", который закрепляет новый подход индивидуализации продуктов - географическое происхождение, следует ожидать резкого увеличения числа ПЗП и опосредованного применения новых методов и алгоритмом комплексной оценки.

Проблема определения принадлежности пищевого продукта к конкретным группам [3-5], в том числе ПЗП, приобретает особую актуальность, учитывая тенденцию расширения их ассортимента. В настоящее время идентификационные критерии продуктов ПЗП устанавливаются без соответствующего математического обоснования, часто на основе лишь экспертного мнения. Такие критерии, внедренные в правовое поле, не обеспечивают должного барьера для исключения фальсификации.

Пищевые продукты являются многокомпонентными, имеют сложную матрицу состава, подтверждение которой используется для идентификации продукта [6, 7]. Известные методы идентификации [8] в ряде случаев не позволяют однозначно подтверждать происхождение ПЗП, а органолептическая оценка продукта часто осложняется наличием сложных концентрационных связей компонентов продукта [9].

Решение возникшей задачи определения характеристик продуктов с указанием географического происхождения возможно с использованием кластерной метрики. Целью работы было продемонстрировать принципы реализации предложенного метода на примере двух соседних винодельческих регионов России.

Материал и методы

В основу предлагаемого метода положено построение дискриминантного критерия - определение функции, которая принимает в качестве аргументов экспериментальные данные по образцам продукта, а на выходе определяет принадлежность этих образцов некоторым определенным ранее кластерам.

Предположим, что имеется n исследуемых образцов продукции и к измеримых критериев, по которым возможно экспериментально получить данные по каждому образцу. По этим данным строятся m кластеров - групп образцов продукции, каждая из которых объединена некоторыми критериями. Критерии, характерные для конкретных ПЗП, служат основой кластеризации [10].

Формальная задача кластеризации. Основная оптимизационная задача [11], решаемая в рамках кластеризации, имеет вид:

- xi (i=1-n) - векторы в Rk (k - количество критериев), соответствующие конкретным образцам пищевых продуктов. В дальнейшем будем называть их характеристическими векторами;

- cj (j=1-m) - выбранные кластерные центры, также являющиеся векторами в Rk;

- c (c1,-,cm) - обобщенный вектор кластерных центров.

В дальнейшем будем называть его конфигурацией;

- D (·,·) - функция расстояния между точками пространства Rk.

Формула (1) означает, что осуществляется поиск такой конфигурации кластерных центров, которая минимизирует суммарное расстояние точек образцов до соответствующих им ближайших кластерных центров.

Функция расстояния (также называемая дискриминирующей функцией) D (-,-) может быть произвольной [12], отвечающей задачам дискриминации в отдельно взятых отраслях пищевой промышленности, если она будет соответствовать определенным условиям [13].

Кластеризационные метрики. Наиболее употребительными функциями дифференциации, имеющими прикладное значение для пищевой промышленности, являются классическое Евклидово расстояние, манхэттенское расстояние и расстояние по косинусу [14-16]. Наиболее предпочтительно из них Евклидово расстояние. Манхэттенское расстояние более предпочтительным, если стоит задача кластеризации по дискретным данным (например, экспертным балльным оценкам). Расстояние по косинусу используется, когда имеется асимметричность данных - в случаях, когда вклад одного значения компонента превалирует над другим. Например, в задачах мониторинга качества и управления рисками гораздо большим весом обладает информация о том, что компонент выбивается из нормативных значений, чем та, что компонент находится в пределах нормы.

Регрессионная модель пищевого продукта. Когда количество исследуемых критериев продукта к >3, невозможна визуальная оценка построенных кластеров и дискриминантных критериев продукции, что существенно усложняет объяснение их физического смысла. Для решения этой проблемы можно прибегнуть к построению регрессионной модели пищевого продукта. В этом случае следует использовать классическую задачу поиска линейной функции:

y = a0 + a1 x1 + a2 x2 + ... + ak xk, (2)

где (x1.....xk) - значения измеримых критериев для не которого образца продукта, и модифицируем ее следующим образом:

- ŷ (ci)=i. Образцы, соответствующие i-му кластеру будут иметь наблюдаемое значение, равное номеру этого кластера;

- для получения дискриминантного критерия на плоскости необходимо разделить регрессионное уравнение на две части:

Полученные коэффициенты (b0,a0,a1,-,ak) будут разделять образцы по установленным кластерам. При построении финального дискриминантного критерия будет использоваться не k-мерный вектор (x1,x2,-,xk), а функционально зависимый от него двумерный вектор (y1,y2).

Таким образом, снижается размерность пространства для получения более прикладных идентификационных критериев.

Приводимые в работе расчеты основаны на оперировании данными по минеральному составу [17] для виноматериалов из Краснодара и из Ростова-на-Дону, полученных методом масс-спектрометрии с индуктивно-связанной плазмой (средние значения и стандартное отклонение представлено в табл. 1 и 2). Полные таблицы с данными доступны по ссылке https://wolfr.am/MDuYglTl. Для элементов B, Na, Mg, Al, Si, P, Mn, Zn, Rb, Sr (далее - макроэлементы) содержание дается в мг/л (см. табл. 1), для Li, Ti, V, Cr, Co, Ni, Zr, Mo, Sn, Ba, Cs (далее - микроэлементы) в мкг/л (см. табл. 2).

Таблица. 1. Минеральный (условно макроэлементный) состав (мг/л) образцов виноматериалов

Table 1. The content of mineral elements (in mg/l) in wine material samples

П р и м е ч а н и е. Здесь и в табл. 2: х - среднее значение; σ -стандартное отклонение.

N o t e. Here and in Table 2: x - average value; σ - standard deviation.

Таблица. 2. Микроэлементный состав (мкг/л) образцов виноматериалов

Table 2. The content of trace elements (in mcg/l) in wine material samples

Результаты и обсуждение

Модель кластеризации была рассмотрена на примере идентификации виноматериалов. Для построения полноценных цифровых критериев идентификации требуется наличие соответствующих методов получения данных, связывающих почвенно-климатические факторы и особые характеристики местности произрастания сырья и произведенной из него продукции. Для виноматериала такими методиками являются, например, определение микро- и макроэлементного состава продукта, изотопный анализ, а также активно развивающееся направление ДНК-аутентификации [18].

Методики определения микро- и макроэлементного состава отлично себя зарекомендовали [19, 20] при проведении кластеризационного анализа с получением дискриминирующего критерия в случае определения географического происхождения виноматериала на основе фиксированного количества известных образцов.

Валидность подхода подтверждает тот факт, что виноград экстрагирует из почвы содержащиеся в ней элементы, которые затем переходят в виноматериал [21-23]. При этом установить точную функцию перехода элементов в продукт не представляется возможным, а использование статистической зависимости между почвенным и винным составами также представляется затруднительным, так как требует исследования минерального состава почв для всевозможных территорий произрастания винограда [24, 25].

Эти проблемы можно обойти, опираясь на предположение о том, что элементные составы виноматериалов различного географического происхождения должны различаться. Используя данные по макро- и микроэлементному составу достаточного количества образцов, представляющих определенные регионы виноделия (отсюда указанное выше ограничение на количество дискриминируемых территорий), можно построить классифицирующий критерий продукции среди данных регионов.

Применим данную модель для построения дискриминирующего критерия, позволяющего установить географическое наименование места происхождения виноматериала, ограничив возможные варианты двумя винодельческими регионами - Краснодарским краем (долина Кубани) и Ростовской областью (долина Дона).

Для определения значимых для дискриминационного анализа элементов воспользуемся корреляционным анализом. На рис. 1 представлены соответствующие коррелограммы для условно обозначенных макро-и микроэлементов. Статистически значимой линейной зависимостью обладают пары элементов: (Sr, Mg) для макроэлементов и (Co, Cr), (Co, V) для микроэлементов. Полученные зависимости характерны именно для исследуемой пары регионов. Также возможно построить коррелограмму для отдельного региона, и она будет служить идентификационным профилем для виноматериалов данной местности.

Рис. 1. Коррелограммы, визуализирующие абсолютные значения коэффициента корреляции Пирсона для макроэлементов (А) и микроэлементов (Б)

Fig. 1. Correlograms depicting absolute values of Pearson correlation coefficient for mineral elements (A) and trace elements (B)

Основная задача - сократить размерность. Для этого можно воспользоваться регрессионной моделью пищевого продукта, которую в данном случае удобно разбить на две компоненты: по микро- и по макроэлементам. Результирующие дискриминирующие регрессионные уравнения имеют следующий вид:

В формуле (4) названиями элементов обозначены соответствующие им содержания в виноматериале. Применение формул к имеющимся образцам образует график, показанный на рис. 2, там же дана диаграмма Вороного для двух кластеров, которая представляет собой две полуплоскости, разделенные прямой, равноудаленной от кластерных центров.

Рис. 2. Результат построения регрессионных моделей продуктов и соответствующая диаграмма Вороного

По осям - приведенные безразмерные значения для макро- и микроэлементов, полученные после применения формул (4) для образцов виноматериалов.

Fig. 2. The result of building regression models of products and the corresponding Voronoi diagram

Along the axes - reduced dimensionless values for mineral and trace elements obtained after applying formulas (4) for samples of wine materials.

В данном случае задача кластеризации существенно упрощается тем фактом, что кластеры заранее известны. Однако после нормализации данных и регрессионного анализа следует подтвердить, что кластеры хорошо выделяются алгоритмом и для подобранных регрессионных уравнений отсутствуют пограничные значения для образцов. В нашем случае кластеры и визуально, и алгоритмически разделяются, что позволяет сделать вывод о приемлемом качестве использованных уравнений.

Кластерным центром для краснодарских виноматериалов является точка ск=(0,8582,0,8541), для Ростова-на-Дону - сr=(0,0412,0,1540). Дискриминационным критерием является близость по расстоянию к одному из кластерных центров исследуемого образца.

Пример легко обобщается на случай m >2 географических наименований.

Для построения уточненного критерия, учитывающего характер разброса данных, вычислим для каждого кластера выборочную ковариационную матрицу Sd={sijd}, где d обозначает соответствующий кластер (Краснодар или Ростов-на-Дону):

где xd - образцы в кластере; nd - их количество.

Теперь для идентификации нового образца хn мы можем рассчитать расстояние Махаланобиса D (xn)до каждого из кластерных центров:



Минимальное значение (6) будет обозначать принадлежность образца тому или иному кластеру. На рис. 3 проиллюстрирована функция D (xn), обозначающая минимум из двух расстояний. Наличие эксцентриситета доверительного эллипсоида для Краснодарского кластера смещает дискриминирующую кривую в сторону Ростова-на-Дону в сравнении с диаграммой Вороного на рис. 2.

Рис. 3. Визуализация кластерного разбиения двух регионов виноделия с помощью построения функции D (xn) = min (D (xn),D (xn)), где K - Краснодарский кластер, R - кластер Ростова-на-Дону. Белые линии - дискриминирующие кривые, для которых выполнено D (xn)=D (xn)

Fig. 3. Cluster partitioning visualization of two wine regions using function: D (xn) = min (D (xn),D (xn)), where K - Krasnodar cluster, R - Rostov-on-Don cluster. White lines represent discriminating curves for which equality D (xn)=D (xn) holds

В случае если возникнет необходимость углубить анализ, например, дискриминировать аналогичным образом красные и белые вина внутри винодельческого региона, потребуется применение дополнительных методик идентификации, например анализ данных об изотопных характеристиках образцов, в частности, отношения содержания дейтерия, углерода-13 и водорода-18.

Заключение

На примере определения географического происхождения виноматериала продемонстрирована методика применения математического аппарата кластеризационного анализа для построения цифровых критериев разделения групп различных пищевых продуктов. Методика основана на обработке эмпирических данных образцов. Это позволяет использовать единый алгоритм, включающий сокращение факторной размерности при рассмотрении регрессионной модели продукта и построении разделяющей диаграммы Вороного для установленных кластеров продуктов, объединенных единым признаком, для решения имеющихся дискриминационных и идентификационных задач пищевой промышленности. Дополнительная информация в области применения различных функций расстояния и количественного выбора кластерной конфигурации позволяет настраивать представленный алгоритм в зависимости от типа данных о пищевом продукте, для которого строится дискриминационный критерий. Построенная для винодельческих регионов Краснодара и Ростова-на-Дону дискриминирующая модель показывает возможность получения идентификационных критериев, позволяющих определять географическое наименование происхождения виноматериала, при этом данная методика может быть адаптирована под идентификационные задачи различных отраслей пищевой промышленности при наработке эталонов продуктов с защищенным наименованием места происхождения, что существенно при обеспечении высокого качества пищевых продуктов в рационе населения.

Литература

1. Хуршудян С.А., Галстян А.Г. Качество пищевых продуктов. Термины, определения и противоречия // Контроль качества продукции. 2018. № 1. С. 48-49.

2. Хуршудян С.А., Зайчик Ц.Р. История производства пищевых продуктов и развития пищевой промышленности России. Москва : ДеЛи принт. 2009. 286 с.

3. Gupta R.K., Dudeja P., Minhas S. Food Safety in the 21st Century: Public Health Perspective. Academic Press, 2016. ISBN 978-0-12-801773-9. DOI: https://doi.org/10.1016/C2014-0-01094-5

4. Тутельян В.А., Вялков А.И., Разумов А.Н., Михайлов В.И., Москаленко К.А., Одинец А.Г. и др. Научные основы здорового питания. Москва : Панорама, 2010. 816 с.

5. Хуршудян С.А., Рябова А.Е., Вафин Р.Р., Семипятный В.К., Михайлова И.Ю. Мониторинг качества молочных продуктов // Молочная промышленность. 2018. № 11. С. 23-24.

6. Семипятный В.К., Рябова А.Е., Егорова О.С., Вафин Р.Р. Оптимизация экспериментального моделирования новых рецептур напитков методами математической статистики // Пиво и напитки. 2018. № 3. С. 48-51.

7. Petrov A.N., Galstyan A.G., Radaeva I.A., Turovskaya S.N., Illarionova E.E., Semipyatniy V.K. et al. Indicators of canned milk quality: Russian and international priorities // Foods Raw Mater. 2017. Vol. 5, N 2. P. 151-161.

8. Эрл М., Эрл. Р. Разработка пищевых продуктов. Санкт Петербург : Профессия, 2004. 384 с. ISBN 978-1-84569-260-5.

9. Oganesyants L.A., Khurshudyan S.A., Galstyan A.G., Semipyatny V.K., Ryabova A.E., Vafin R.R. et al. Base matrices - invariant digital identifiers of food products // News of the National Academy of Sciences of the Republic of Kazakhstan. Series of Geology and Technical Sciences. 2018. Vol. 6, N 432. P. 6-15. DOI: https://doi.org/10.32014/2018.2518-170X.30

10. Hilbe J.M. Logistic Regression Models. Chapman and Hall/CRC Press, 2009. ISBN 9781138106710.

11. Hardle W., Simar L. Applied Multivariate Statistical Analysis. Berlin, Heidelberg : Springer, 2007. ISBN: 978-3642172281.

12. Rimareva L.V., Sokolova E.N., Serba E.M., Borshchevà Y.A., Kurbatova E.I., Krivova A.Y. Reduced allergenicity of foods of plant nature by method of enzymatic hydrolysis // Orient. J. Chem. 2017. Vol. 33, N 4. P. 2009-2015. DOI: https://doi.org/10.13005/ojc/330448

13. Pfitzner D., Leibbrandt R., Powers D. Characterization and evaluation of similarity measures for pairs of clusterings // Knowl. Inf. Syst. 2009. Vol. 19. P. 361-394. DOI: https://doi.org/10.1007/s10115-008-0150-6

14. Perriere G., Thioulouse J. Use of correspondence discriminant analysis to predict the subcellular location of bacterial proteins // Comput. Methods Programs Biomed. 2003. Vol. 70, N 2. P. 99-105. DOI: https://doi.org/10.1016/s0169-2607(02)00011-1

15. Ortea I., Gallardo J.M. Investigation of production method, geographical origin and species authentication in commercially relevant shrimps using stable isotope ratio and/or multi-element analyses combined with chemometrics: an exploratory analysis // Food Chem. 2015. Vol. 170, N 1. P. 145-153.

16. Kawaguchi F., Kitamura Y., Nakajima R., Takahashi M., Goto H., Washida Y. et al. Application of DNA markers for discrimination between Japanese and Australian Wagyu beef // Anim. Sci. J. 2018. Vol. 89, N 1. P. 257-258.

17. Точилина Р.П., Гончарова С.А., Хорошева Е.В., Семипятный В.К. Особенности минерального состава донских вин и виноматериалов как идентификационный показатель места происхождения // Виноделие и виноградарство. 2016. № 3. С. 14-17.

18. Donnik I.M., Vafin R.R., Galstyan A.G. et al. Genetic identification of bovine leukaemia virus // Foods Raw Mater. 2018. Vol. 6, N 2. P. 314-324. DOI: DOI: http://doi.org/10.21603/2308-4057-2018-2-314-324

19. Brzezicha-Cirocka J., Grembecka M., Szefer P. Monitoring of essential and heavy metals in green tea from different geographical origins // Environ. Monit. Assess. 2016. Vol. 188, N 3. P. 1-11.

20. Oganesyants L.A., Panasyuk A.L., Kuzmina E.I. et al. Definition of authenticity of grape wines by means of isotropic mass spectrometry // Food Proccessing Ind. 2011. Vol. 9. P. 30-31.

21. Conde J.E. Charactererization of bottled wines from the Tenerife island (Spain) by their metal ion concentration // Ital. G. Food Sci. 2002. Vol. 14, N 4. Р. 375-387.

22. Perez Trujillo J.P. Content of mineral ions in wines from Canary Islands (Spain) // CyTA J. Food. 2011. Vol. 9, N 2. Р. 135-140.

23. Martin G.J., Mazure M., Jouitteau C. et al. Characterization of the geographic origin of Bourdeaux wines by a combined use of isotopic and trace element measurements // Am. J. Enol. Vitic. 1999. Vol. 50. P. 409-417.

24. Marcos J.J., Alcazar A., Palacios-Morillo A., Pablos F. Classification of Spanish wines white DO according to their elemental composition using methods support vector machine // Food Chem. 2012. Vol. 135, N 3. P. 898-903.

25. Dutra S.V., Adami L., Marson A.R. A definição da origem geográfica de vinhos brasileiros de análise de isotópica e mineral composição // Anal. Bioanal. Chem. 2011. Vol. 401, N 5. P. 1575-1580.

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

SCImago Journal & Country Rank
Scopus CiteScore
ГЛАВНЫЙ РЕДАКТОР
ГЛАВНЫЙ РЕДАКТОР
Тутельян Виктор Александрович
Академик РАН, доктор медицинских наук, профессор, научный руководитель ФГБУН «ФИЦ питания и биотехнологии»

Журналы «ГЭОТАР-Медиа»