齐鲁工业大学学报   2023, Vol. 37 Issue (2): 74-80
0
模式识别方法在酒行业中的应用研究进展[PDF全文]
韩云翠1,2, 王冠霖3, 吕志远2, 刘玉涛2, 张梦梦2, 卢春玲2, 邱振清2, 汪俊卿1     
1. 齐鲁工业大学(山东省科学院)生物工程学院, 山东 济南 250353;
2. 济南趵突泉酿酒有限责任公司, 山东 济南 250115;
3. 北京航空航天大学 计算机学院, 北京 100191
摘要:随着信息化及智能化制造的普及, 酿酒行业面临海量数据的采集和统计需求, 依托于大数据系统和快速检测方法的各种模式识别方法建模在酒行业中的应用越来越广泛。总结了偏最小二乘法、主成分分析法、人工神经网络法、支持向量机及其他模式识别方法在酒行业中理化检测、质量等级分类、品牌鉴别、酒龄鉴定、产地溯源、智能摘酒等方面的应用研究成果。此外, 还对不同方法间组合使用建模进行了说明, 旨在为酒类酿造过程中产生的模糊数据建模、分析和应用提供思路。
关键词模式识别    偏最小二乘法    主成分分析法    人工神经网络法    支持向量机    
Research progress on application of pattern recognition method in Baijiu industry
HAN Yuncui1,2, WANG Guanlin3, Lü Zhiyuan2, LIU Yutao2, ZHANG Mengmeng2, LU Chunling2, QIU Zhenqing2, WANG Junqing1     
1. School of Bioengineering, Qilu University of Technology(Shandong Academy of sciences), Jinan 250353, China;
2. Jinan Baotuquan Brewery Co., Ltd. Jinan 250115, China;
3. Computer Science Institute, Beijing University of Aeronautics and Astronautics, Beijing 100191, China
Abstract: With the popularization of informationization and intelligent manufacturing, the wine industry is faced with the collection and statistical demand of massive data.Various pattern recognition methods based on big data system and fast detection methods are widely used in the wine industry.The application research achievements of partial least squares method, principal component analysis method, artificial neural network method, support vector machine and other pattern recognition methods in some aspects such as physical and chemical detection, quality classification, brand identification, wine age identification, origin tracing, intelligent wine picking and so on were summarized in this paper.In addition, the modeling of the combined use of different methods was explained, aiming to provide ideas for the modeling, analysis and application of fuzzy data generated in the process of wine brewing.
Key words: pattern recognition    partial least square method    principal component analysis    artificial neural network    support vector machine    

随着大数据和人工智能的兴起, 酒行业正在经历数字化智能管理的变革, 一系列智能酿造机、智能摘酒机、智能勾兑系统、供应链与产品数字化智能管理平台正在推动酒业全产业链的转型升级。设备与平台的使用需依托数据的处理分析, 而模式识别方法建模是数据分析与应用的核心。模式识别是通过区分样本的不同特征来划分样本的一种计算机机器学习方法, 模式识别方法的迅速普及归功于计算机强大的学习和分类能力[1], 模式是指样本所处环境与客体, 模式的自动处理和判读是通过计算机用数学技术方法来实现的。识别问题[2]是一个分类任务, 类可以由领域专家定义(监督学习)或根据模式的相似性学习(无监督分类)。分类对象由多维属性向量表示, 利用决策边界对这些向量所跨越的空间进行细分。模式识别建模过程是将训练样本或例子进行归纳, 根据经验判断, 输出一个目标函数, 使系统能够准确的预测未知数据或对给定数据做出判别, 以实现建模目的[3]。经验以训练数据集的形式存在, 它有助于在新的和看不见的任务上获得准确的结果。训练数据集包含一个现有问题领域, 学习者使用该领域数据建立一个通用模型, 该模型能在新数据中产生基本准确的预测[4]

传统酒业, 尤其是白酒发酵和摘酒方面, 主要依靠工人师傅的经验, 缺少统一的评判标准, 使白酒酿造过程[5-6]无法量化, 质量参差不齐, 制约了酒行业的发展。将利用模式识别方法建立的模型应用到酿造机器的控制系统, 实现机器设备对重要工艺参数的准确判断是关键。本文总结了模式识别方法的类别与特点及其在酒行业中的应用, 以对使用模式识别方法建模来解决酒行业中遇到的问题提供参考。

1 模式识别方法建模一般过程

模式识别方法应用的关键是获取准确的分析数据和找到合适的判定标准。通过将仪器测量的理化数据作为输入单元, 将应用的系统判断作为教师数据, 使用选定的模式识别方法进行学习训练, 达到目标应用的结果。模式识别算法开发过程包括数据的收集、数据的预处理、数据转换为模型可用的数据形式、测试集建立模式识别算法模型、测试集评估模型效果、应用模型等过程, 如图 1所示。

图 1 模式识别方法构建模型流程图

2 酒行业中模式识别方法特点与应用 2.1 偏最小二乘法

偏最小二乘法(partial least squares, PLS)是定量光谱分解技术, 其分解方式与主成分回归略有不同。主成分回归是先将光谱矩阵分解成一组特征向量和矩阵, 并将他们与浓度作为一个单独的步骤进行回归[7]。PLS是在分解过程中直接使用浓度信息, 它从自变量矩阵和因变量矩阵中提取偏最小二乘成分, 有效地降维, 并消除自变量间可能存在的复共线关系, 明显改善数据结果的可靠性和准确度[8], 是目前化学计量学中最有效的分析方法之一。因此, PLS常用于酒中成分检测方面, 吉鑫等[9]以核磁共振氢谱(1H NMR)技术为检测手段, 结合偏最小二乘回归算法, 建立了白酒中6种酸, 3种醛的PLS定量分析模型, 解决了白酒的核磁共振氢谱中各微量组分信号重叠, 无法定量的难点, 该模型范围误差比≥3.7, 相关系数R2为0.93~0.99, 预测偏差 < 0.7, 模型预测精度较高, 拟合效果较好, 为白酒真实性鉴别中1H NMR非目标指纹图谱技术的应用奠定了基础。此外, PLS与近红外、中红外光谱技术联合应用在酒中香味物质及白酒酒醅理化参数快速检测方面取得了很好的效果[10-14], 具体应用见表 1

表 1 偏最小二乘法应用一览表

2.2 主成分分析法

主成分分析法(principal component analysis, PCA)能在不损失或很少损失的情况下对变量间的相关性进行分析, 同时还可得到各主成分对结果的不同贡献比率。PCA可做数据降维处理, 将多个有相互关系或无相互关系的复杂变量重新组合, 形成一组新的相互间无关联的变量就是主成分, 降维简化后的数据间的互相干扰大大减少, 使分析变得简单明了[15]。降维能降低测试成本, 提高分类精度, 是保持模式维数尽可能小的关键[2]。在智能化食品感官分析中, PCA不仅可确定食品理化特征与感官特征的相关性, 还可降低计算机处理的数据维度[16], 是一种寻找与感官剖面数据相匹配的挥发物数量最小的技术[17]。唐维川等[18]检测了7个轮次酱香型基酒风味物质, 结果表明各轮次基酒中总酸含量随轮次数增加而减小, 总酯含量呈先上升后下降的趋势, 主成分分析结果表明正丙醇、乙酸乙酯和乙酸累计贡献率可达到89.30%, 酱香型白酒7个轮次基酒可以通过主成分分析法结合风味物质的差异性实现准确区别和评价。利用现代仪器分析检测手段结合PCA模式识别方法[18-23]在香型分类、真假酒鉴定、产地溯源、质量等级判断等方面的应用见表 2

表 2 主成分分析法应用一览表

2.3 人工神经网络

人工神经网络(artificial neural network, ANN)算法中的人工神经元模仿的是一些体系结构使用带有本地支持的函数端口, 在这个结构中传递函数是一个硬阈值, 一个神经元是否触发取决于它的净输入值[24]。ANN包括输入层、输出层和隐藏层, 隐藏层最佳层数与神经元最优个数是构建网络的关键问题, 设置隐藏层要合理, 层数太多容易导致过度拟合的问题;隐藏的神经元数量越少, 创建的子区域就越少, 网络就倾向于聚集点并将它们映射到相同的输出。每个神经元的输出是非线性变化, 分类时, 来自前一层加权输入形成的分离曲线, 与同一层的其他神经元一起定义最终的分类边界。当神经元数量较多时, 由于过度训练, 过拟合风险增加, 而广义性能下降。必须有足够的数据点进行训练, 以确保在每个隐藏层获得的分区正确地分离数据。在网络中, 包含了输入神经元, 输出神经元及L个隐含层, 训练学习问题被简化为寻找最优权值, 从而优化代数函数。ANN在监督学习的许多分类任务中表现良好, 但在无监督方式进行训练时比预训练阶段的表现要差[25]。人工神经网络包括反馈网络和前向网络, 反馈网络的各神经元间有反馈, 而前向网络由于各层间没有反馈, 只能由前一级推向下一级依靠简单非线性的函数多次复合来解决问题。反向传播人工神经网络(back propagation artificial neural network, BP-ANN)包括信号的前向传播和误差的反向传播两个过程, 网络实际输出值和期望输出值的误差均方差最小值是通过梯度搜索技术也就是梯度下降法实现的, 是目前使用最多的一种误差逆向传播算法训练的前馈神经网络[26]。另外, 卷积神经网络(convolutional neural network, CNN) 的开发解决了以复杂图像为输入数据的问题, 在该网络中, 由所有图像共享的卷积核连接了上下层神经元, 从而将图像引入神经网络系统中。在酒行业中, 神经网络模式识别算法的应用面广泛, Ce’sar Roma’n R.等[27]利用神经网络预测有问题的葡萄酒发酵, 研究了用点法和发酵法两种不同的数据输入方法, 通过改变预测变量总糖、酒精、甘油、密度、有机酸、氮化合物和发酵时间, 发现发酵数据输入的结果优于按点输入的结果, 总结出使用3个预测变量糖、密度、酒精在72 h的发酵数据就可100%预测正常发酵和异常发酵。目前, ANN在看花摘酒、成品酒勾兑、品牌鉴别、分析酒质变化影响因素等方面的应用[28-36]表 3

表 3 神经网络法应用一览表

2.4 支持向量机

支持向量机(support vector machine, SVM)是一种监督类型的学习方法, 用于识别分类与分析数据, 尤其是分类、回归和时间序列预测[37]。SVM利用两个非平行的超平面, 在最小化到一个类的距离的同时远离另一个类。SVM可用于解决线性或非线性分类问题, 这取决于解决问题所使用的核函数, 如果样本对于整个分类空间是线性可分的, 就可用线性核函数把样本明确地分成不同的类别[38], 允许有少数样本划分的模糊。当面临的问题是非线性时, 就可以使用多项式核函数、sigmoid核函数、RBF核函数等将二维平面不能线性划分的样本在更高维度空间里线性可分, 从而解决非线性分类问题。SVM在鉴定白酒年份、判断白酒质量等级、白酒自动化生产等方面都有应用研究[39-45], 具体结果见表 4。田万春等[42]为解决白酒自动化生产过程中准确率不高问题, 用SVM建模方法与红外成像仪联合, 直方图处理了酒醅表面的红外灰度图像, 构建的探汽模型准确率达到了了96%, 满足了生产工艺要求;李慧星等[46]将浓香型白酒挥发性香味物质与酒醅微生物数据信息结合, 建立二者间关系模型, 取得了应用技术创新成果, 为优化生产工艺做参考。

表 4 支持向量机应用一览表

2.5 其他模式识别方法与不同方法组合使用

除以上4种建模方法外, 还有K近邻法、聚类分析、遗传算法等模式识别算法, 这些模式识别算法在酒行业中单独使用较少, 一般与其他算法组合使用。K近邻法(KNN) 是一种简单有效的机器学习算法, 在特征向量空间中, 如果一个样本附近的K个最邻近样本属于某个类别, 则该样本也属于这一类别[47]。KNN不需要使用训练集进行训练, 训练时间复杂度为0, 但计算量较大, 需要对每一个待分类的样本计算他到所有已知样本的距离才可求得K个最近邻点。聚类分析的基础是应用无监督机器学习技术识别数据集中固有的模式[2], 将研究对象分成相对同质的几个类或簇, 主要应用于探索性研究。遗传算法通过编码将要求解的问题表示成遗传空间的染色体或个体, 对所优化参数进行二进制或多进制编码, 随机产生n个初始种群, 再由种群择优的目标方向确定种群适应度函数, 判断遗传算法的性能[48]

朱卫华等[49]研究发现三维荧光光谱与白酒年份有很好的相关性, 然后用量子遗传算法-小波神经网络构建了白酒年份预测模型, 提出光谱建模信息密度的概念。陈斌等[50]将相关系数法与遗传算法结合提高了红外光谱有效信息提取率, 提高了啤酒酒精度预测模型精度。变量间复杂的相互关系增加了机器学习的难度, 降低了建模效率, 只用一种模式识别方法建模的准确性达不到要求, 而多种方法组合使用会有更好的效果[51-54], 具体结果见表 5

表 5 不同模型算法间组合应用对比一览表

3 总结与展望

在利用信息化技术促进产业变革的背景下, 酒类酿造过程的信息化及智能化越来越普遍, 模式识别方法特有的模糊数据处理能力和事件关联能力能够将酿造工艺参数和酒类品质有效关联, 降低人力成本, 提高生产效率。目前, 大数据与近红外、中红外及现代色谱检测技术结合, 利用模式识别方法建立的模型模拟了酒中成分变化与发酵条件的关系, 实现了酒醅理化性质和酒中成分的快速检测, 判定了白酒质量等级, 追溯了酒龄与原产地, 实现了摘酒和勾兑过程智能化, 提高了检测效率、酒质量等级准确性和基酒使用效率, 为酒行业信息化及智能化发展提供了思路。应用模式识别方法建模是酒类智能化生产的内核, 如何利用模式识别方法建立符合实际生产应用的模型为酒类智能酿造提供技术支持是未来研究的重要方向。

参考文献
[1]
AUDI A, MANUEL F D, EVA C, et al. Quick extreme learning machine for lager scale classification[J]. Neural Computing and Applications, 2022, 52(14): 5923-5938.
[2]
LEONID S, ANA C, ILDAR B, et al. Application of pattern recognition techniques to hydrogeological modeling of mature oilfields[J]. Springer Verlag Berlin Heidelberg, 2011, 16(3): 85-94.
[3]
赵存秀. 基于混淆矩阵的分类器性能评价指标比较[J]. 电子技术与软件工程, 2020, 30(13): 146-147.
[4]
SUN Z, LI C, LI L. Study on feasibility of determination of glucosamine content of fermentation process using a micro NIR spectrometer[J]. Molecular and Biomolecular Spectroscopy, 2018, 23(8): 153-160.
[5]
GUANG Y J, YANG Z, YAN X. Mystery behind Chinese liquor fermentation[J]. Trends in Food Science & Technology, 2017, 10(7): 45-62.
[6]
LIU H L, SUN B G. Effect of fermentation processing on the flavor of Baijiu[J]. Journal of agricultural and food chemistry, 2018, 22(12): 136-145.
[7]
YACOUB Y R, AXMAN D. Probabilistic extension of precision, recall, and F1 score for more thorough evaluation of classification models[J]. Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems, 2020, 10(5): 79-91.
[8]
KARUNATHILAKA S R, YAKES B J, FARRIS S, et al. Quantitation of saccharin and cyclamate in tabletop formulations by portable raman and NIR spectrometers in combination with partial least squares regression[J]. Food Anal Methods, 2018, 35(3): 969-976.
[9]
吉鑫, 樊双喜, 李宜聪, 等. 白酒中有机酸和醛类的偏最小二乘回归法定量分析模型[J]. 食品与发酵工业, 2020, 46(4): 204-210.
[10]
李良, 董孝元, 吴昊, 等. 基于偏最小二乘法建立白酒酒醅近红外分析模型[J]. 酿酒, 2018, 45(3): 57-60. DOI:10.3969/j.issn.1002-8110.2018.03.020
[11]
康继, 顾小红, 汤坚, 等. 中红外反射光谱结合偏最小二乘法快速定量分析葡萄酒[J]. 光谱实验室, 2010, 27(3): 789-796. DOI:10.3969/j.issn.1004-8138.2010.03.001
[12]
YE M Q, YUE T L, YUAN Y H, et al. Application of FT-NIR spectroscopy to apple wine for rapid simultaneous determination of soluble solids content, pH, total acidity, and total ester content[J]. Food Bioprocess Technol, 2014, 41(7): 3055-3062.
[13]
魏泉增, 范江涛, 刘嘉玲, 等. 偏最小二乘方法在不同白酒香型判别分析中的应用[J]. 中国酿造, 2020, 39(10): 183-187. DOI:10.11882/j.issn.0254-5071.2020.10.034
[14]
宗绪岩, 李骥, 邹永芳, 等. 基于化学计量学的近红外光谱法检测白酒中酯含量研究[J]. 农产品加工, 2019(4): 53-55.
[15]
DJOUFACK N, LAURENT C, TCHIOTSOP D, et al. A comparison study of polynomial-based PCA, KPCA, LDA and GDA feature extraction methods for epileptic and eye states EEG signals detection using kernel machines[J]. Informatics in Medicine Unlocked, 2021, 26(5): 123-132.
[16]
杨应军, 高海燕, 赵镭, 等. 模式识别方法在食品智能化感官分析中的应用[J]. 食品科学, 2007, 31(10): 573-577.
[17]
WANG N, ZHOU Z M, CHEN S. Aging status characterization of Chinese rice wine based on key agingmarker profiles combined with principal components analysis and partial least-squares regression[J]. European Food Research and Technolog, 2020, 146(12): 1283-1296.
[18]
唐维川, 孔祥凯, 王婷, 等. 基于主成分分析法评价酱香型白酒的不同轮次基酒[J]. 现代食品科技, 2021, 37(7): 269-277.
[19]
吕辉, 杨平, 涂荣坤, 等. 低度浓香型白酒货架期酯类物质稳定性判定模型[J]. 酿酒科技, 2014, 5(2): 22-26.
[20]
杨婧, 雷良波, 胡光源, 等. 基于主成分分析的不同香型白酒识别方法[J]. 酿酒科技, 2015, 8(1): 33-35.
[21]
翁杨, 周龙, 牟怿, 等. 基于光谱技术的白酒真伪鉴别[J]. 中国酿造, 2012, 31(6): 178-181.
[22]
穆蕾, 钱承敬, 李少晖, 等. 馥郁香型白酒等级鉴别的研究[J]. 食品安全质量检测学报, 2018, 9(10): 2316-2320.
[23]
李艳敏, 张立严, 狄红梅. 主成分和判别分析在清香型白酒产地溯源中的应用[J]. 中国酿造, 2018, 37(1): 145-148.
[24]
AUGUSTEIJN M F, THOMAS E P. Harrington evolving transfer functions for artificial neural networks[J]. Neural Comput & Applic, 2004, 5(3): 38-46.
[25]
MURPHY P M. Machine learning a probabilistic perspective[M]. Cambridge: The MIT Press, 2012: 127-142.
[26]
DIEGO P P, MESQUITA J P P, GOMES L R. Artificial neural networks with random weights for incomplete datasets[J]. Neural Processing Letters, 2019, 50(12): 2345-2372.
[27]
CESAR R R, GONZALO H O, ALEJANDRA U U. Prediction of problematic wine fermentations using artificial neural networks[J]. Bioprocess Biosyst Eng, 2011, 46(5): 1057-1065.
[28]
罗惠波, 宗绪岩, 霍丹群, 等. BP神经网络在白酒高级醇生成条件研究中的应用[J]. 食品科技, 2012, 37(4): 90-93.
[29]
李冲伟, 丛丽娜, 张小愚, 等. BP神经网络在酒精发酵过程建模的应用[J]. 中国酿造, 2006, 7(1): 44-47.
[30]
周广麒, 曹磊. 啤酒风味物质变化与感官品尝关系的研究[J]. 食品工业, 2012, 33(4): 93-95.
[31]
苏杰, 丁毅, 李国志. BP神经网络在白酒包装成本预测中的应用[J]. 包装与食品机械, 2011, 29(5): 55-57.
[32]
顾海锋, 张世庆, 孙力, 等. 黄酒识别的电子鼻系统设计[J]. 食品科技, 2014, 39(4): 248-251.
[33]
潘斌, 韩强, 姚娅川. 基于卷积神经网络的白酒酒花分类研究[J]. 食品与机械, 2021, 37(10): 30-37.
[34]
王耀, 张贵宇, 刘文斌, 等. 基于BP神经网络的白酒探汽上甑方法研究[J]. 食品科技, 2022, 47(1): 99-106.
[35]
黄晓峰, 杨丽明, 蔡梦萍, 等. 基于神经网络的白酒勾兑目标规划算法优化[J]. 食品工业科技, 2013, 34(5): 130-133.
[36]
堵锡华, 王鹏, 陈艳, 等. 神经网络法用于恒酒香气成分性质的研究[J]. 安徽大学学报(自然科学版), 2019, 43(6): 92-101.
[37]
GARDE C T, DACOSTA N L, RUBIO B P, et al. The most important parameters to diferentiate tempranillo and tmpranillo blanco grapes and wines through machine learning[J]. Food Analytical Methods, 2021, 38(6): 2221-2236.
[38]
LI K J, LUO J X, HU Y M, et al. A novel multi-strategy DE algorithm for parameter optimization in support vector machine[J]. Journal of Intelligent Information Systems, 2020, 54(4): 527-543.
[39]
王国祥, 王海燕, 王虎, 等. 基于Raman光谱和支持向量机回归的古井贡酒年份鉴别方法[J]. 光谱学与光谱分析, 2016, 36(3): 729-735.
[40]
姜安, 彭江涛, 彭思龙, 等. 基于SVM的白酒红外光谱分析方法研究[J]. 计算机与应用化学, 2010, 27(2): 233-236.
[41]
王维琴, 汪丽, 于海燕. 基于拉曼光谱和支持向量机的黄酒品质快速分析[J]. 现代食品科技, 2015, 31(3): 255-259.
[42]
田万春, 张贵宇, 庹先国, 等. 基于支持向量机的白酒上甑探汽方法研究[J]. 食品与机械, 2020, 36(1): 79-83.
[43]
程平言, 范文来, 徐岩. 基于质谱与化学计量学的白酒原产地鉴定[J]. 质谱学报, 2014, 35(1): 32-37.
[44]
程平言, 范文来, 徐岩. 基于质谱与支持向量机的清香型白酒等级判别[J]. 食品工业科技, 2014, 35(8): 49-53.
[45]
史院平, 朱拓, 陈国庆, 等. 运用荧光光谱特征参量识别五粮液白酒[J]. 激光技术, 2011, 35(5): 684-687.
[46]
李慧星. 支持向量机研究浓香型白酒挥发性物质和酒醅微生物的相互关系系统V1.0[D]. 南阳: 南阳理工学院, 2020.
[47]
SASIREKHAL K, THANGAVEL K. Optimization of K-nearest neighbor using particle swarm optimization for face recognition[J]. Neural Computing and Applications, 2019, 51(3): 7935-7944.
[48]
王铁方. 计算机基因学基于家族基因的网格信任模型[M]. 北京: 知识产权出版社, 2016: 131-138.
[49]
朱卫华, 陈国庆, 朱焯炜, 等. 基于量子遗传算法和荧光光谱某清香型白酒年份预测研究[J]. 光谱学与光谱分析, 2017, 37(5): 1431-1436.
[50]
陈斌, 王豪, 林松, 等. 基于相关系数法与遗传算法的啤酒酒精度近红外光谱分析[J]. 农业工程学报, 2005, 12(7): 99-102.
[51]
熊雅婷, 李宗朋, 王健, 等. 基于最小二乘支持向量机的白酒酒醅成分定量分析[J]. 食品科学, 2016, 37(12): 163-168.
[52]
翟双, 庹先国, 张贵宇, 等. 基于FT-NIR光谱技术结合KPCA-MD-SVM对白酒基酒的快速判别[J]. 现代食品科技, 2022, 38(4): 248-253.
[53]
毕艳亮, 宁芊, 雷印杰, 等. 基于改进的遗传算法优化BP神经网络并用于红酒质量等级分类[J]. 计算机测量与控制, 2016, 24(1): 226-228.
[54]
杨建磊, 朱拓, 徐岩, 等. 基于最小二乘支持向量机算法的三维荧光光谱技术在中国白酒分类中的应用[J]. 光谱学与光谱分析, 2010, 30(1): 243-246.