正文第197章首次模型测试|辞职回家，我靠做糕点成名|辞职回家，我靠做糕点成名章节阅读-零点小说网

亲,双击屏幕即可自动滚动

正文第197章首次模型测试

    车间里的时钟指向上午九点，第三轮模型训练的最终结果新鲜出炉：训练集识别准确率 96，验证集识别准确率 95。看着屏幕上近乎完美的训练数据，团队成员们脸上都洋溢着期待的笑容，仿佛已经看到了 “糕小默 20” 顺利量产的场景。

    “按照这个数据，实际测试的准确率应该能达到 90 以上吧？” 李萌萌一边整理新制作的测试样本，一边兴奋地说道。为了确保测试结果的客观性，她和苏晚花了整整一天时间，制作了 50 组全新的样本，涵盖所有发酵等级，其中特意增加了 20 组 “略不足” 与 “合格” 的临界样本 —— 这正是之前模型最容易误判的类型。

    陈曦将 50 组测试样本的数据导入模型，点击 “预测” 按钮。所有人都屏住了呼吸，紧紧盯着屏幕上跳动的进度条。几秒钟后，测试结果弹出，喜悦的笑容瞬间从大家脸上褪去：识别准确率 85，误差率 15。

    “怎么才 85？” 小王忍不住皱起眉头，语气中带着失望，“训练集和验证集的准确率都达到 95 了，为什么实际测试还差这么多？”

    林默接过陈曦打印的测试报告，仔细查看误判样本的分布情况：“误差率 15，虽然比最初的 20 下降了 5 个百分点，但距离我们预期的 5 目标还有很大差距。而且你们看，误判主要集中在‘略不足’与‘合格’这两个等级，误判率高达 25，其他等级的误判率只有 8。”

    苏晚拿起放大镜，逐一观察那些误判样本的实物：“这组‘略不足’的样本被判定为合格，我们看看它的特征。气孔直径 17，湿度 67，而合格样本的标准是气孔直径 15-2、湿度 62-68。两者的特征几乎重叠，尤其是气孔差异还不到 05，肉眼都很难区分，更别说模型了。”

    陈曦打开误判样本的高清图片，用专业软件测量特征参数：“确实如此。所有误判的‘略不足’与‘合格’样本，气孔直径差异都小于 05，表面颜色、光滑度等视觉特征也高度相似，模型很难捕捉到这种细微差异。之前我们虽然增加了卷积层数量，但 3 层卷积层的提取能力还是有限，无法精准识别这种临界特征。”

    团队刚刚燃起的希望又一次被浇灭。如果核心的 “略不足” 与 “合格” 误判问题无法解决，“糕小默 20” 的量产计划就只能继续推迟。车间里陷入了沉默，每个人的脸上都写满了焦虑。

    “大家别着急，误差率从 20 降到 15，已经是很大的进步了。” 林默率先打破沉默，他拿起笔在白板上画了一张误差率下降折线图，将每一次优化后的误差率标注出来，“你们看，从最初的 35 到 20，再到现在的 15，我们一直在进步。现在的问题很明确，就是模型对细微特征的捕捉能力不足，以及对临界样本的判断缺乏更可靠的辅助依据。只要针对性解决这两个问题，误差率一定能继续下降。”

    苏晚看着手中的湿度数据记录，突然眼前一亮：“之前我们发现湿度数据与视觉识别结果的匹配度高达 85，或许可以在模型中加入湿度数据的权重。比如，当模型判定样本为‘合格’时，如果其湿度数据与合格标准的匹配度低于 80，就自动将其标记为‘待确认’，不直接判定为合格。这样就能利用湿度数据的物理特性，辅助视觉识别，降低误判率。”

    “这个想法可行！” 陈曦立刻表示赞同，“‘略不足’与‘合格’样本的视觉特征相似，但湿度数据还是有细微差异。合格样本的湿度通常在 63-66 之间，而‘略不足’样本的湿度多在 67-69 之间。如果给湿度数据设置权重，当湿度匹配度≥80 时才判定为合格，就能有效区分这两种样本。”

    小王也补充道：“另外，我们可以增加卷积层的数量。3 层卷积层只能提取到表面的宏观特征，增加到 5 层后，模型能深入提取到气孔分布密度、边缘光滑度等细微特征，对 05 以下的气孔差异也能捕捉到。不过卷积层数量不能太多，否则会导致模型训练时间过长，还可能出现新的过拟合问题。”

    林默综合大家的意见，做出决策：“就按这个思路优化。小王负责调整模型参数，将卷积层从 3 层增至 5 层，同时优化激活函数和学习率；苏晚负责制定湿度数据的权重标准，明确不同发酵等级的湿度匹配阈值；陈曦负责模型的重新训练和兼容性调试；我负责跟踪测试效果，确保误差率能降至 10 以下。”

    方案确定后，团队立刻投入紧张的优化工作。小王坐在电脑前，专注地修改模型结构参数。他没有直接将卷积层增至 5 层，而是先尝试增加到 4 层，训练后测试误差率降至 13；再增加到 5 层，误差率进一步下降到 11；当尝试增加到 6 层时，误差率反而回升到 12，还出现了轻微的过拟合迹象。

    小主，这个章节后面还有哦，请点击下一页继续阅读，后面更精彩！

    “看来 5 层卷积层是最优配置。” 小王松了口气，向团队汇报测试结果，“5 层卷积层既能提升对细微特征的捕捉能力，又不会导致过拟合，而且训练时间只比之前增加了 2 小时，在可接受范围内。”

    苏晚则根据之前收集的 500 组样本数据，制定了详细的湿度权重标准：“合格样本的湿度标准是 62-68，我们设定湿度匹配度≥80 时，才认可模型的视觉识别结果；如果湿度匹配度在 60-80 之间，就将样本标记为‘待确认’，需要结合其他特征进一步判断；如果湿度匹配度＜60，则直接否定视觉识别结果，按湿度对应的等级判定。”

    她举了个例子：“比如一组样本被模型视觉识别为‘合格’，但它的湿度是 69，与合格样本的湿度标准匹配度只有 75，低于 80，我们就不判定它为合格，而是标记为‘待确认’，再结合气孔直径等特征综合判断，这样就能有效降低误判率。”

    陈曦将调整后的模型结构和湿度权重标准融入算法，启动了第四轮模型训练。这一次，模型不仅要学习视觉特征，还要结合湿度数据的权重进行判断，训练难度更大，但针对性也更强。

    团队成员们没有像之前那样守在电脑旁，而是各自忙碌着后续的准备工作。苏晚整理了所有误判样本的特征数据，制作成 “误判样本分析手册”，方便团队随时查阅；李萌萌则开始准备下一轮测试的样本，特意增加了 “略不足” 与 “合格” 临界样本的数量，确保测试结果能真实反映模型的优化效果；林默则联系了几位糕点老师傅，邀请他们在后续的测试中提供人工判断参考，对比模型识别与人工判断的差异。

    6 小时后，第四轮模型训练完成。训练集识别准确率 97，验证集识别准确率 96，数据表现稳定。陈曦立刻导入李萌萌准备的 50 组新测试样本，进行验证。

    “测试开始！” 陈曦按下 “预测” 按钮，屏幕上的进度条缓慢推进。所有人都围了过来，眼神中充满了紧张与期待。

    几分钟后，测试结果出炉：识别准确率 90，误差率 10。其中，“略不足” 与 “合格” 样本的误判率从 25 降至 18，其他等级样本的误判率降至 5 以下。

    “误差率降到 10 了！” 李萌萌兴奋地喊道，“虽然还没达到 5 的目标，但已经有了很大的进步！尤其是其他等级的误判率已经达标，只剩下临界样本的问题了。”

    林默看着测试报告，脸上露出了欣慰的笑容：“这是一个重大的突破！我们通过增加卷积层数量和融入湿度数据权重，成功将误差率从 15 降至 10，证明我们的优化方向是正确的。现在我们离目标越来越近了，只要继续针对临界样本优化，就能实现 5 误差率的目标。”

    苏晚仔细分析了误判的临界样本：“剩下的误判样本，不仅气孔差异小于 05，湿度数据也非常接近合格标准，比如有的‘略不足’样本湿度是 675，与合格样本的湿度标准匹配度达到 78，刚好低于 80 的权重阈值，被标记为‘待确认’，但模型最终还是误判为合格。这说明仅靠湿度数据还不够，我们可能需要更多维度的数据来辅助判断。”

    陈曦点点头，在测试报告中写道：“当前模型对细微视觉特征的捕捉能力仍有提升空间，且单一的湿度数据辅助判断不够全面。若能加入更多维度数据（如面团弹性、密度等），构建多维度检测模型，误差率或可进一步降低至 5 以下。”

    小王也补充道：“我们还可以优化湿度权重的阈值设置。现在的 80 是基于现有样本数据设定的，或许我们可以通过更多样本测试，找到更精准的阈值，进一步降低临界样本的误判率。”

    林默认同地点点头：“陈曦提出的多维度检测思路很好，这可以作为我们下一步的优化方向。不过目前我们已经取得了阶段性成果，误差率降至 10，已经基本满足小规模量产的要求。我们可以先进行二次试产，验证模型在实际生产中的表现，同时收集更多维度的数据，为后续的优化做准备。”

    他顿了顿，继续说道：“接下来的工作安排如下：陈曦负责整理测试报告，总结优化经验，同时开始研究面团弹性、密度等数据的采集方法；小王负责将优化后的模型嵌入‘糕小默 20’设备，进行兼容性调试；苏晚和李萌萌负责准备二次试产的原材料和样本，邀请糕点老师傅参与人工复核；我负责协调生产车间，安排二次试产的时间和流程。”

    团队成员们纷纷点头，虽然还没有完全达到目标，但大家都看到了希望，斗志昂扬地投入到新的工作中。

    本小章还未完，请点击下一页继续阅读后面精彩内容！