正文第195章启动数据收集|辞职回家，我靠做糕点成名|辞职回家，我靠做糕点成名章节阅读-零点小说网

亲,双击屏幕即可自动滚动

正文第195章启动数据收集

    数据收集计划正式启动的第一天，林记车间就被浓郁的糯米香气包裹。苏晚穿着白色工作服，正小心翼翼地将揉好的面团放入发酵箱，李萌萌拿着湿度仪在一旁等候，陈曦则调试着高清相机，准备拍摄面团的特写照片。

    “第一组面团，发酵时间 15 分钟，环境温度 25c，现在开始计时。” 苏晚一边记录数据，一边按下计时器。按照计划，她们需要每天制作 30 组不同发酵等级的面团样本，涵盖不同温度、不同批次的糯米粉，确保数据的多样性。

    但实际操作起来，进度却远不如预期。苏晚一个人要负责揉面、调配馅料、控制发酵时间，还要协助李萌萌记录湿度、温度数据，陈曦则需要为每组面团拍摄 3 个角度的高清照片，再将照片与数据关联归档。由于流程衔接不畅，常常出现 “面团发酵好了，相机还没调试好”“数据记录完了，面团已经过了最佳拍摄时间” 的情况。

    到了傍晚，团队盘点当天的成果时，结果令人沮丧：一整天忙下来，只完成了 30 组样本，而且其中有 5 组因为发酵时间控制不当，数据出现偏差，不得不作废。

    “这样下去根本不行。” 林默看着数据收集表，眉头紧锁，“按照每天 25 组有效样本的进度，要完成 500 组目标，需要 20 天时间，远超我们计划的 7 天周期。而且深度学习模型对数据的时效性要求很高，样本存放时间过长，特征会发生变化，影响模型训练效果。”

    苏晚也有些焦虑：“主要是流程太繁琐了，揉面、发酵、拍摄、记录，每个环节都需要专人盯着，单人操作根本忙不过来。尤其是发酵时间的控制，差一分钟都可能影响面团的状态，我们已经很小心了，还是出现了偏差。”

    李萌萌补充道：“更麻烦的是临界样本的收集。‘略不足’和‘略过度’这两个等级的面团，发酵时间就差 5 分钟，气孔直径和湿度的差异非常小，我们很难精准控制。今天尝试制作了 10 组临界样本，结果只有 3 组符合标准，其余 7 组要么偏向合格，要么直接过度，根本无法使用。”

    陈曦打开电脑中的样本统计文件夹，屏幕上的柱状图清晰地显示出样本分布的不均衡：“你们看，合格、不足、过度这三个等级的样本已经有 22 组，但‘略不足’和‘略过度’的临界样本只有 3 组，占比仅 6。深度学习模型需要均衡的样本分布才能精准学习特征，临界样本太少，模型还是无法区分那些细微差异，之前的算法问题还是解决不了。”

    团队再次陷入困境。如果不能在计划时间内收集到足够的样本，尤其是临界样本，不仅会影响模型训练的进度，还会导致模型识别精度不足，“糕小默 20” 的量产计划就要再次推迟。

    “必须优化制作流程，提升效率，同时找到精准制作临界样本的方法。” 林默当机立断，“现在我们开个短会，重新梳理流程，分工协作，务必在 10 天内完成 500 组样本收集，而且临界样本占比要提升至 20 以上。”

    会议上，小王提出了一个大胆的想法：“我们可以借鉴工厂的流水线作业模式，把面团制作的流程拆分成三个环节，安排专人负责，提高效率。” 他拿起笔，在纸上画出流程示意图，“第一环节由苏晚负责，专门揉面和调配馅料，确保面团的大小、软硬一致；第二环节由李萌萌负责，控制发酵时间和环境温度，精准把握每个等级的发酵状态；第三环节由我负责，对接陈曦，完成照片拍摄和数据归档，同时编写程序自动关联图片和数据，减少人工操作。”

    “这个思路很好！” 林默立刻表示支持，“流水线作业能减少等待时间，提高衔接效率。按照这个分工，每个人专注于自己的环节，熟练度提升后，单日样本量肯定能大幅增加。”

    苏晚也补充道：“我可以提前一天把第二天需要的面团揉好，放入冷藏柜保存，第二天直接拿出来发酵，这样能节省大量时间。而且批量揉面能保证面团的一致性，避免因单次揉面差异导致的样本偏差。”

    针对临界样本难以精准制作的问题，苏晚结合自己的传统糕点制作经验，提出了 “时间控制法”：“之前我们凭感觉控制发酵时间，误差太大。现在我们可以把每个发酵等级的时间精准量化，比如合格等级的发酵时间是 2 小时，那‘略不足’就设定为 18 小时，‘略过度’设定为 22 小时，再结合湿度数据进行微调。比如当 18 小时到了，若面团湿度在 68-72 之间，就是合格的‘略不足’样本；若湿度低于 68，就说明发酵有点过快，需要缩短下次的发酵时间。”

    “这个方法可行！” 陈曦点点头，“我们还可以在发酵箱里安装一个小型的时间报警器，每个等级的发酵时间一到，报警器就会提醒，避免错过最佳时间。而且每个批次的糯米粉吸水性不同，我们可以先做一组测试，确定该批次糯米粉的最佳发酵时间，再进行批量制作。”

    小主，这个章节后面还有哦，请点击下一页继续阅读，后面更精彩！

    方案确定后，团队立刻行动起来。小王重新规划了车间的布局，设置了揉面区、发酵区、拍摄区三个功能区域，每个区域都配备了必要的工具和设备；苏晚提前揉好了 50 斤面团，分成均匀的小份，放入冷藏柜保存；李萌萌在发酵箱上贴了不同发酵等级的时间标签，安装了时间报警器；陈曦则优化了数据采集程序，实现了照片拍摄后自动命名、自动与数据关联的功能。

    第二天，流水线作业模式正式运行。苏晚在揉面区专注地揉着面团，动作熟练而精准，每一个面团的重量都控制在 50 克左右，误差不超过 1 克；李萌萌在发酵区来回查看，根据不同的发酵等级，精准控制时间和温度，当时间报警器响起时，她立刻取出面团，用湿度仪测量湿度，记录数据；小王则在拍摄区协助陈曦，将面团放在指定位置，陈曦按下快门，拍摄完 3 个角度的照片后，小王通过程序将照片与苏晚、李萌萌记录的数据自动关联，存入数据库。

    整个流程衔接顺畅，没有了之前的等待和混乱。到了中午，团队已经完成了 20 组有效样本，远超昨天一整天的成果。“照这个速度，今天完成 50 组样本完全没问题！” 李萌萌兴奋地说道，她的手上虽然沾满了面粉，但脸上却洋溢着笑容。

    临界样本的制作也取得了突破。苏晚按照 “时间控制法”，精准设定每个等级的发酵时间，再结合湿度数据进行微调。比如制作 “略不足” 样本时，发酵 18 小时后，若面团湿度在 69，正好符合标准；若湿度在 73，就说明发酵不够，她会把下一组的发酵时间延长 10 分钟；若湿度在 67，就说明发酵有点快，下一组的发酵时间缩短 5 分钟。

    通过这种方法，临界样本的合格率大幅提升。当天下午，团队就成功制作了 15 组 “略不足” 和 12 组 “略过度” 样本，而且数据都非常精准。“现在临界样本的特征很明显，气孔直径、湿度都在我们设定的范围内，这样模型就能更好地学习这些特征了。” 苏晚拿着放大镜观察着面团的气孔，满意地说道。

    林默每天都会检查数据收集进度，他用 excel 制作了 “样本完成率折线图”，实时跟踪每天的样本完成数量、不同等级样本的占比情况。从图表上可以清晰地看到，随着流水线流程的不断优化，团队的效率越来越高，第三天完成了 45 组样本，第四天完成了 50 组样本，第五天更是完成了 55 组样本，远远超过了预期目标。

    在数据收集的过程中，陈曦也发现了一个新的问题。“你们看，这两组同样是合格等级的面团，在早上的自然光下拍摄的照片，颜色偏浅；在下午的灯光下拍摄的照片，颜色偏深。” 陈曦指着电脑屏幕上的两张照片，对团队说道，“不同光线条件下，面团的颜色识别会有差异，这可能会影响模型的判断精度。”

    “这个问题确实需要重视。” 林默说道，“实际生产中，车间的光线会随着时间、天气变化，如果模型不能适应这种变化，就可能出现误判。”

    “我有一个想法。” 陈曦说道，“我们可以在后续的模型训练中，加入‘光线补偿算法’。通过采集不同光线条件下的样本数据，让模型学习光线变化对颜色特征的影响，自动调整识别参数，抵消光线干扰。现在我们可以先记录每组样本的拍摄光线条件，为后续的算法优化提供数据支持。”

    团队采纳了陈曦的建议，在数据收集表中新增了 “拍摄光线条件” 列，详细记录每组样本是在自然光、灯光还是混合光下拍摄的。这个小小的调整，为后续解决环境干扰问题埋下了重要伏笔。

    时间一天天过去，数据收集工作有条不紊地推进。苏晚的揉面技术越来越熟练，能精准控制面团的重量和软硬；李萌萌对发酵时间的把握也越来越精准，临界样本的合格率稳定在 90 以上；小王编写的数据采集程序不断优化，实现了样本数据的自动分类、筛选，大大减少了人工工作量；陈曦则每天检查拍摄的照片质量，确保每个角度的特征都清晰可见。

    远在盐城的老周也时刻关注着数据收集的进展，他每天都会给林默发微信询问情况：“林总，数据收集还顺利吗？需要我们再寄点糯米粉过去吗？”

    “周叔，一切都很顺利，谢谢你的关心！” 林默每次都会耐心回复，“你们寄来的糯米粉品质很好，制作出来的样本数据很稳定，为我们的模型训练提供了很大的帮助。”

    到了第十天，团队终于完成了 500 组样本的数据收集工作。林默打开样本统计数据库，屏幕上的数据令人振奋。

    “完美！” 林默激动地说道，“临界样本（略不足 + 略过度）的占比达到了 40，远超我们设定的 20 目标，而且数据合格率平均在 97 以上，样本分布均衡，数据质量很高。有了这些样本，我们的深度学习模型训练就能顺利推进了！”

    本小章还未完，请点击下一页继续阅读后面精彩内容！