随着小组的组建,测试工作顺利开展。
第一周的测试成果喜人,经过所有成员的努力,取得了不错的结果,至少向关弘几人证明了这个项目的可行性。
然而,英子却不太满意。
在池远邀请她参与到模型中算法的修改完善后,她就一直不满意。
虽然模型在第一周的测试中表现良好。
谈不上来为什么,她却始终觉得有哪里不对劲,尤其是她负责的部分。
池远倒是觉得英子因为这段时间学习内容太多导致的不自信。
对于他而言,他向来更相信数据,特别是自己得到数据。
现在数据表现不错,这是一种认可,只是样本不够多,他不敢下肯定。
不过,有一点上他们达成了一致——还需要更多测试。
另一边,随着归零的进行,更多的任务分配到了测试组上。
他们作为实习生,本来就不会把太重要的任务分给他们。
这样,英子和池远倒是能将更多精力投入到了自己的项目中。
然后……英子的‘感觉’这样莫名其妙地应验了。
随着测试集的扩大,问题真的出现了——
模型出现了‘过拟合’。
这指模型在训练数据上表现得很好,当脱离了测试数据,使用最新的、实际的数据作为测试集或验证集,某些表现又表现得非常差。
模型训练出来,就是用来对测试集给出判断、甚至预测可能发生的更多错误。
所以,一旦出现了‘过拟合’,这模型就不能用了。
可靠性太差,谁敢用?
这无疑是一个巨大的打击!
经过分析,他们怀疑‘过拟合’是因为以下原因:
1.模型过于复杂:没错,在想法期间就简化过的模型还是太复杂了。这种复杂性使得模型不仅学会了数据中的有效模式,还学到了噪声和异常,导致对未见过的数据泛化能力差。
2.训练数据量不足:更准确地说,是数据类型不足。相似的数据有些多了,让模型对某些特征或组合产生了过度依赖,而这些特征组合在新的数据上不一定成立。
工作量骤然翻了又翻。
池远不得已把李浩源都拉了进来。
数据保密不给看,但能参与到优化模型啊!
几乎每天,池远都会坐在英子旁边,跟网络会议那头的李浩源,奋战到天明。
别说这是在拉壮丁!
李浩源一个大一学生,有什么要紧事儿?
学习?对啊,实践中学习,学习后实践,来帮他们做项目,还能写进简历。
社交?但是,李浩源一个社恐+深度恐女。
因此,池远没有一点负担。
纠错工作就这样有条不紊地进行着。
池远这边跟关弘、李浩源还在不断删减试错,硬是将计算机分数刷到了博士生的级别……
【计算机:327→498】(硕士:400)
另一边‘特征依赖’,英子那奇怪的感觉就立大功……
虽然不能说一捏一个准,但大方向总是没错。
就好像回到了两人高中为竞赛互相竞争的时候。
池远利用题目中的条件,通过严密的逻辑+繁琐的计算,得到答案;
乔英子却在读完题隐隐约约知道答案长什么样一样,直接两点架桥,优雅地穿过去直达……
太不合理了。
要不是池远靠着努力成功‘超越’(必须强调)她的物理,他都以为英子也有金手指了。
还是能一眼看到答案的金手指。
但即使是这样……
“这也太玄幻了吧?”池远忍不住吐槽。
“什么?”
英子正专注于YF-77液氮液氧发动机的设计图,听到池远的话,她抬头。
又眨了眨眼睛,顿时感觉疲惫袭来,只能抬手揉了揉眼睛。
对设计图的专注,让她很快就忘了池远刚才的吐槽。
推开手边堆起来的诸如《液体火箭推进系统技术》、《Modern Engineering for Design of Liquid-Propellant Rocket Engines》之类的书籍。