首页 > 都市小说 > 带着手机重生，目标科技教父 > 第634章给学术圈一点小小的北邮震撼

第634章给学术圈一点小小的北邮震撼（1/2）

视角切回京城邮电大学的教研室。

钟柏正在操作电脑，连接学校的宽带网络。

一百二十万张图片的压缩包，体积极其庞大。

钟柏挂上下载链接，对教研室这个2MB/S的下载速度很满意，但是又看了一眼整个数据集的体积：300G，又叹了口气。

“这得下到猴年马月去。”

楚一航掏出手机看了眼时间。

“挂着下吧，三个月的比赛呢，也不差这一会。”

下载进度条缓慢爬行。

一转眼，两天时间过去了，几个人走到了机房隔的服务器存放间。

里面摆着两个黑色的标准机柜。

机柜里整齐排列着服务器节点，运转的散热风扇发出巨大的噪音。

这些节点里插满了AMD的顶级计算卡。

这是郭长征用三十五万的研究经费，加上盛夏科技提供的特殊折扣采购来的。

郭长征看着这些闪烁着绿灯的机器。

“三十五万砸下去，系里好几个老教授都在看我们的笑话。”

楚一航检查着节点上的指示灯。

“郭老师，您这就多虑了。”

“有盛夏科技的九章计算平台做底层，上面还套着我们新开发的TenSOrFlOW框架。”

“这套硬件的算力利用率，绝对超出那些老教授的认知。”

叶言在旁边插话。

“其实在比赛数据集发布之前，我们用通用图片数据已经训练了一版基础模型。”

楚一航点头。

“没错，那个模型虽然没有针对Iage的特定类别做过训练，输出的结果类别也比比赛里要求的要多很多，但底层的特征提取网络已经成型了。”

而此时，Iage的数据集终于下载完成并解压。

钟柏把五万张带有标签的验证集图片导入服务器存储。

楚一航坐回电脑前，打开终端窗口。

他通过命令行连接到隔机房的GPU集群。

钟柏点开了解压后的数据集目录，仔细翻看了一遍官方提供的数据明文档。

“哎？你们看这数据分布。”钟柏指着屏幕。

“这比赛提供的一百二十万张训练图像，一共被划分为了一千个类别。”

“但这玩意儿看着眼熟啊，这不就是咱们前段时间折腾的那个五百万张图片、五千个类别的超大数据集的子集吗？”

钟柏手指在键盘上无意识地敲了两下，忽然嘿嘿一笑。

“手痒了。”

“既然是子集，要不咱们直接用前两天刚跑完的那个五千分类的通用预训练模型，来预测一下这数据集？”

“看看现成的模型，在这五万张验证集上效果咋样。”

楚一航一听，直接竖起了大拇指。

“你子真是个机灵鬼，其实我刚才也正有此意。”

“现成的大模型不用白不用，干就干！”

郭长征也点头同意了这个提议。

“跑一次看看，正好摸摸这个比赛数据集的特征分布底细。”

这里需要给非专业人士解释一下。

为什么用训练了五千个类别的通用模型，可以直接去预测只有一千个类别的子数据集？

因为在深度学习中，用海量数据喂出来的模型“见多识广”。

它在底层网络中已经学会了提取通用的图像特征，比如轮廓、纹理、色彩组合。

这种通用的特征提取能力，完全可以直接套用到子集数据的分类任务上。

但直接这么做，预测精度必然会存在误差，成绩会差一些。

原因很简单，模型最终输出的是五千个选项的概率。

在面对这五万张只有一千种标准答案的验证图片时，通用模型依然会按照五千个类别的范围去预测。

本章未完，点击下一页继续阅读。

第634章 给学术圈一点小小的北邮震撼（1/2）

第634章给学术圈一点小小的北邮震撼（1/2）