首页 > 悬疑推理 > 四合院:我是雨水表哥 > 第578章 版本前夜

第578章 版本前夜(2/2)

目录

“跑过了常温24小时稳定测试,六块板卡全部通过。中间出过两次问题,一次是I/o板的驱动芯片发热过大,换了另一批次的芯片就好了,应该是批次问题。一次是总线的仲裁逻辑在连续读写时出现了竞争,调试了一天,发现是微程序里一个时序参数写错了,汪教授那边改了一下,重新烧录二维卡,问题解决。”

他把板卡放回桌上,声音沉了一些。

“第一轮高温测试也做了。85度,跑了48小时。新问题不少。运算板上的KL-VU芯片,功耗大、发热量大,在85度环境下,芯片表面温度超过了110度。虽然芯片规格书标称工作温度最高125度,但在这个温度下,芯片内部延迟明显增大,时序恶化。有几个运算周期出现了结果错误,降温后恢复正常。”

他翻开笔记本,念了几组数据。

“KL-VU的加法器,在常温下延迟是18纳秒,85度时增加到了23纳秒,超标。乘法器的延迟从32纳秒增加到了41纳秒,也超标了。这说明高温下芯片的载流子迁移率下降,门延迟增大。散热设计要重新评估,不然夏天机房空调一停,机器就趴窝。”

吕辰的眉头皱了一下,没说话。

宇文坤德继续说:“而且高温测试只跑了一块运算板。我们还没有把所有类型的运算板、通信板、诊断板都加进去,更没有做多板卡协同的复杂工况测试。多块板卡同时工作的时候,机柜内部的温度会更高,散热问题会更严重。”

会议室里安静了几秒。

过了好一会儿,吕辰问:“进度为什么这么慢?”

“问题需要闭环,不是记下来就行。远端压降、串扰、地址线不等长,这些问题,不是记在本子上等下一版改就行了。我们要验证最小系统能不能跑通、能不能稳定,就必须先解决这些问题。怎么解决?手工飞线,物理修改板卡。电源线画细了,飞一根粗线并上去;信号线间距太小,把其中一根切断,飞一根线绕远路;地址线长度不匹配,飞一根线绕一下。”

他把那块运算板又拿起来,指着上面的飞线。

“每飞一根线,就要重新跑一遍测试。飞线焊好了,上电,看波形,波形不对,改位置,再焊,再看。一块板卡改三四轮是常事。仅这一块运算板,我们就飞了十几根线,跑了两轮常温、一轮高温,花了将近一个星期。”

他放下板卡,声音里带着一丝疲惫。

“而且运算板更复杂。KL-VU向量运算芯片,功耗大、时序严、散热要求高。仅这一块板卡的通电、加载微程序、跑基本运算,就花了三天。不是板卡有问题,是测试本身就很耗时。加载一次微程序要几分钟,跑一组运算要几十分钟,跑完还要分析数据、看波形、找问题。”

他顿了顿,又补了一句:“温度循环也很耗时间。高温85度老化测试,通常需要连续运行48到72小时才能暴露问题。两周时间,最多做三轮。我们这轮高温测试跑了48小时,发现了问题,现在要解决,解决完了还要再跑一轮验证。”

万人敌接过了话头,语气里带着无奈。

“宇文工说的没错。我那边元器件检验,2700多种规格,每种抽检20%,光测电阻电容就测了将近一个月。不是我们慢,是活就是这么多。而且,有些问题是测着测着才暴露出来的。比如电解电容那批次,前100只测的时候数据还行,后100只越测越差。这种批次波动,不是抽检能完全覆盖的,得靠批量全检。”

吴国华也开口了。

“机柜制造那边倒是没卡住,但板卡上架之后,问题也不少。背板上的总线连接器,插拔几次之后,接触电阻会变大。我们测了几块背板,插拔一百次之后,有些信号线的接触电阻从几个毫欧增加到了几十毫欧。虽然还在指标内,但趋势不好。丁师傅那边在改连接器的镀层材料和弹簧结构,下一批会好一些。”

郑长枫点头附和:“芯片封装也有类似的问题。有些批次的芯片,引脚镀层厚度不均匀,焊接的时候容易虚焊。封装车间那边在调整电镀工艺参数,我们这边也在加强入检,把焊接试验的抽检比例从5%提高到了10%。”

吕辰听着,手里的笔在本子上沙沙地记。

问题都不大,但零零碎碎,哪一块板卡、哪一颗元件、哪一处工艺都可能出问题。

每个问题单独拿出来都不致命,但堆在一起,进度就被拖慢了。

他把本子合上:“飞线是临时方案,不是长久之计。定型之前,所有有问题的板卡都要重新画板,重新加工,重新测试。不能用飞线的板卡上机柜,那是给自己埋雷。”

他看着宇文坤德。

“宇文工,你列一份清单。哪些板卡有问题,什么问题,怎么改,改完重新测试的周期多长。下周之前,这份清单要交到我这里。”

宇文坤德点了点头,在笔记本上记了一笔。

吕辰又看着吴国华和万人敌、郑长枫。

“你们三位,配合宇文工。板卡要改版,你们要提供支持。芯片有什么问题,郑老师负责跟进改版。元器件有什么问题,万工负责找替代或改设计。机柜和结构件有什么问题,吴国华负责协调丁师傅改。”

他顿了顿,声音提高了一些。

“启动小机柜预集成,不要等所有板卡都改完再上机柜。把已经验证通过的几块板卡,电源、时钟、背板、I/o、存储、运算,装进一个机柜里,做小范围集成测试。”

万人敌点点头:“我也是这样想的,板卡在机柜里和在工作台上不一样。机柜里有振动、有电磁干扰、有相邻板卡的热量影响。这些问题,工作台上跑不出来。早一点上机柜,早一点发现,早一点解决。”

吴国华点头:“计算机所那边,机柜已经装了十台,我可以先带人把电源、时钟、背板这三块装进去,跑一遍基本功能。验收通过了,再加I/o和存储。”

宇文坤德补充了一句:“运算板的散热问题,在小机柜里也能暴露得更充分,上小机柜预集成,有助于秦无功他们确定散热方案。”

吕辰想了想:“宇文工,你把高温测试的数据整理出来,我送到秦无功手里,看是加强风冷还是加水冷,昆仑1的运算机柜有21台,每台都有KL-VU芯片,散热问题不解决,夏天机房空调一停,机器就趴窝。”

宇文坤德点头,在笔记本上又记了一笔。

吕辰坐直了身子:“还有一个事,比板卡改版更急。”

会议室里安静了。

“12月底之前,会召开集成组全体会议,启动版本冻结程序。确认昆仑1机所用的所有板卡的硬件版本、微程序版本、元器件清单、装配规范,全部经过了充分验证,全部锁定。”

他看着万人敌:“万工,你负责元器件的版本确认工作。每种规格的电阻、电容、晶体、连接器,用的什么品牌、什么型号、什么批次,全部列出来,形成一份《元器件bo清单》。清单上要写明,每种元器件的技术状态是什么时候确认的,依据是什么,谁确认的。版本冻结之后,任何人要换元器件,必须走变更流程,重新验证,重新确认。”

万人敌翻开笔记本,在上面写了几个字:“两周之内能出来,我建议按批次认可制度办,如电解电容,批次波动大。即使同一型号、同一厂家,不同批次的性能也可能有差异。bo清单要锁定‘型号+厂家+批次’。”

吕辰点点头:“可以,除了批次认可,要严格遵守入检标准和流程,每一批元器件入库之前,必须经过入检,检测合格才能入库。入检的数据,存档备查。以后换了批次,只要按同样的标准和流程检测合格,就可以用。检测不合格,整批退回,没有商量的余地。”

万人敌点了点头,在本子上记了一笔。

吕辰看向吴国华:“国华,你负责机柜和芯片插座的定型工作。机柜的铝型材规格、抽屉导轨型号、背板的插槽尺寸、芯片插座的材料和结构,都要有正式的定型文件。”

吴国华点头:“机柜的结构件定型文件,丁师傅那边已经整理得差不多了。芯片插座的定型文件,朱光谱那边有完整的测试报告。我再补充一些内容,比如插拔寿命测试的原始数据、高低温循环测试的曲线图、接触电阻的变化趋势。这些东西归档,以后查起来有据可依。”

吕辰看向郑长枫:“郑老师,芯片的定型工作,你负责。”

郑长枫点头:“芯片的定型文件,6305厂有现成的。昆仑1机每颗芯片从第一版到第三版,每一版的改动记录、测试数据、良率爬坡曲线,全部归档了。”

吕辰最后看向宇文坤德。

“宇文工,板卡的定型工作,你负责,每块板卡的电路图、版图、物料清单、装配规范、测试规范,全部锁定。板卡定型文件里,要写明每块板卡经过了哪些测试、测试结果如何、有哪些已知问题、问题的影响范围和处理方案。”

宇文坤德弹了弹烟灰:“板卡定型,工作量不小。每个型号都要有一整套文件。有些板卡已经跑通了,文件也齐了。有些板卡还有问题,要等改完、重新测试之后才能定型。”

吕辰点头:“那就分优先级。先把已经跑通的板卡定型,把文件归档。还有问题的板卡,抓紧联系李工他们改,测完了再定型。争取在12月底之前,所有板卡,必须全部定型。”

宇文坤德点了点头:“时间有些紧,不过应该能克服。”

吕辰站起来:“12月底,召开集成组全体会议,正式启动‘版本冻结’。那天,不止是我们的硬件、板卡,还有秦无功他们的基础建设、汪教授他们的程序库,我们会逐项确认技术状态。确认一项,签字一项。签完字的文件,作为昆仑工程正式档案,封存。”

他顿了顿:“同志们,版本冻结不是走形式。它是告诉所有人,从这一刻起,昆仑1机的技术状态被锁定了。以后出了任何问题,要改任和东西,都要走正式流程,要有数据支撑,要有评审,要有批准。这不是为了为难谁,是为了让这台机器10年后、20年后,还有人能修、能改、能追溯。”

吕辰看了看墙上的挂钟:“行了,散会。各就各位,干活。”

吕辰和宇文坤德走在后面:“宇文工,怎么样,人手够吗?”

宇文坤德给吕辰发了一支:“是有点紧张,不过能克服!”

吕辰想了想:“昆仑1机的芯片已经定型,三个设计组空了出来,正在做微光夜视仪、电子耳朵等设计,都是些小工程,我和宋颜教授申请,调第九组来支援你。”

宇文坤德大喜:“吕工,有第九组加入,我有信心在12月20号前完成板卡定型!”

吕辰点点头,两人又站了一会儿。

抽完一支烟,才往集成电路实验室的方向走。

目录
返回顶部