别说英伟达这种业内企业了,就算是八竿子打不着的网友们,这个夜晚也都选择不眠。
时间已是深夜,科技圈还热闹的很,简直就像过大年。
而“今年”的“春晚”只有一个主角,那就是类思维模型。
“一百多项专利我全都整理了,纪大在河州大学智算中心项目的启动仪式上讲的那番话,我也反复琢磨过。
“据此,我设计了一套实施方案【从0开始训练一套类思维大模型】,源程序上传到Gitee码云上了,地址是:https:‖gitee.com|class-thinking。有兴趣的可以下载下来一起试试,共同探讨。”
“我试了,根本不行啊,这效率,还不如直接从0搭建GPT呢!”
“你废话,专利文件肯定不可能给你披露细节的,这需要你一点点一点点的慢慢去试去调整,才能达到最佳。”
“能达到吗?我怎么觉得这就是个坑呢?我用数学模型做了一下评估,所有条件都考虑进去,看多少参数的小模型替代神经网络节点,结果是多少你们知道吗?答案是1。”
专业的IT社区都是业内人士,尤其是今天,CSDNBlog人工智能分区更是一群AI领域大佬的聚集地。
答案是1代表什么意思,他们再明白不过了——那就是现有神经网络模型的效率就是最高的,任何改变都只会影响效率,而不会提高效率。
“把你的计算过程贴出来,我们一起看看……”
“好!”这个人名为孙博,毕业于信息科技大学本科,国科大硕士、博士,现为科学院自动化所人工智能基础前沿理论研究室研究员。
……
纪弘也在窥屏,他是CSDN的老用户了,也经常会在里面发一些东西,今天从河州大学回来以后,也是照例进来看了看。
正好就看到这群人在讨论类思维模型的事儿,也就一直在盯着。
当孙博把所有的计算过程贴出来的时候,他也是第一时间就下载了下来。
计算过程极为复杂,涉及到微分、积分、线性代数、离散数学、最优化理论、信息论等一大堆学科的交叉。