Rethinking trending paradigms of neural networks
写在前面
近日博主发现2024、2025年,社区中涌现了一大批做Looping Network的工作(包括但不限于做数独、做迷宫、做路径规划。。。),一直想探索Looping在语言类任务的效果。最近又看到马里兰大学的研究,把Skipping和Looping结合到一起用MCST(蒙特卡洛搜索树)做最优的探索,居然在语言类的常规任务上取得了很好的提升(我之前自己做Looping在这些任务都是掉点的/可能是没做什么Continuous Training和别的)。于是想好好研究一下Looping背后的机制和原理,期望能带来某些insights。
现代神经网络的三种信息处理范式
形式化表述
举例
说明
Y=f(X)\mathbf{Y} = f(\mathbf{X})Y=f(X)
MLP, CNN, Decoder-only Transformer
无状态(stateless)映射:一次性输入 → 输出
(Z,Y)=f(Z,X)(\mathbf{Z,Y}) = f(\mathbf{Z,X})(Z,Y)=f(Z,X)
RNN
有状态(stateful)动态系统:每步输入与历史状态共 ...
Documentation of the first paper revision
💡谨以此篇博客,献给一年级苦逼重写论文的我,也献给之后要写论文的各位
规则怪谈
不要写长难句(这不是出考研卷子,对读者好一点),一句话最多带一个从句。
保证每一个段落、每一个句子,都是有衔接,有承上启下(原话:我看到你的上一句,脑自己就能想到下一句你要说啥,并且我看到你的下一句跟我想的不一样的话,我就要gank你了…)。
读者/审稿人都是草履虫。
注意全文的时态一致,过去时谨慎使用(不确定用现在完成时是最好的)
括号()的使用:禁忌:The x (denoted as ...),尽量不要让读者思维太跳脱。
定语、同位语不要出现很频繁,一句话尽可能完整
注意英语的语句避免头重脚轻。
别出现一页内大量空白,显得工作量很饱满是最好的。
关于引用:去引那些有奠基意义的一些工作(比如LIF神经元就去找Maass、Izh.等),一个段落里不要出现过多次同一篇文章,尽量多找几篇不一样的但是是围绕同一个topic的,这样会更加显得自己的工作很扎实。
锦囊妙计
Abstract (抽象) 怎么写
整体框架应为:
12345% 1\ 背景% 2\ 动机或者问题% 3\ 方法 (和问题呼应)% ...
Cloud Computing
写在前面
任课教师:罗亮
参考教材:?
评分标准:Essay
Linux Advanced Programming (Linux环境高级编程)
写在前面
任课教师:刘杰彦
参考教材:?
评分标准:NaN
知识点总结
习题
Finite Automaton Theory(有限自动机理论)
写在前面
任课教师:陈文宇
参考教材:?
评分标准:NaN
知识点总结
习题
Statistical Learning Theories and Applications (统计学习理论与应用)
写在前面
任课教师:文泉
参考教材:李航,统计学习方法(第2版),清华大学出版社,2019
评分标准:
1 Final Exam 50%: Open book test in two hours.
2 Projects 40%: Four projects (Regression, SVM, MLP, and Adaboost).
3 Presentation 10%: Presentation of new topics of machine learning by students).
知识点总结
Combinatorics (组合数学)
写在前面
任课教师:杨国武、卢光辉
参考教材:《组合数学及其应用》,清华大学出版社
知识点总结
符号表
符号
含义
N\mathbb{N}N
自然数集合
第一章-排列、组合与二项式定理
第二章-容斥原理
习题
Chapter 1
Tricks for DeepSNN Learning
写在前面
这是可以说的吗🫣🫣🫣
Efficient Training
调超参的时候可以先试试用Imagenet的100类试试,调的差不多了再上全部。
SNN Transformer Training
Transformer的常用Base lr是1e-4,adamw下是1e-4到6e-4之间,lamb可能需要再精调。adamw的前期收敛性太强了建议学习率linear warmup,用log怕炸
C-Optim
stdconv -> adaptive_clip clip_grad=0.02
正常的linear就torch自带的clip clip_grad=1 or 5
FasterViT?
Spike-driven Transformer V2/V3
检测与分割:除了backbone都是整数不norm
卷积算子貌似和整数(不带norm)很适配、attention貌似很和小数(带norm)适配
Spike-driven Transformer V1
About Finetuning SDT-V1 (Contributed by Qian S., 2025-04-28)
v1没有提 ...






