Eric's Blog Site

发表于2025-10-24

发表于2025-10-19|学习日志

写在前面近日博主发现2024、2025年，社区中涌现了一大批做Looping Network的工作（包括但不限于做数独、做迷宫、做路径规划。。。），一直想探索Looping在语言类任务的效果。最近又看到马里兰大学的研究，把Skipping和Looping结合到一起用MCST（蒙特卡洛搜索树）做最优的探索，居然在语言类的常规任务上取得了很好的提升（我之前自己做Looping在这些任务都是掉点的/可能是没做什么Continuous Training和别的）。于是想好好研究一下Looping背后的机制和原理，期望能带来某些insights。现代神经网络的三种信息处理范式形式化表述举例说明 Y=f(X)\mathbf{Y} = f(\mathbf{X})Y=f(X) MLP, CNN, Decoder-only Transformer 无状态（stateless）映射：一次性输入 → 输出 (Z,Y)=f(Z,X)(\mathbf{Z,Y}) = f(\mathbf{Z,X})(Z,Y)=f(Z,X) RNN 有状态（stateful）动态系统：每步输入与历史状态共 ...

Colima: as a substitute of Docker Desktop in MacOS

发表于2025-10-03|学习日志

Documentation of the first paper revision

发表于2025-09-24|学习日志

💡谨以此篇博客，献给一年级苦逼重写论文的我，也献给之后要写论文的各位规则怪谈不要写长难句（这不是出考研卷子，对读者好一点），一句话最多带一个从句。保证每一个段落、每一个句子，都是有衔接，有承上启下（原话：我看到你的上一句，脑自己就能想到下一句你要说啥，并且我看到你的下一句跟我想的不一样的话，我就要gank你了…）。读者/审稿人都是草履虫。注意全文的时态一致，过去时谨慎使用（不确定用现在完成时是最好的）括号()的使用：禁忌：The x (denoted as ...)，尽量不要让读者思维太跳脱。定语、同位语不要出现很频繁，一句话尽可能完整注意英语的语句避免头重脚轻。别出现一页内大量空白，显得工作量很饱满是最好的。关于引用：去引那些有奠基意义的一些工作（比如LIF神经元就去找Maass、Izh.等），一个段落里不要出现过多次同一篇文章，尽量多找几篇不一样的但是是围绕同一个topic的，这样会更加显得自己的工作很扎实。锦囊妙计 Abstract (抽象) 怎么写整体框架应为： 12345% 1\ 背景% 2\ 动机或者问题% 3\ 方法 (和问题呼应)% ...

Cloud Computing

发表于2025-09-09|研究生课程

写在前面任课教师：罗亮参考教材：？评分标准：Essay

Linux Advanced Programming (Linux环境高级编程)

发表于2025-09-09|研究生课程

写在前面任课教师：刘杰彦参考教材：？评分标准：NaN 知识点总结习题

Finite Automaton Theory（有限自动机理论）

发表于2025-09-08|研究生课程

写在前面任课教师：陈文宇参考教材：？评分标准：NaN 知识点总结习题

Statistical Learning Theories and Applications (统计学习理论与应用)

发表于2025-09-08|研究生课程

写在前面任课教师：文泉参考教材：李航，统计学习方法（第2版），清华大学出版社，2019 评分标准： 1 Final Exam 50%: Open book test in two hours. 2 Projects 40%: Four projects (Regression, SVM, MLP, and Adaboost). 3 Presentation 10%: Presentation of new topics of machine learning by students). 知识点总结

Combinatorics (组合数学)

发表于2025-09-08|研究生课程

写在前面任课教师：杨国武、卢光辉参考教材：《组合数学及其应用》，清华大学出版社知识点总结符号表符号含义 N\mathbb{N}N 自然数集合第一章-排列、组合与二项式定理第二章-容斥原理习题 Chapter 1

Tricks for DeepSNN Learning

发表于2025-04-17|学习日志

写在前面这是可以说的吗🫣🫣🫣 Efficient Training 调超参的时候可以先试试用Imagenet的100类试试，调的差不多了再上全部。 SNN Transformer Training Transformer的常用Base lr是1e-4，adamw下是1e-4到6e-4之间，lamb可能需要再精调。adamw的前期收敛性太强了建议学习率linear warmup，用log怕炸 C-Optim stdconv -> adaptive_clip clip_grad=0.02 正常的linear就torch自带的clip clip_grad=1 or 5 FasterViT? Spike-driven Transformer V2/V3 检测与分割：除了backbone都是整数不norm 卷积算子貌似和整数（不带norm）很适配、attention貌似很和小数（带norm）适配 Spike-driven Transformer V1 About Finetuning SDT-V1 (Contributed by Qian S., 2025-04-28) v1没有提 ...

看完文章可以留下你的评论哦!