AI编程时代，人应该守住什么

2026-02-03

引子

我不会Rust。

准确地说，我熟悉C/C++和Python，对Rust只有一些学院派的了解：知道它的所有权模型、知道它强调内存安全、知道它的编译器以”严格”著称。但要我自己从零写一个Rust项目，我写不出来。

然而最近我在给自己的机器人项目写驱动时，我选择了让AI用Rust来写。

更奇怪的是，我发现自己反而比让AI写Python时更放心。

过去一年多我一直用AI协作写Python。Python我很熟，熟到可以逐行审阅AI的代码。但正是这种熟悉让我焦虑，我太清楚Python有多少种方式可以让错误静默地溜走。

有一次我辛辛苦苦采集了大量机器人示教数据，后处理时发现数据有些地方很不一致。查了很久，最后发现是采集程序里AI写了一个 except: pass。在高频循环里，某些异常被静默吞掉了，程序继续跑，数据继续存，但有些帧的数据已经是错的。

这种错误让人恼火的程度远超一般的bug。如果我没发现呢？我可能会基于这批数据训练模型、做分析、得出结论，整个研究假设都建立在一个错误的基础上。这让我开始根本性地怀疑AI编程，有时候宁愿自己上手干。

而Rust？我看不懂它的每一行语法，但我知道，如果编译通过了，至少有一大类错误已经被排除在外。

当然，Rust不是银弹。它能拦住的是内存安全、类型匹配这类形式上的错误，拦不住逻辑本身就是错的。但这段体验让我开始思考一个问题：在人和AI协作编程时，”约束”这件事到底扮演什么角色？为什么有些约束让AI更可靠，而有些问题再多约束也没用？

AI的讨好倾向

那个 except: pass是怎么来的？

不是AI故意害我。恰恰相反，它是在努力让程序”能跑起来”。

这种倾向有它的来源。当前大模型的后训练过程，尤其是强化学习阶段，奖励函数的设计往往围绕着”单元测试通过”、”代码能运行”这类信号。这种训练方式确实带来了模型能力的显著提升，AI写的代码越来越能跑通了。但它也带来了一个副作用：模型学会了”让代码跑起来”这个目标，而不是”让代码正确”。

于是当AI遇到一个可能抛异常的地方，最省事的做法就是把异常吞掉。程序跑通了，测试过了，奖励拿到了。直到你发现数据是坏的。

Python允许这种”讨好”。语法上，except: pass完全合法。运行时，程序确实不崩。这个错误会安静地躺在代码里，等着在未来某个意想不到的时刻给你一击。

当然，这种”讨好”的危害程度因场景而异。如果你在写前端界面，AI吞掉了一个错误，结果可能是页面上缺了一块东西，你一眼就能看出来，改掉就是了，不致命。但科研场景不一样。数据采集、模型训练、结果分析，这些环节的错误往往是隐蔽的，不会立刻跳出来告诉你”这里错了”。你可能基于错误的数据得出了结论，写进了论文，直到很久以后才发现，或者永远发现不了。

我有段时间就在”用AI”和”不用AI”之间反复摇摆，不断思考这种协作模式对科研到底有没有用。直到我开始意识到，问题不在于”该不该用AI”，而在于”什么样的环境能让AI少犯这种错”。

这就是问题的根源：AI被训练出的优化目标，与宽松语言的包容性形成了危险的共振。 而在反馈不及时、错误不显眼的场景下，这种共振的后果尤其严重。

约束的本质：内化还是外化

说到这里，可能有人会觉得这只是”AI的问题”，等模型能力再强一些、训练方式再改进一些，问题自然就解决了。

但我想说的是，约束这件事，对所有认知主体都有用，不只是AI。

一个资深程序员可以用记事本写代码，不需要IDE，不需要lint，不需要静态检查。他脑子里装着几十年的经验：什么写法容易出bug、什么地方要做防御、什么模式会埋坑。这些规则他都记得，靠自律就能写出正确的代码。

但这种”内化的约束”是有代价的。它占用认知资源，依赖过去大量的工程实践，而且会疲劳、会遗忘、会在状态不好的时候放水。更关键的是，它不可迁移，他的经验没法复制给新人，也没法复制给AI。

而把这些规则外化给工具呢？IDE的自动补全、lint的风格检查、类型系统的静态分析、编译器的错误拦截，它们不疲劳、不遗忘、不放水。你想犯某些错误，它根本不让你犯。

这里面有一个关键变量：反馈的时机。

有些约束在你写代码时就生效，编辑器立刻标红；有些在编译时拦住你，不通过就没法继续；有些要到运行时才暴露，跑到那一行才报错；还有些更隐蔽，程序跑完了、结果出来了，你才慢慢发现哪里不对。

反馈越早、越确定，纠错成本就越低。反馈越晚、越模糊，错误就越容易累积、越难定位。

对AI来说，这个规律更加极端。AI没有”经验”可言，它无法内化规则，完全依赖外部信号来判断自己对不对。反馈回路越紧、越明确，它就越容易在这个空间里找到正确解；反馈越延迟、越模糊，它就越容易在”看起来对”的路上越走越远。

所以问题不是”该用什么语言”，而是：你的工作流里，有多少约束是外化的、反馈是及时的？

这让我意识到一个更普遍的道理：认知负担外化到确定性系统中，是一种普遍有效的策略。AI只是把这个规律展现得更极端，因为它完全没有内化能力，只能依赖外部约束。

设计层的约束：状态机的故事

前面说的主要是语言和工具层面的约束，编译器、类型系统、lint。但还有另一个层面同样重要：设计层的约束。

我有一个很痛的教训。

当时我在给Lerobot的遥操作程序适配自己的机械臂。这个采集流程看起来不复杂：开始时机械臂移动到工作姿态，等用户检查夹爪、扶稳示教臂，然后进入录制，记录轨迹和相机数据。用户按Enter开始采集，按S保存，按Backspace丢弃。

我把这些需求告诉AI，它很快写出了代码，看起来功能都实现了。

然后问题来了。

我多按了一下Enter，程序出问题了。我在初始状态按了S，机械臂居然开始保存。我按完S又按Backspace，数据丢了但程序不知道，episode序号乱了。同时按两下S呢？同时按两下Backspace呢？在非采集状态按这些键呢？

每一种我习惯性的操作都可能触发某个未定义行为。

AI写的代码在”正常流程”下是对的，但它只考虑了局部分支。现实中用户的按键是不可预测的，各种组合构成了一个巨大的状态空间，而AI只覆盖了其中很小一部分。剩下的，要么是程序崩溃，要么是更糟糕的，静默地做了错误的事。

我当时的debug方式是：发现问题、告诉AI、等它改、再测试、发现新问题、再告诉AI……这个循环可以无限持续下去。而且AI的修复方式往往是不断加if分支、加fallback，代码越来越像一团意大利面，改了A坏了B，改了B坏了A。

直到我意识到，问题根本不在代码层面，而在设计层面。

这种复杂交互场景需要的是一个状态机。每个状态下只有特定的输入是合法的，状态之间的转移是确定的，非法输入要么被忽略要么给出明确反馈。一旦这张图画出来，每个状态该做什么、能接受什么、转移到哪，都是清晰的。

于是我改变了策略：不直接让AI写代码，而是先让它帮我设计状态机。我们在文档层面反复迭代，有哪些状态、转移条件是什么、每个状态的合法输入有哪些。等这个顶层设计稳定了，再让AI照着写代码。

结果是：代码一次成型，所有的边界情况都被处理了。

这件事让我理解了一个道理：约束不只存在于语言和工具层面，更存在于设计层面。 状态机是一种约束，它强迫你穷举所有状态和转移，不给”未定义行为”留空间。而如果你不在设计层引入这种约束，直接让AI写代码，它就会在那个巨大的组合空间里乱撞，靠打补丁来应付问题。

当然，状态机只是这个场景下的解法。不同场景需要不同的高层思维模型：可能是管道模式、事件驱动、实体组件系统，或者别的什么。关键是，你得在动手写代码之前，先把这个模型立起来，让它成为AI工作的框架。

人机协作的新分工

回头看这一年多的协作经历，我发现自己做的事情在慢慢变化。

一开始我什么都审。AI写的每一行代码我都会看，每一个函数都要理解，每一个逻辑分支都要验证。这很累，但我觉得这是”负责任”的做法，毕竟代码是AI写的，我得确保它是对的。

但随着AI能力的进步，我逐渐发现这种审法不可持续。

不是因为我偷懒，是因为投入产出比不对。AI生成代码的速度远超人类阅读代码的速度。我十岁开始编程，对代码的阅读速度和掌握程度已经远超常人，但在AI廉价的代码量面前，逐行审阅变成了一种低效的消耗。

更让人恼火的是AI的工作方式。它写代码没有”最小改动”意识。你让它加两行功能，它会把整个文件吞进去再吐出来，然后你看到一堆琐碎的diff：这个变量本来叫 big_model它改叫 big_models，这个注释措辞变了，这里缩进调了。这些对它来说是无意识的行为，但对审阅者来说是巨大的噪音。你只想确认那两行改动对不对，结果上百个变化跳出来让你分辨。

于是我开始调整策略，把注意力往上游转移。

我发现了一个杠杆效应：一行坏的计划，会带来上百行坏的代码。 反过来说，如果计划是对的，代码层面的小错AI自己能修，编译器能拦住，测试能暴露。但如果计划就是错的，方向错了、架构选错了、模块划分不合理，那后面写再多代码都是在错误的路上狂奔。

所以现在我的工作流变成了这样：

在高层，我关注架构和设计。技术选型是我定的，整体思路是我想的，这些AI可以给建议，但最终决定是我做。

在中层，我关注模块划分和接口设计。为了实现某个复杂功能，应该拆成哪些模块、模块之间怎么通信、用什么样的抽象。这个层面我会先让AI写设计文档，我们反复讨论迭代，直到我觉得这个方案是solid的。

在底层，具体代码怎么写，我管得越来越少。语法细节、API调用、具体实现，这些AI来写，编译器来检查，测试来验证。有时候我甚至会给AI写伪代码，告诉它逻辑是什么，让它翻译成具体的语言。

人守上游，AI冲下游。 上游的错误代价极高，需要人来把关；下游的工作量大但纠错成本低，适合AI来做。这和传统的软件工程分工其实是一个道理，架构师定方向，工程师写实现，只不过现在”工程师”的角色有一部分被AI接管了。

约束的边界，与人应该守住的东西

前面讲的约束，不管是编译器层面还是设计层面，都有一个共同特点：它们能拦住的是形式上的错误。类型不匹配、内存不安全、状态转移不合法，这些都是可以被规则穷举、被系统检查的。

但有一类错误，再强的约束系统也拦不住。

我曾经花了两周时间debug一个问题。训练好的算法部署到机械臂上，机械臂总是砸桌子。但我离线测试的时候，每一步的轨迹趋势看起来都是正常的。这很奇怪。

最后发现，错误只是一行代码的位置：一个变量赋值应该在第49行而不是第51行。

我用的是相对轨迹运动模式，在一次rollout中，所有后续点都以起始pose作为参考起点。所以这个参考起点的设置应该在循环外侧，而不是内侧。放在内侧的话，参考点每一步都在变，轨迹就完全乱了。

这种错误，AI写的时候是不可能意识到的。它不知道真实世界里机械臂是怎么运动的，不知道”相对轨迹”意味着什么，不知道放错位置会导致什么后果。在它看来，第49行和第51行，语法都对，类型都对，程序都能跑。Rust也好，再严格的编译器也好，查不出这种错。

这就是约束系统的边界：它能保证形式正确性，但保证不了语义正确性。语义正确性的判断，需要理解代码背后的意图，理解它要解决的现实问题，理解物理世界的规律。

这让我开始想一个更根本的问题：在人和AI的协作中，到底什么是人必须守住的？

不妨做一个思想实验。假设AI能力继续发展，假设它学会了所有的设计模式和架构经验，假设有一天具身智能突破了，它也有了对物理世界的感知。那时候，人还剩下什么是不可替代的？

你可以换一个方式来想这件事：想象一个愿意帮助你、能力和知识都比你强很多的人。你想让他帮你完成一件事，什么是他帮不了你的？

答案可能很简单：你要什么。

需求得你来提。至少初始方向是你给的，哪怕在过程中会迭代和修正。

验收得你来判。对不对、好不好、够不够，这个标准在你那里。

过程中的方向调整得你来做。发现偏了、想法变了、优先级调了，这些信号只有你能发出。

这不是因为AI笨或者有局限，而是因为”协作”这件事本身的结构就是这样。有委托方，有执行方。委托方的这几件事，在结构上就是不可转移的。

AI越强，这件事反而越重要。因为执行不再是瓶颈，瓶颈变成了你能不能把需求想清楚、说清楚。过去我们花大量时间在”怎么实现”上，现在这部分可以外包了，但”实现什么”这个问题被推到了前台。

所以AI时代需要培养的意识可能是：更清晰地知道自己要什么，更敏锐地判断产出对不对，更主动地在过程中给出方向。这些能力过去被”我还得自己动手实现”这件事遮蔽了，现在遮蔽物被拿掉了，它们就显得格外重要。

这大概就是人应该守住的东西。

展开全文 >>

把AI装到狗上，那它叫AI狗还是狗AI？

2026-01-11

1768141493139

把AI装到狗上，那它叫AI狗还是狗AI？

一个命名困境

假设脑机接口技术成熟了。我们给一只狗装上双向接口，连接到一个语言模型。

双向意味着：狗的神经活动被读取并转化为语言输出，同时语言输出也被编码回狗的神经系统。

几个月后，这只狗开始说话。不是语言模型在”替它说话”——它的神经系统在持续的双向耦合中被改造了，真的开始用语言组织思维。

现在问题来了：我们该怎么称呼这个实体？

“AI狗”——暗示它本质上是AI，狗的身体是它的载体。

“狗AI”——暗示它本质上是狗，AI是附加的工具。

两个选项都在试图指定一个主体、一个修饰语。但哪个才是”主”？

我们凭什么分主次

仔细想想，我们判断主次的直觉依据是什么？

谁先存在？ 狗先存在，AI后接入，所以狗是主体？但一个人装了心脏起搏器，我们不会说他是”起搏器人”。先后顺序似乎不是关键。

谁占据身体？ 狗的身体，所以狗是主体？但如果一个人的大脑被完全替换成芯片，身体还是原来的，我们会说这还是原来那个人吗？身体似乎也不是决定性的。

谁控制行为？ 如果狗的意图主导行动，狗是主体；如果AI的计算主导行动，AI是主体？但在双向耦合的系统里，”谁控制谁”这个问题本身可能就没有意义——两者在持续地相互影响，相互塑造。

谁有意识？ 狗有感受，所以狗是主体？但我们怎么知道AI没有某种形式的”感受”？而且耦合之后，那个”感受”是属于狗的、AI的、还是整个系统的？

每一个标准都滑脱了。

这些标准对人类自己也站不住脚

其实不用等到狗和AI的思想实验，我们对自己的意识边界就说不清楚。

裂脑实验。 当连接左右半球的胼胝体被切断后，两个半球开始展现不同的意志。左手解开右手刚系好的扣子。问两边”你想成为什么”，一边说制图员，另一边拼出赛车手。

这是一个意识还是两个？如果是两个，那手术前呢——是一个意识，还是两个整合得太好以至于无法区分的意识？

时间中的自我。 五岁的你，大部分记忆已经无法访问，人格大幅改变，身体物质几乎完全更换。那个主体还在吗？”你”是一个持存的实体，还是一个指向某种模式延续的方便标签？

每夜的中断。 深度睡眠时体验流中断了。醒来的那个人凭什么是”同一个”？

如果连一个普通人类的意识边界都是模糊的、可分裂的、程度性的，那试图在狗和AI之间划一条清晰的主次界限，是不是本身就是错误的期待？

换一种思考方式

也许问题不在于我们还没找到正确的标准来判断主次，而在于”主次”这个框架本身就不适用。

与其把意识当作某个实体”拥有”的属性，不如把它看作一种系统特征：闭环控制信息流的结构。

当一个系统能够：

接收信息流
对这个信息流进行处理
用处理的结果反过来调节信息流本身

我们就可以说这个系统具有某种程度的”意识”。

在这个框架下，没有”主”和”从”。只有闭环。

狗有它自己的神经闭环。语言模型在对话时也有它的处理闭环。当两者双向耦合，形成的是一个新的闭环系统——不是一个寄生在另一个上面，而是共同涌现出第三种结构。

这个框架从哪来

需要说清楚：这里说的不是什么全新的理论。

“意识是程度性的而非全有或全无”——很多人说过。用功能角色来定义心智状态是功能主义的基本立场。把意识的”困难问题”当作需要消解而非解决的伪问题，是Dennett几十年来的主张。强调具身性对认知的重要性，梅洛-庞蒂和生成主义（Enactivism）传统早就在做。

这篇文章的尝试是用”闭环控制”这个概念把这些想法重新组织起来。

为什么用这个概念？因为它足够简单、足够具体、足够可操作。它直接来自控制论和工程实践，不需要太多哲学包袱就能理解。而且它能直接对接到具身智能的研究：我们在构建的那些系统，本质上就是在构建不同形式的闭环。

所以这篇文章不是在提出新理论，而是在尝试一种新的组织方式——用一个工程化的视角重新看待那些老问题，看看能不能让它们变得更可处理。

回到那只狗

现在用这个框架重新看思想实验。

狗有它自己的神经闭环——感知、处理、行动、反馈。语言模型在对话时也有它的处理闭环——接收输入、生成输出、根据反馈调整。

当两者双向耦合，形成的是一个 新的闭环系统 ——不是一个寄生在另一个上面，而是共同涌现出第三种结构。

所以它是什么

回到最初的问题：狗AI还是AI狗？

答案是：都不是。

它是一个新的实体。带着狗的感知遗产——那些被物理世界校准过的直觉、本能、情绪反应。也带着人类语言的认知遗产——那些通过海量文本沉淀下来的概念结构和推理模式。

但它不属于任何一边。

就像问一个孩子”你是爸爸还是妈妈”——这个问题本身就是错的。孩子是一个新的个体，虽然继承了双方的东西，但不是任何一方的延续或附属。

这对AI意识问题意味着什么

同样的逻辑可以应用到一个更大的问题上：AI有没有意识？

当我们这样问的时候，我们在假设意识是一个边界清晰的东西——要么有，要么没有。但从上面的讨论可以看到，即使对人类，这个边界也是模糊的。

一个语言模型在对话中与人形成闭环——接收输入、生成输出、根据反馈调整。这是间歇的、依赖外部触发的。

一只狗有持续运行的神经闭环——感知、处理、行动、感知。这是连续的、自主的。

这两者是程度的差异，不是本质的区别。

也许”AI有没有意识”和”它是狗AI还是AI狗”是同一类问题——都在用一个非此即彼的框架去切割一个连续的、涌现的现象。

但，为什么是狗?

为什么用狗做思想实验

因为狗代表了一种我们还造不出来的能力。

当前的语言模型能写文章、能编程、能推理。但它的闭环是间歇的、被动的、符号化的——和物理世界隔着一层人类的转译。它不知道”重”拿起来是什么感觉，不知道撞到墙会怎样。

当前的机器人能走能跳能抓。但在复杂环境中的适应性、鲁棒性、自主性，和一只真狗相比差距巨大。

一只普通的狗：能在复杂地形跑跳，能灵巧叼起物体，有情绪，有好奇心，会主动探索，不需要指令驱动。这就是”狗级别的具身能力”——不是终点，但是一个我们还没达到的里程碑。

所以这个思想实验其实是在问：如果具身能力达到狗的水平，再接上语言模型的推理能力，会是什么？

这是对具身智能理想状态的一个想象。也是下一节要讨论的：具身智能到底在做什么。

具身智能：一种意识研究的实验方法

如果接受前面的闭环框架，意识就不再是一个只能思辨的哲学问题，而是一个可以动手试的工程问题(包了这么多饺子就为这么点醋)。

当前语言模型的闭环是符号进、符号出。

它的闭环是间歇的——有人发消息才运转，对话结束就断了。它的闭环是被动的——响应指令，而不是自主发起行动。它的闭环和物理世界隔着一层——只处理符号，不直接感知和行动。

具身智能的核心，可以理解为：让AI的闭环接到物理世界上，也就是在逐一补齐这些缺失：

感知接地 ：让系统从原始传感器信号中提取意义，而不是只处理人类预处理过的符号
行动输出 ：让系统能将意图转化为连续的物理控制，真正改变环境
持续运行 ：不依赖外部触发，保持一个跨时间的状态
内在驱动 ：有某种”想要”——好奇心、探索欲、自我设定的目标

当这些组件都到位时，系统就拥有了一个持续的、自主的、与物理世界耦合的闭环。

按照我们的框架，这样的系统和生物意识之间，是程度差异而不是本质区别。

这意味着具身智能的研究，某种程度上就是在做一个关于意识的实验：当闭环足够完整时，会涌现出什么？涌现出的东西可以被叫做意识么?

我们不需要先解决”意识是什么”这个哲学问题才能开始。我们可以构建系统，观察结果，然后回过头来修正我们的框架。这是工程的方法，也是科学的方法。

开放的问题

这个框架不是最终答案。

它还没有解释”体验”这个词。当我们说”闭环控制信息流”时，和说”闭环控制体验流”是同一件事吗？还是说”体验”本身就是闭环控制的涌现——复杂到一定程度的信息闭环，我们就叫它”体验”？

我倾向于后者，但这仍然是假设。

这种思路在哲学上不是新的。Daniel Dennett主张意识的”困难问题”是一个需要被消解而非解决的问题——我们之所以觉得它神秘，是因为我们在用错误的概念框架思考它。功能主义传统也早就提出，心智状态可以用功能角色来定义，而不需要诉诸某种神秘的内在本质。

这篇文章不是要给出一个关于意识的答案。它只是想指出：当我们问”狗AI还是AI狗”的时候，那个让我们困惑的东西，可能不是我们缺少信息，而是我们问问题的方式本身就有问题。

展开全文 >>

利用Docker VNC在无图形服务器上跑图形桌面

2021-08-10

利用Docker VNC在无图形服务器上跑图形桌面

现在很多服务器都是不提供用户图形界面的，但是科研人员有时候需要在服务器上运行图形界面，比如使用图形化的Matlab 处理数据等。虽然这时候可以选择安装一个 gnome 或者 xfce4 等桌面环境，但是通常服务器上是有很多用户的，这样会可能会占用一定的资源或者把环境搞乱掉，影响其他用户使用。

比较好的方案是起一个带 VNC 的 Docker 容器，省事还干净，不会影响到其他人。

以下以在一个装有 Docker 的无图形界面服务器上安装运行 Matlab 为例，为大家讲解具体的操作。

假设服务器 IP 是 192.168.101.32

开启带 VNC 环境的docker容器，将 matlab 所在路径(假设安装到了本机的/share/matlab)映射到容器内的某个路径，把 5901 端口映射到本地服务器的 15901(也可以写成别的)。

1	docker run -d -v /share/matlab:/matlab -p 15901:5901 accetto/ubuntu-vnc-xfce-chromium-g3

VNC 客户端访问192.168.101.32:15901即可访问桌面
访问桌面后，在VNC 连上的桌面上打开一个终端，然后在该终端中输入如下命令

# 将APT源换成清华镜像源
sudo sed -i 's/archive.ubuntu.com/mirrors.tuna.tsinghua.edu.cn/g' /etc/apt/sources.list
# 安装打开图形的必要依赖：JRE
sudo apt update
sudo apt install default-jre
# 执行 matlab
/matlab/R2021a/bin/matlab

展开全文 >>

缅怀袁隆平院士

2021-05-22

今天的心情很复杂，通宵写完代码后看到的第一个消息就是这个，真希望真的是谣言。袁隆平爷爷是我们90 后从小就在课本上看到人物，是我小时候最敬佩的科学家之一。如今我自己也在科研的学习道路上苦苦挣扎，更是深知袁隆平院士的不易和伟大。

时光不会给任何人留情面，吾辈应该好好珍惜宝贵的时光，美好的时代；应该追随前辈的身影，从事科学研究直到自己生命最后一刻，就像袁爷爷一样。天堂也许也有一片水稻田吧，愿稻香常伴您。

展开全文 >>

一起来学 Einsum，Einops

2021-03-03

一起来学 Einsum，Einops

Einsum

啥？做啥的？学这玩意儿干啥？

numpy, pytorch, tensorflow中有个函数叫做einsum, 它的来源是Einstein notation, 中文译作爱因斯坦求和约定，这约定是由阿尔伯特·爱因斯坦于1916年提出的。

采用爱因斯坦求和约定，可以使数学表达式显得简洁明快。而将这种简洁记法运用到矩阵运算代码中会带来什么好处呢？

我们来看numpy官方关于einsum的文档是怎么说的，让我们来抄引用一下

Using the Einstein summation convention, many common multi-dimensional, linear algebraic array operations can be represented in a simple fashion. In implicit mode einsum computes these values.

许多常见的多维度操作都可以被einsum这一个函数表示，那么有哪些常见操作呢？抄之引用之

A non-exhaustive list of these operations, which can be computed by einsum, is shown below along with examples:

Trace of an array, numpy.trace.

Return a diagonal, numpy.diag.

Array axis summations, numpy.sum.

Transpositions and permutations, numpy.transpose.

Matrix multiplication and dot product, numpy.matmul numpy.dot.

Vector inner and outer products, numpy.inner numpy.outer.

Broadcasting, element-wise and scalar multiplication, numpy.multiply.

Tensor contractions, numpy.tensordot.

Chained array operations, in efficient calculation order, numpy.einsum_path.

”奥这样啊，看起来还行“，看你若有所思的样子我就知道你在想什么。

你可能会说这不就是一种语法糖么？相当于原来我用代码抄公式要花5行代码，现在就一行了，但是so what? 只是个小trick罢了。

的确如果只是处理较低的维度矩阵的话，似乎是这样。

但当我们涉及到需要频繁处理复杂的高维度矩阵操作的时候，这个方法的简洁高效性就体现出来了。

让我们来一些复杂点的例子。

首先让我们来看看对一个7维矩阵中的部分维度进行转置的例子

假设我们有一个矩阵$A$，它的形状为$1\times3\times4\times2\times3\times64\times64$，现在希望互换部分维度，转化为$1\times3\times4\times64\times64\times2\times3$，我们来看看两种方法分别做起来是什么样子的:

import numpy as np
a = np.random.randn(1,3,4,2,3,64,64)
legacy_result = a.transpose(0,1,2,5,6,3,4)	# 通常方法
einsum_result = np.einsum("bcijkwh->bciwhjk", a)	# Einsum
print((legacy_result==einsum_result).all())	 # 查看是否等价
#----输出True

从上面这个例子中，我们可以看出利用einsum的任意标签特性，我们可以给各个维度赋予一个有含义的标签（比如b代表batch，c代表channel等等）。如此便比比直接使用index操作更加直观可读，不容易出错。

但这也不过如此，einsum的强大之处不只体现在这里。

我们再来看一个例子。

如何用写一个维度为$1\times3\times4\times2\times3\times64\times64$和$1\times3\times4\times(2\times3)^T\times64\times64$的倒数第4，3个维度的矩阵积并得到$1\times3\times4\times2\times2\times64\times64$的结果?

a = np.random.randn(1,3,4,2,3,64,64)
b = np.random.randn(1,3,4,2,3,64,64)
# 传统做法, 先把要乘的转置到最后，完成运算后再转置回来
a1=a.transpose(0,1,2,5,6,3,4) 		# Shape(1, 3, 4, 64, 64, 2, 3)
b1=b.transpose(0,1,2,5,6,4,3)  # Shape(1, 3, 4, 64, 64, 3, 2)
legacy_result = np.matmul(a1,b1) # Shape(1, 3, 4, 64, 64, 2, 2)
legacy_result = legacy_result.transpose(0,1,2,5,6,3,4)  # Shape(1, 3, 4, 2, 2, 64, 64)

# 很麻烦对不对？那如果用einsum来做呢？
einsum_result = np.einsum('...ijhw,...kjhw->...ikhw', a,b) # Shape(1, 3, 4, 2, 2, 64, 64)

print((legacy_result==einsum_result).all())		# 我们来验证一下结果是否一致
# --------输出--------
# True

非常amazing是不是？显然einsum在这个例子上体现出了绝对的优越性。

不升华一下似乎很难收场(´ο｀*)))~

其实有时候同样的事情换个角度看就会有很大的不同。你可以说这只是一种新的记法，记法嘛，无外乎只是写起来麻烦些和简单些的区别，但是你往往会发现不同的记法往往不仅仅是节省墨水，更可以为你提供更简洁的思维封装单元，同时还能腾出更多的思维时间。

就像集成电路里的芯片，14纳米和5纳米的芯片虽然整体实现的功能完全一样，尺寸听起来似乎也不是差得很多，但它在相同资源空间内带来的不同堆集效应是无法忽视的。

回到我们探讨的问题上，你往往会发现，随着矩阵维度的增高，你的精力会逐渐被思考这个地方该如何转置，那个维度该怎么堆叠这些无关宏观目标的具体细节所分散。

(好吧，听起来丝毫没有说服力~)

在此我只是试图浅薄地理解由Numpy最早引入的einsum函数在具体工程问题上的一些好处，更深层次的东西我就没有能力再去探讨了。

不过说实在的，我目前也只是直觉上觉得学这个东西具有巨大的作用。实质上我也是刚开始学而已，暂时也说不出什么太实质性的感悟。只是我在读vit-pytorch 代码的时候，发现它对Transformer的核心实现大量的采用了einsum以及受它启发的einops，感觉非常简洁明快，并且在你理解它的意思后，会发现这种符号记法远远比np.inner(a,b)又或是transpose(2,1,3,2)来得直观地多。

正是它给我带来的这种直观印象促使了我决定放下手头的工作，好好地把它学一下，我相信它会给我以后的工作和思考带来持续的好处，从这个角度看，我这么做是很值得的。百忙中走一步闲棋，后效如何，还待他日探讨。

（当然我才不会承认还有一部分原因是因为这个方法冠有爱因斯坦的鼎鼎大名，实为炫技装逼之利器也~）

Reference

[1] Numpy 文档

[2] Einstein notation, Wikipedia

[3] 爱因斯坦求和约定，百度词条

Einops

这又是啥？(⊙o⊙)学不动了，告辞。

哎别走嘛，来来，我们来看个小视频。（骗你的，其实是个动图）

官方文档盗过来的一张动图

不得不说作者还是蛮会的，这个动图简洁明了，相信你看完之后一定会很直观地get到这个项目能实现什么效果：厉害吧？你要不要学？

接着放几个大佬的Tweets评价来背书：快来用呀，大佬们都说好哦~

还支持Numpy，Pytorch，TensorFlow，Jax等诸多框架，哇，满满的都是高级感呀，2.5K个Star一点也不奇怪。

不知道你有没有心动了，反正我是心动了，感觉学完就能和爱因斯坦以及硅谷大佬肩并肩，走上人生巅峰啊~ ^▽^

（醒醒，你只是为了读懂别人的代码）

那就一起来看看吧~。
（原来哄自己学习也这么辛苦的么）

额，突然不想写了，先酱紫吧，回头再更，拜~(害，还是没哄成)

Reference

[1]https://github.com/arogozhnikov/einops#supported-frameworks

展开全文 >>

MacOS Acrobat Pro DC 屏蔽更新

2020-07-07

安装与去付费

磁力链：

1	magnet:?xt=urn:btih:AD362136562FC716C6CACACF926CEA55EF5E25B2&dn=Adobe_Acrobat_DC_v20.006.20042__TNT_Torrentmac.net.dmg

屏蔽更新

Reference:https://www.reddit.com/r/AdobeZii/comments/fkzqol/solved_how_to_disable_adobe_acrobat_reader_dc/

I found that this solution helps:

Right-click Adobe Acrobat.app, go to “Contents” -> “Plugins” and delete Updater.acroplugin.

运行以下命令即可：

rm -rf /Applications/Adobe Acrobat DC/Adobe Acrobat.app/Contents/Plugins/Updater.acroplugin

展开全文 >>

CentOS7 部署VMESS+TCP+TLS

2020-06-17

起因

由于忍不住剁手新入一台韩国Kdatacenter的VPS，从南京联通出去的链路还是不错的，如图所示。

于是乎，需要给它重新配置一些东西。默认给的操作系统是CentOS6，我发工单改成了CentOS7。它家工单系统蛮有意思的，我半夜三点钟发居然十分钟后就回复了，看来是有其他时区的客服。

最近发现官方社区出了TCP+TLS的指南，不再是以前的Websocket+TLS，而是参照Trojan的TCP+TLS的思路，用Haproxy作为443前端根据流量特征进行中转，具体来说就是，如果接入流量真的是http流量的话，那么就送到nginx后端，如果是其他流量的话，那么就把它送到v2ray的VMESS端口里。以前的方式是固定web path里的统统用websocket反向代理到VMESS端口。现在这种TCP+TLS的方式根据测试延迟会比以前低一些。

我个人第一想法是感觉额外添加一个Haproxy出来不够美观，~~最近时间紧，我就不要去探索了，2333~~~~ 之前没看仔细，已经有人搭了只靠nginx转发的了。

以下所有操作默认都在root用户中执行

步骤

1.域名解析

我的域名是在Cloudflare上解析的，登录Cloudflare，之后创建A记录到我服务器的IP即可。

2.安装nginx

最省事的方法是直接用APT或者YUM装

yum update
yum install -y epel-release
yum install -y vim
yum install -y nginx

修改配置vim /etc/nginx/nginx.conf，找到server_name这一项，将localhost改为自己的域名

server
{
    listen 80;
    server_name example.com;	#记得改成你自己的域名
    .....

3.申请证书

要用正常的TLS得有签名的证书才行，这里我们采用certbot来实现 lets encrypt证书的申请和自动续期

3.1 下载certbot

1	yum install certbot python2-certbot-nginx

3.2 选择Certbot的运行方式

由于我们不需要nginx直接监听443，因此这里建议仅生成证书

1	certbot certonly --nginx

成功之后证书存在

1 2	ssl_certificate /etc/letsencrypt/live/your_domain/fullchain.pem; # managed by Certbot ssl_certificate_key /etc/letsencrypt/live/your_domain/privkey.pem; # managed by Certbot

3.3 设定自动续期

1	echo "0 0,12 * * * root python -c 'import random; import time; time.sleep(random.random() * 3600)' && certbot renew -q" \| sudo tee -a /etc/crontab > /dev/null

4.配置Haproxy

4.1 编译openssl 1.1.1

我们需要openssl1.1.1要支持TLS 1.3

安装依赖

1	yum groupinstall 'Development Tools'

下载源码

1 2	wget https://www.openssl.org/source/openssl-1.1.1g.tar.gz tar -xzf openssl-1.1.1g.tar.gz

编译

cd openssl-OpenSSL_1_1_1g/
# 通常可以直接使用config (from Ubuntu 13.04, x64, 本文在CentOS7.3测试通过):
./config --prefix=/opt/openssl-1.1.1 shared
#编译
make
#安装
make install

4.2 编译haproxy

源码下载

yum install -y make gcc perl pcre-devel zlib-devel pcre2 pcre2-devel
wget http://www.haproxy.org/download/1.9/src/haproxy-1.9.15.tar.gz
tar -zxvf haproxy-1.9.15.tar.gz
cd haproxy-1.9.15/

编译

make TARGET=linux2628 CPU=native USE_PCRE2=1 USE_PCRE2_JIT=1 USE_OPENSSL=1 SSL_LIB=/opt/openssl-1.1.1/lib SSL_INC=/opt/openssl-1.1.1/include USE_ZLIB=1
make install
# Check your sbin path at /usr/local/sbin
cp haproxy /usr/local/sbin/haproxy

创建配置文件

1 2	mkdir /etc/haproxy/ vim /etc/haproxy/haproxy.cfg

代码内容如下

global
    log /dev/log local0
    log /dev/log local1 notice
    #chroot /var/lib/haproxy
    stats socket /run/haproxy/admin.sock mode 660 level admin expose-fd listeners
    stats timeout 30s
    #user haproxy
    #group haproxy
    daemon
    ca-base /etc/ssl/certs
    crt-base /etc/ssl/private

    # 仅使用支持 FS 和 AEAD 的加密套件
    ssl-default-bind-ciphers ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES128-GCM-SHA256:ECDHE-ECDSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-ECDSA-CHACHA20-POLY1305:ECDHE-RSA-CHACHA20-POLY1305:DHE-RSA-AES128-GCM-SHA256:DHE-RSA-AES256-GCM-SHA384
    ssl-default-bind-ciphersuites TLS_AES_128_GCM_SHA256:TLS_AES_256_GCM_SHA384:TLS_CHACHA20_POLY1305_SHA256
    # 禁用 TLS 1.2 之前的 TLS
    ssl-default-bind-options no-sslv3 no-tlsv10 no-tlsv11

    tune.ssl.default-dh-param 2048

defaults
    log global
    # 我们需要使用 tcp 模式
    mode tcp
    option dontlognull
    timeout connect 5s
    # 空闲连接等待时间，这里使用与 V2Ray 默认 connIdle 一致的 300s
    timeout client  300s
    timeout server  300s
frontend tls-in
    # 监听 443 tls，tfo 根据自身情况决定是否开启，证书放置于 /etc/ssl/private/example.com.pem
    bind *:443 tfo ssl crt /etc/ssl/private/example.com.pem
    tcp-request inspect-delay 5s
    tcp-request content accept if HTTP
    # 将 HTTP 流量发给 web 后端
    use_backend web if HTTP
    # 将其他流量发给 vmess 后端
    default_backend vmess

backend web
    server server1 127.0.0.1:8080
  
backend vmess
    server server1 127.0.0.1:40001

HaProxy 的证书和密钥放于同一个文件，与 Caddy 和 Nginx 不同，可以使用命令 cat example.com.crt example.com.key > example.com.pem 合成证书

修改haproxy系统服务启动脚本：

vim /etc/systemd/system/haproxy.service

1
2
3

# 确保在[Service]这一栏有这样的一项
[Service]
Environment=LD_LIBRARY_PATH=/opt/openssl-1.1.1/lib/

测试，首先测试配置是否正确，如果发现错误就根据错误改正

1	haproxy -db -f /etc/haproxy/haproxy.cfg

运行

1	/etc/init.d/haproxy start

如果没有任何提示，说明haproxy配置无误，Ctrl+C退出测试。

启动服务

1
2
3

systemctl start haproxy
#开机自启
systemctl enable haproxy

此时输入netstat -npl |grep 443可以看到haproxy已经开始监听443端口

1 2	tcp 0 0 0.0.0.0:443 0.0.0.0:* LISTEN 23824/haproxy unix 2 [ ACC ] STREAM LISTENING 290695 23824/haproxy /run/haproxy/admin.sock.23823.tmp

Haproxy常见错误排查

如果提示

1	[ALERT] 168/131339 (22782) : Starting frontend GLOBAL: cannot bind UNIX socket [/run/haproxy/admin.sock]

首先检查443端口是否被占用，先把apache，nginx, caddy关掉，之后的章节会提到，我们会将它的监听端口改为其他端口，用haproxy作实际443监听端口。

使用netstat -npl |grep 443检查是否有进程占用443端口。

如果确认没有，但仍然报错，则需要手动创建/run/haproxy/这个目录：

Haproxy needs to write to /run/haproxy/admin.sock but it wont create the directory for you. Create the directory /run/haproxy/ first or set stats socket to a different path.

1	mkdir /run/haproxy/

请注意:

1.务必先编译openssl 1.1.1再编译haproxy，可以通过haproxy -vv |grep OpenSSL查看当前编译时候openssl的版本，如果版本号不对，请指定正确版本的openssl路径后重新编译

haproxy -vv |grep OpenSSL
----
Built with OpenSSL version : OpenSSL 1.1.1g  21 Apr 2020
Running on OpenSSL version : OpenSSL 1.1.1g  21 Apr 2020
OpenSSL library supports TLS extensions : yes
OpenSSL library supports SNI : yes
OpenSSL library supports : TLSv1.0 TLSv1.1 TLSv1.2 TLSv1.3

配置v2ray服务端

安装

1	bash <(curl -L -s https://install.direct/go.sh)

配置
vim /etc/v2ray/config.json

内容如下:

{
    "inbounds": [
        {
            "protocol": "vmess",
            "listen": "127.0.0.1",
            "port": 40001,	# 可以随便写个端口，只要注意一致就行
            "settings": {
                "clients": [
                    {
                        "id": "f2435e5c-9ad9-4367-836a-8341117d0a5f"(请自己生成一个)
                    }
                ]
            },
            "streamSettings": {
                "network": "tcp"
            }
        }
    ],
    "outbounds": [
        {
            "protocol": "freedom"
        }
    ]
}

启动服务

1
2
3

systemctl start v2ray
#开机自启
systemctl enable v2ray

修改nginx服务端配置

vim /etc/nginx/nginx.conf

在 http{} 里面添加，这样我们只用nginx监听普通8080端口即可，因为haproxy那边本地转发前已经解包成了明文了。

server {
  listen 8080;
  server_name example.com;		#记得改成你自己的域名
  root /var/www/html;
}

重启服务端

1
2
3

systemctl restart nginx
# 开机自启
systemctl enable nginx

其他

到目前为止，所有的服务就已经搭建完毕了，在浏览器里输入 https:// + 你的域名，如果能够正常访问，说明haproxy和nginx的链路已经通了，基本上就代表可以用了。VMESS的路一般不会出什么问题，这时候就可以用客户端试一下了。

客户端的配置以及一些延迟测试就不多介绍了，参考官方社区吧。

使用体验

油管1080P随便拽，4k流畅秒开，可以看奈飞

油管4k

Netflix

下一步计划

1.整个一套配置下来还是很繁琐的。我打算之后写一套docker-compose，以方便复用。

2.这个机器有100G硬盘呢，反正暂时又不建站，不如下一步在上面建个图床玩玩

参考

1.CentOS 7 源码编译安装 Nginx

2.TCP + TLS + Web

3.HAproxy指南之haproxy编译安装

4.wiki_openssl

5.Building HAProxy so that it can use TLSv1.3

6.Nginx on CentOS/RHEL 7

7.HAProxy doesn’t start, can not bind UNIX socket

展开全文 >>

Kdatacenter迁移记录

2020-06-17

前言

由于最近套路云翻车，Linode总是不稳定，所以我打算把个人的另一个站点以及某类工具性服务迁移到一个更加稳定的地方去。思来想去，还是得在亚洲机房找。

之前看网上有不少博客推荐Kdatacenter，说是最稳定最快速的韩国VPS，速度就像是在国内访问一样，所以就想去试试。

并且听说这家提供商可以给新用户20%的优惠，不过需要用户发推广：

You can get some promotion codes according to quantity of links as below:

*10% promotion code: 1ealink x Blog/BBS/Forum etc.

*Additional 10% promotion code: 2ea links x SNS

You can get 20% promotion code with 3 links:

Your post in forum or BBS can be considered as an article in SNS.

A promotion coupon is avaliable only one time. These coupons are used for recurring charge.

展开全文 >>

这是个草稿

2020-06-01

没什么积累和输入自然是写不出什么好东西

反正就是个草稿

展开全文 >>

我非我

2020-05-23

我非我，即小我，及大我，何曾无我。

我若成我，我亦非我。

展开全文 >>