随便配张图,随便配首歌~

看到蓝天白云就会好心情

【思考分享】

五行相生相克关系的内在逻辑理解:

为什么a生b的同时克c,因为只有克下一个,才能生出当前的,这样才是一个稳定的关系;
水->木->火->土->金是一个五元循环关系。
2025-02-24T14:46:38.png

端到端路线VS规则路线理解:

  • 通常的技术路线是这样的:
    规则先行,通过规则摸爬滚打几个版本,不断踩坑,摸清了系统的关键感知输入;
    规则在早期的优势是:快速迭代、高效解决主流场景的问题;
    随着解决的问题越来越多,规则开始出现瓶颈,不同的规则相互打架,不断针对corner case打补丁,最终演变成无人能懂其全貌、无人能维护的屎山代码;
  • 这个时候端到端开始体现优势,这个时候系统要解决的主要问题不再是主流场景的问题,而是长尾场景的问题;
    主流场景的问题,通过case by case一个规则能解决一批,性价比很高;
    长尾场景的问题,一个case就要一个规则来解决,靠case by case是搞不定的;
    长尾case是个例化出现的,每个长尾case虽然看起来不起眼,但也是真实场景,也影响到用户的体验;长尾case累计到一起也很可观;主流场景大家都能搞得定,而长尾场景才是竞争力的关键;
  • 端到端技术使得我们不需要花费精力去解释数据,只需要构建好输入和输出的数据集,让AI去解释数据;AI能看得到数据的全貌,不会出现规则打架;端到端最大的好处是将解释数据的成本降低到0;同时因为消除了中间模块串联的误差,能力上限也得到提升。
  • 端到端技术是解决长尾场景的自然选择。
    特斯拉FSD一定是因为规则出现了瓶颈,才去选择走端到端路线。
    很多可靠的系统也都是端到端的,骑自行车能保持平衡并不是因为大脑一直在做规则运算,而是因为形成了肌肉记忆,所谓的肌肉记忆就是端到端。当然,规则也在对骑自行车时的决策进行兜底,在复杂路况大脑会接管决策,而在安全区间大脑可以一心二用想别的事情。
  • 技术没有好坏之分,在特定场景下能解决特定问题的就是好技术。
    端到端也不是制胜法宝,端到端依赖数据集,我们数据集上限是怎样,端到端的上限就是怎样;端到端需要做的事情就是不断去优化数据集,数据治理决定了端到端的成败。
  • 从哲学角度看,任何事物都是对立统一的。存在规则的路线,是因为系统有内在物理规律,而存在基于概率统计的端到端路线,是因为系统是测不准的,任何测量都有精度上限。技术从规则走到端到端是进步的,但是端到端路线内部也会进一步深入,深入后的对立路线里面规则的思想会以新的方式再次出现;可以想象下,用特殊的规则压制了幻觉,就是更好的端到端。

VAE变分自编码器理解:

机器学习常规用法是通过一个模型学习样本的分布,例如语音就是一种有规律的分布,中文有中文的分布,英文有英文的分布,方言、其他语言、甚至动物语言,他们都有自己的分布,那这些分布有没有一些相似之处呢?很显然是有的。所谓变分,就是我们学习到一种分布后,将这个分布作为高斯分布的一种特例,变换分布得到另外一种合理的分布。
如果我们轻微的变换分布,可能可以由“男性声音”变换为“女性声音”(女性的声音频率普遍高于男性)、从一个人的声音变换成另外一个人的声音;如果重度的变换分布,可能可以由“人类声音”变换为“动物声音”。

可以想象下我们人类的语音是有一个内核规律在里面的,每个人说话的音色、音调、语速都不一样,但是可以表达相同的含义。
自编码器就是学习到这种内核的规律,学习到了在“音色、音调、语速”以及“智慧程度、情绪”等等有限参数下的语音分布;而变分,就是将这些有限参数看做高斯分布的少部分特例,学习其他分布,从而通过不变的内核规律,生成出新的,训练样本中没有见到过但是概率合理的分布。

VAE的AE(自编码器)的网络结构,是将原始输入变换到一个低维的潜空间、再从潜空间还原到原始输入,通过最小化还原误差,来驱动网络学习到数据的分布规律,是一种自监督学习。我们可以将低维潜空间认为是内核规律的一个特例分布。
而“变分”则是变换这个低维潜空间的分布,通过变分的思想,VAE成为一种生成式的AI技术,现在的大模型也是一种生成式AI技术。所谓生成式,就是训练样本中没有见过这些数据,但是生成的内容是合理的、有逻辑性的。

大模型为什么具有推理能力的理解:

大模型推理能力的本质,可以从VAE原理上得到启发。
大模型训练步骤很复杂,但主要阶段分为预训练和微调:
预训练阶段:将海量文本,通过文本天然的序列分布关系,自监督训练,学习到文本的规律:语言模型。例如:“今天”后面出现“天气”的概率最大,“今天天气”后面出现“不错”的概率最大。
微调阶段:通过监督、强化学习等方式,让模型分布偏向人类易于理解的方向。例如我们问大模型“这个问题怎么解决”,我们是肯定不希望他反问:“你觉得呢”,也不希望他拒绝回答:“我不知道”,或者答非所问、或者长篇大论等等。尽管这些答复方式在我们人类的对话中经常出现,在训练预料中经常出现,但是我们挑出了一种最符合大多数人预期的一种回答方式。

我们可以和VAE进行类比。
预训练语言模型就是学习到有限参数下的文本分布,这个文本分布里面已经包含了人类推理能力的内核规律。VAE也通过自编码器学习到内核规律。
而LLM的微调,则是从海量分布中,选择到一种“最靠谱、最有价值”的参数空间,可以看做是从一个高斯分布中选择其中一个特例分布(一个具体的潜空间分布)。而VAE是由一个特例分布,估算高斯分布,从而变换为另外一个分布。

我们继续用语音来理解,假设我们将世界上所有出现过的声音用LLM方式预训练,那预训练后的模型里面,一定有一种分布是汉语,通过微调我们可以找到汉语这种特例分布。而如果我希望实现翻译的功能,也可以通过微调得到这种语音翻译的特例分布。

量子纠缠不允许超光速信息传递的理解

  • 本质原因:只能获取量子的状态,无法设置状态,而获取状态得到的结果是随机的。
  • 虽然在地点A获取到了状态后能确定出在地点B的状态,但是由于获取的状态是随机的,无法传递有用信息。

动态范围理解:高音上不去低音下不来。

  • 很高的信号,测量出现饱和了,上不去。
  • 很弱的信号,测量精度不够,淹没在噪声了。
  • 所谓动态,就是最大值与最小值的差异,对比度。
    高音唱不上去,再高一点就破音了,音调就不准了;低音下不来,再低一点就听不见了。
  • 很多事情都是这样的二元矛盾,先贤智慧用阴阳五行概况了一切事物的本质。
    山南水北太阳照得到,称作阳;反之称作阴。
    我们可以把生活中万事万物都纳入到这个阴阳理论中,如同上面的饱和和弱信号,还有全局与细节、自信与自卑、奋斗与躺平、机器学习中的查全与查准等等。
    为什么要存在这样的二元矛盾呢,因为事物是复杂多元的,人类的思维适合处理选择题,阴阳就是二选一,五行就是五选一。阴阳是站在最主要的矛盾上思考,是战略层面的;五行是细分到内部的主要结构上思考,是战术层面的。阴阳五行分析的目的,就是找到一种平衡,使得各方共生,没有阴就没有阳反之亦然,没有躺平那什么叫奋斗呢。
    用这种思考方式看问题时,很多事情都会通透,比如人们常争辩的西方快乐育儿和东方的鸡娃,就是阴阳两面。我们可以少走极端,例如不会过度健身,也不会完全缺乏运动,人体是一个平衡的系统,适度的锻炼才能让身体保持正常的运转下去。

高效讨论问题的关键点

  • 不要泛泛而谈(不要听君一席话如听一席话,不要“关键的问题是找到问题的关键”这样的废话)
  • 不要面面俱到(只需要TOP3)

时间管理法

  • 不需要具体而精确的时间日程表
  • Deadline 是人的第一生产力
  • 进行非同步沟通,不被邮件打扰工作
  • 同类事件一起做,才能更高效率
  • 早起
  • 80%的时间分配在最重要的事情上
  • 主动结束或离开没营养的谈话,不做被动听众

【工具分享】

文件夹同步软件FreeFileSync

  • 能自动双向同步两个文件夹的软件,方便简单的数据备份,不要钱~
  • 结合海康入门级NAS,可很方便的管理家庭所有数据照片。

照片管理软件digikam

  • windows自带的照片管理功能太拉胯了,这个是开源免费的,功能强大,比较好用。

VNC-Viewer

  • windows上远程访问其他平台(Linux、windows)的软件,可与docker搭配用于团队协作开发。

DeepSeek&ChatGPT&智谱清言&kimi

  • 让知识获取变得免费
  • 现在给出一段文字的体验还是差点意思,360AI搜索给出思维导图的方式不错
  • 下一步直接给成PPT(图文结合给出直观的观点),知识获取的体验更佳;用户自己翻页控制节奏
  • 给出视频可能是终极方案,但是需要能个性化结合每个人的思维认知习惯

人生日历

个人阅读空间

添加新评论