原谅宝真的有道理吗

最近，网上有一个“原谅宝”事件引起很多网友极大热议。事情起因是网上有一个人在微博中说：

鉴于很多人都在说码农是各种退休小姐姐的接盘侠，我联合了几个小伙伴准备把1024、91等各种知名或者不知名网站上的视频及图片打tags去做匹配。为码农朋友们做一个初步过滤。

历经半年时间，采集了100多TB的数据，利用1024、91等网站采集的数据对比Facebook、Instagram、tiktok、抖音、微博等社交媒体，在全球范围内成功的识别了10万多从事不可描述行业的小姐姐。

通过女性照片，识别女性是否曾经从事过不可描述的行业。（可识破美颜、假声）

听起来好像很厉害的样子，这个世界上真的有那样神乎其技的算法

我们生活中很多经验来自类比。科学上的许多重要发现也是如此，当达尔文读到马尔萨斯的《人口论》(principle of Population) 时，被人类社会和自然界的激烈竞争的相似性所触动；波尔的电子轨道模型直接借鉴了太阳系的模型。机器学习中将这种方法称为类推学派，他们的逻辑很简单：第一，两个东西的某些属性相同，他俩就是类似的。第二，如果他们的已知属性相同，那么他们的未知属性也会相同。开好车上班的人可能也会喜欢用苹果手机，喜欢看《星球大战》的人可能也会喜欢看《三体》，但是基于类比归类是基于统计的说不清道不明的知识，难以通过逻辑来表达。例如，老警察一眼就可能看出谁是小偷，但不一定说得清楚原因。

在类推学派中最基础的算法叫做最近邻法。最近邻法第一次著名应用是在1894年伦敦爆发霍乱。当时在伦敦的某些城区每8个人就会有1个人死亡，那时人们认为这种疾病是一种“不良气体”造成的。但这个理论对控制疾病没有用。内科医生约翰·斯诺把伦敦的每个霍乱病例都标在地图上，他发现所有的病例都靠近公共水泵。最后推断病因是因为水泵水源污染，当他说服大家不要再用这个水泵的水后，疾病就得到了控制。在这里这些数据的相似点就是和这个水泵的距离。照片分类也是最近邻算法的一个简单应用。现在很多智能手机就是根据照片的相似性把照片自动归类的。

类推算法可以应用于跨领域学习，一个消费品公司的高管到路联网媒体公司不需要从头学起，华尔街雇佣很多物理学家来研究交易模型，是因为这些不同领域的问题内在结构是类似的。

类推算法中，第一件事是要定义“相似度”。相似度可以是身高、收入等连续变量，也可以是买入某一类书的次数这样的统计变量，也可以是性别这样的离散变量。总之，只有定义了相似度，才能度量一个分类方法是否最优。人可以感受相似度，但无论是人的感官还是大脑都无法量化相似度。人类在做相似度比较时，甚至都不知道在比较哪些特征和属性。但只要把相似度精确量化，机器抓准特征和属性，有可能比人判断还准。

现在，我们回到原谅宝这个话题，只从照片就发现这个人是不是从事不可描述事情的小姐姐是因为这个人的照片中有和做不可描述事情小姐姐类似的特征。但设计算法的时候，如何定义这个相似度呢。首先，这个相似度定义很难。其次人是复杂的，只从照片这个维度就定义相似度实在是过于武断。如果没有办法精确量化，机器算法的识别率就不可能高。几个人对100TB的数据进行合理正确标注，这首先就是一个根本不可能完成的任务。微博中所说的成功识别10万多个小姐姐，听起来好像是很高，但我们不知道他是从什么样的数据中识别的。如果数据中全部都是做不可描述的小姐姐，那即使闭着眼睛随便抓可以有很好的识别效果。

把女性物化和标签化，原谅宝事件，想必又是大男子主义的另一场狂欢吧。