判断数据的真伪

《数据会骗人，但折腾数据的过程不骗人》

这几天，我跟 Claude 在那一堆“旅客运输数据”里较上劲了。
其实，最后那几张花花绿绿的图表长什么样，我并不怎么上心。对我来说，看结果那是交作业，拆解问题的过程才是长本事。我更喜欢那种像修旧机器一样，把零件一个个拆开、洗净、看清楚里边到底哪块齿轮崩了的快感。
某些年份的运输数字，乍一看挺漂亮，但我怎么看都觉得这数字“眼色不对”。这种直觉不是拍脑门，而是跟逻辑打了一辈子交道后，身体里留下的警报器。大多数人看到皆大欢喜的数字就收工了，但我决定留下来，审一审这些数字背后的底色。
我用了一个叫“鲁棒 Z 分数”的工具。说白了，它就是一把不随大流的硬尺子。它不看大家的平均分，只盯着最中间的那个数。结果一量，有些月份的数据直接蹦到了 80 多甚至 100 多。这哪里是行业在回暖？这分明是跳高运动员跳了 170 多米。这数字不是破了纪录，是已经把物理规律给“跳”没了。
后来我发现，最坑人的还不是算错了，而是“换了尺子”。
同样叫“旅客运输量”，此时的统计口径和彼时的范围，可能早就不是一码事了。这种“口径”上的猫腻，藏在看不见的角落里。如果你不盯着它的分子分母看，算出来的占比再精确，也全是在虚空里盖大楼。当你开始追问“这个数字到底在量什么”时，你才算真正看破了这场数字游戏。
数字这东西，你不问它，它就一直装糊涂。
这次“折腾”让我明白一个理儿：数字会撒谎，甚至会为了凑出某个“美丽梦”而配合演出。如果你只想要个现成的答案，那你大概率会被带进沟里。计算只是个力气活，而那种带着质疑的推敲，才是穿透迷雾的唯一光束。
学会计算是手艺，学会不被结果糊弄，才是修行。

[[本福特定律检验]]
检查真伪数据脚本位置
有两个脚本
1 streamlit run data_authenticity_check.py
2 streamlit run financial_data_authenticity_check.py