中国多少地市?
这个问题好像有点久远了,不过没关系,现在回答应该也不算晚。 据我所知,目前在中国,市与市之间是没有严格意义上的户籍划分(即行政区划)的——比如说北京有个朝阳区,天津有个和平区,西安有个碑林区等等这样的区别。它们之间的边界并不是一条线分得清清楚楚的,而是一个大致的范围而已;而且这种边界也不是一成不变的,是随时都在变化的。这就造成了在数据上的混乱——比如说百度地图和搜狗地图都提供了“距离”功能,输入两个地址就能知道两者的直线距离;但是百度提供的距离是以行政区域为界限的(也就是所谓的“行政区划距离”),而搜狗则是以实际经纬度算起的(也就是所谓的“真实世界距离”)。前者容易把人弄糊涂,因为同一个城市不同行政区之间的距离总是被百度给拉得老大老大的……后者由于把城区范围缩小到了个位数,所以比较起来就一目了然了。 至于为什么会有这样的混乱,原因就在于中国没有建立完全的数据库体系来精确地记录每一个地理单元(比如每一条街每条路甚至每个建筑物)的确切坐标——虽然理论上来说,通过GPS和GIS这样精确的科学技术可以解决这样的问题,但现实中这样做显然不现实。于是我们只能退而求其次,用大致的地理坐标以及由此估算出的相对位置关系来构建我们的数据库。当然,既然能构建这样的数据库,自然也能进行相应的优化,比如说对于同一类数据的处理给予一定的加权计算从而尽量使其准确。但这终究只是一个近似计算,存在一定的误差,需要我们自己加以判断。
我个人认为,要判断一种数据的准确性首先要观察其变化规律与逻辑是否合理,然后要看其能否与其他来源的数据相互印证。如果经过反复验证,发现确实无法得出某个城市的坐标数据,那么我们只能接受这个遗憾了——毕竟,如果连一个城市的坐标都无法精确确定的话,那么所谓大数据也就不复存在了。