如何徒手写一个申万行业分类数据
申万行业分类作为国内比较权威的A股分类标准,对于研究股票具有重要的参考价值。我们观察到,目前市面上(至少免费层面)没有一个相对完善、完整的历史数据与每日更新数据。
-
号称国内数据之王的万得,一方面对于用户提取的数据量有严格的限制,这导致我们在复原历史数据的过程经常会触发阈值;另一方面,我们发现万得会确实部分数据,以及存在臭名昭著的脏数据问题。比如,万得由于授权原因,无法提供上交所科创板股票的申万行业分类数据;再比如,这个票
000008.SZ
,我们通过申万网站查询该票的历史变更情况:可以查询到该票其实应该数据
机械设备
,相应的申万行业代码为801890.SI
,但是万得竟然标注为801050.SI
。而根据《申万行业分类2014标准》这个代码对应的行业是
有色金属
,简单查询这个股票即可以这个完全没有涉及金属业务,明显存在数据错误。 -
我们之前依赖一个 HF 的
stock.industry
数据库,后面发现这个也是完全瞎扯,他们直接利用现在的行业代码去更新历史的数据,没有考虑这个票在历史可能存在的主营业务发生变化、或者产生了重组,申万会相应的调整行业分类。