數據
使用 SEC 文件結構自動抓取 10-K XBRL 數據
我想編寫一個程序,將 CIK/年/季度條目列表作為輸入。該程序應遍歷列表,並為每個條目從 SEC 網站獲取給定 CIK/年/季度組合的 XBRL 財務數據。
我可以破譯 SEC 文件結構的某些部分,但不是全部。例如,固定
Archives/edgar/data/1288776/11/
到 SEC 基地址後,會列出 2011 年所有文件的目錄列表,該公司的 CIK 為 1288776。不幸的是,我無法理解該目錄中的命名約定。解決這個問題的一種方法是簡單地使用 SEC 的搜尋工具。但是,這需要我使用網路爬蟲,我更喜歡直接使用 ftp。
誰能澄清一下入藏號是如何分配的?其他人如何從 SEC 網站上提取財務數據?
在看
edgar/full-index/{YYYY}/QTR{N}/xbrl.idx
您也可以獲取壓縮版本:
xbrl.{Z,sit,gz,zip}
這將說明您想要什麼文件。
例如,我想要在 2012 年第一季度送出的 AOL 的 10-K。所以我下載
edgar/full-index/2012/QTR1/xbrl.gz
解壓後,我看到 AOL 的 10-K 在
edgar/data/1468516/0001193125-12-076633.txt
查看這個 XBRL-Crawler: https ://github.com/eliangcs/pystock-crawler 它在 Python 上執行,但可能已經過時。
您還可以使用此爬蟲下載文本文件:https ://pypi.python.org/pypi/SECEdgar
我將測試第一個,但第二個工作正常。