數據

使用 SEC 文件結構自動抓取 10-K XBRL 數據

  • December 26, 2018

我想編寫一個程序,將 CIK/年/季度條目列表作為輸入。該程序應遍歷列表,並為每個條目從 SEC 網站獲取給定 CIK/年/季度組合的 XBRL 財務數據。

我可以破譯 SEC 文件結構的某些部分,但不是全部。例如,固定Archives/edgar/data/1288776/11/到 SEC 基地址後,會列出 2011 年所有文件的目錄列表,該公司的 CIK 為 1288776。不幸的是,我無法理解該目錄中的命名約定。

解決這個問題的一種方法是簡單地使用 SEC 的搜尋工具。但是,這需要我使用網路爬蟲,我更喜歡直接使用 ftp。

誰能澄清一下入藏號是如何分配的?其他人如何從 SEC 網站上提取財務數據?

在看

edgar/full-index/{YYYY}/QTR{N}/xbrl.idx

您也可以獲取壓縮版本:

xbrl.{Z,sit,gz,zip}

這將說明您想要什麼文件。


例如,我想要在 2012 年第一季度送出的 AOL 的 10-K。所以我下載

edgar/full-index/2012/QTR1/xbrl.gz

解壓後,我看到 AOL 的 10-K 在

edgar/data/1468516/0001193125-12-076633.txt

查看這個 XBRL-Crawler: https ://github.com/eliangcs/pystock-crawler 它在 Python 上執行,但可能已經過時。

您還可以使用此爬蟲下載文本文件:https ://pypi.python.org/pypi/SECEdgar

我將測試第一個,但第二個工作正常。

引用自:https://quant.stackexchange.com/questions/3312