使用 SEC 文件結構自動抓取 10-K XBRL 數據

December 26, 2018

我想編寫一個程序，將 CIK/年/季度條目列表作為輸入。該程序應遍歷列表，並為每個條目從 SEC 網站獲取給定 CIK/年/季度組合的 XBRL 財務數據。
我可以破譯 SEC 文件結構的某些部分，但不是全部。例如，固定Archives/edgar/data/1288776/11/到 SEC 基地址後，會列出 2011 年所有文件的目錄列表，該公司的 CIK 為 1288776。不幸的是，我無法理解該目錄中的命名約定。
解決這個問題的一種方法是簡單地使用 SEC 的搜尋工具。但是，這需要我使用網路爬蟲，我更喜歡直接使用 ftp。
誰能澄清一下入藏號是如何分配的？其他人如何從 SEC 網站上提取財務數據？

在看
edgar/full-index/{YYYY}/QTR{N}/xbrl.idx
您也可以獲取壓縮版本：
xbrl.{Z,sit,gz,zip}
這將說明您想要什麼文件。
例如，我想要在 2012 年第一季度送出的 AOL 的 10-K。所以我下載
edgar/full-index/2012/QTR1/xbrl.gz
解壓後，我看到 AOL 的 10-K 在
edgar/data/1468516/0001193125-12-076633.txt

查看這個 XBRL-Crawler： https ://github.com/eliangcs/pystock-crawler 它在 Python 上執行，但可能已經過時。
您還可以使用此爬蟲下載文本文件：https ://pypi.python.org/pypi/SECEdgar
我將測試第一個，但第二個工作正常。

引用自：https://quant.stackexchange.com/questions/3312

相關問答

NumPy 可以計算百分比更改它在多個儀器圖表中的顯示方式嗎？

May 17, 2022

缺失回報的估算

January 29, 2022

通過 API 獲得免費實時外匯報價的地方？

December 29, 2021

Python中的全域最大回撤和最大回撤持續時間實現

January 4, 2021

自動獲取iShares ETF持倉

August 10, 2020

在python中將時間條轉換為刻度條或成交量條

May 30, 2020