這個 Filing_index.csv 的可能來源是什麼?

  • March 5, 2022

我正在閱讀 Stefan Jansen 的《機器學習算法交易》一書。還有一個名為filing_index.csv 的文件,其中包含一些SEC 文件的索引資訊。它可以通過以下連結訪問。

https://github.com/stefan-jansen/machine-learning-for-trading/blob/main/data/sec-filings/filing_index.csv

這是文件開頭的幾行

"CIK","COMPANY_NAME","FORM_TYPE","DATE_FILED","EDGAR_LINK","QUARTER","TICKER","SIC","EXCHANGE","HITS","YEAR"
1000180,"SANDISK CORP","10-K","2013-02-19","edgar/data/1000180/0001000180-13-000009.txt",1,"SNDK","3572","NASDAQ","3",2013
1000209,"MEDALLION FINANCIAL CORP","10-K","2013-03-13","edgar/data/1000209/0001193125-13-103504.txt",1,"TAXI","6199","NASDAQ","0",2013
1000228,"HENRY SCHEIN INC","10-K","2013-02-13","edgar/data/1000228/0001000228-13-000010.txt",1,"HSIC","5047","NASDAQ","3",2013
1000229,"CORE LABORATORIES N V","10-K","2013-02-19","edgar/data/1000229/0001000229-13-000009.txt",1,"CLB","1389","NYSE","2",2013
1000232,"KENTUCKY BANCSHARES INC  KY ","10-K","2013-03-28","edgar/data/1000232/0001104659-13-025094.txt",1,"KTYB","6022","OTC","0",2013
1000298,"IMPAC MORTGAGE HOLDINGS INC","10-K","2013-03-12","edgar/data/1000298/0001047469-13-002555.txt",1,"IMH","6798","NYSE MKT","0",2013

這本書似乎沒有提到這個歸檔索引文件的來源。作為一個不熟悉 SEC 文件的人,誰能幫我找出這個文件的來源?還是作者自己寫的?

這是使用 Python 包或他自己的網路抓取工具從 Edgar 數據庫中抓取的:

我相信作者filing_index.csv使用與 Python 包類似的腳本/包建構了該包python-edgar(有關文件,請參見此處)。該包建構了一個*主索引文件,其中包含自使用者定義年份(*預定義為 1993 年)以來 Edgar 數據庫中的所有可用資訊。

正如文件中所表達的那樣,您可以通過主索引文件通過過濾例如獲取公司文件。公司(CIK 編號)和grep在 Python 中使用的表單類型(參見 Github 文件中的範例)。為了完整起見,我提供了封包檔中的引用片段,詳細說明瞭如何獲取所需資訊:

將季度文件縫合到主文件

python-edgar 只做一件事並且做得很好:獲取並清理未壓縮的季度索引文件到您的電腦。使用命令行工具,本著 unix 哲學的精神,將這些索引文件拼接在一起並創建我們的主索引文件。

$$ … $$

從特定公司獲取文件

現在我們已經下載了索引文件,使用一些命令行腳本就可以很容易地按公司快速過濾並使用 grep 將 URL 提取到我們想要的文件中。在下面的範例中,我們通過 CIK (1000045) 進行 grep,將輸出儲存在中間文本文件中,我們使用 cat 重新打開該文件,並通過表格 10-K 再次 grep。使用https://www.sec.gov/Archives/為路徑添加前綴,您將獲得完整的 URL。

**上述範例的輸出看起來與 csv 文件中的資訊非常相似,filing_index.csv**但細節比作者的 csv 文件少(缺少 “EDGAR_LINK” 之外的列):

1000045|NICHOLAS FINANCIAL INC|10-K|2015-06-15|edgar/data/1000045/0001193125-15- 
223218.txt|edgar/data/1000045/0001193125-15-223218-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2016-06-14|edgar/data/1000045/0001193125-16- 
620952.txt|edgar/data/1000045/0001193125-16-620952-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2017-06-14|edgar/data/1000045/0001193125-17- 
203193.txt|edgar/data/1000045/0001193125-17-203193-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2018-06-27|edgar/data/1000045/0001193125-18- 
205637.txt|edgar/data/1000045/0001193125-18-205637-index.html

然後,作者可以將上述輸出轉換為 csv 文件,並可能將其與CRSP 數據庫(或類似數據庫)中的證券數據合併,以便為您提供輸出中缺少的最後一列。


總之,我不相信您會找到任何簡單的方法來下載中提供的相同類型的資訊filing_index.csv。這也可能是作者沒有提及來源的原因。不過,我希望這能提供一些見解。

引用自:https://quant.stackexchange.com/questions/70074