這個 Filing_index.csv 的可能來源是什麼?
我正在閱讀 Stefan Jansen 的《機器學習算法交易》一書。還有一個名為filing_index.csv 的文件,其中包含一些SEC 文件的索引資訊。它可以通過以下連結訪問。
這是文件開頭的幾行
"CIK","COMPANY_NAME","FORM_TYPE","DATE_FILED","EDGAR_LINK","QUARTER","TICKER","SIC","EXCHANGE","HITS","YEAR" 1000180,"SANDISK CORP","10-K","2013-02-19","edgar/data/1000180/0001000180-13-000009.txt",1,"SNDK","3572","NASDAQ","3",2013 1000209,"MEDALLION FINANCIAL CORP","10-K","2013-03-13","edgar/data/1000209/0001193125-13-103504.txt",1,"TAXI","6199","NASDAQ","0",2013 1000228,"HENRY SCHEIN INC","10-K","2013-02-13","edgar/data/1000228/0001000228-13-000010.txt",1,"HSIC","5047","NASDAQ","3",2013 1000229,"CORE LABORATORIES N V","10-K","2013-02-19","edgar/data/1000229/0001000229-13-000009.txt",1,"CLB","1389","NYSE","2",2013 1000232,"KENTUCKY BANCSHARES INC KY ","10-K","2013-03-28","edgar/data/1000232/0001104659-13-025094.txt",1,"KTYB","6022","OTC","0",2013 1000298,"IMPAC MORTGAGE HOLDINGS INC","10-K","2013-03-12","edgar/data/1000298/0001047469-13-002555.txt",1,"IMH","6798","NYSE MKT","0",2013
這本書似乎沒有提到這個歸檔索引文件的來源。作為一個不熟悉 SEC 文件的人,誰能幫我找出這個文件的來源?還是作者自己寫的?
這是使用 Python 包或他自己的網路抓取工具從 Edgar 數據庫中抓取的:
我相信作者
filing_index.csv
使用與 Python 包類似的腳本/包建構了該包python-edgar
(有關文件,請參見此處)。該包建構了一個*主索引文件,其中包含自使用者定義年份(*預定義為 1993 年)以來 Edgar 數據庫中的所有可用資訊。正如文件中所表達的那樣,您可以通過主索引文件通過過濾例如獲取公司文件。公司(CIK 編號)和
grep
在 Python 中使用的表單類型(參見 Github 文件中的範例)。為了完整起見,我提供了封包檔中的引用片段,詳細說明瞭如何獲取所需資訊:將季度文件縫合到主文件
python-edgar 只做一件事並且做得很好:獲取並清理未壓縮的季度索引文件到您的電腦。使用命令行工具,本著 unix 哲學的精神,將這些索引文件拼接在一起並創建我們的主索引文件。
$$ … $$
從特定公司獲取文件
現在我們已經下載了索引文件,使用一些命令行腳本就可以很容易地按公司快速過濾並使用 grep 將 URL 提取到我們想要的文件中。在下面的範例中,我們通過 CIK (1000045) 進行 grep,將輸出儲存在中間文本文件中,我們使用 cat 重新打開該文件,並通過表格 10-K 再次 grep。使用https://www.sec.gov/Archives/為路徑添加前綴,您將獲得完整的 URL。
**上述範例的輸出看起來與 csv 文件中的資訊非常相似,
filing_index.csv
**但細節比作者的 csv 文件少(缺少 “EDGAR_LINK” 之外的列):1000045|NICHOLAS FINANCIAL INC|10-K|2015-06-15|edgar/data/1000045/0001193125-15- 223218.txt|edgar/data/1000045/0001193125-15-223218-index.html 1000045|NICHOLAS FINANCIAL INC|10-K|2016-06-14|edgar/data/1000045/0001193125-16- 620952.txt|edgar/data/1000045/0001193125-16-620952-index.html 1000045|NICHOLAS FINANCIAL INC|10-K|2017-06-14|edgar/data/1000045/0001193125-17- 203193.txt|edgar/data/1000045/0001193125-17-203193-index.html 1000045|NICHOLAS FINANCIAL INC|10-K|2018-06-27|edgar/data/1000045/0001193125-18- 205637.txt|edgar/data/1000045/0001193125-18-205637-index.html
然後,作者可以將上述輸出轉換為 csv 文件,並可能將其與CRSP 數據庫(或類似數據庫)中的證券數據合併,以便為您提供輸出中缺少的最後一列。
總之,我不相信您會找到任何簡單的方法來下載中提供的相同類型的資訊
filing_index.csv
。這也可能是作者沒有提及來源的原因。不過,我希望這能提供一些見解。