秒
SEC 10-Q/K 文件
我正在進行一些需要解析 SEC 10 K/Q 文件的研究。我們已經建構了一個解析器,它將解析原始 txt SEC 文件,該文件通常包含許多未編碼的文件塊(html、xml、pdf、圖像、電子表格等)。典型的解碼 10 K/Q(截至 CY 2014)具有一組文件,如下所示:
有沒有人有任何文件或指南來解釋 R1.htm - RX.htm 文件應該包含什麼,以及更廣泛地描述通常在解碼的 10 K/Q 中找到的任何文件?SEC 沒有這種粒度級別的任何文件。(原因是上面舉例說明的此送出可能來自特定的歸檔準備供應商/軟體,但是,這種格式似乎是 CY2014 最普遍的)。
提前感謝您的任何指導。
FilingSummary.xml 有一種“目錄”。我用它來查找資產負債表、損益表和現金流量表。但這並非微不足道,因為公司有不同的命名方式。但是當您找到它們時,它們通常位於第一個 Rx.html 文件中。
因此,我建議您建構一些可以找到關鍵字變體的東西,例如“合併資產負債表”來查找資產負債表等。
另請注意,在 2011 年春季之前,EDGAR 上不存在 FilingSummary.xml,因此採用這種方式意味著您在此日期之前不會有數據。
RX.htm 文件包含 XBRL 格式的數據。一般來說,EDGAR 公共傳播子系統技術規範是有關 EDGAR 歸檔約定資訊的良好來源,但在這種情況下,它只是提到 R 文件是 XML。