Web Scraping SEC Edgar 10-K und 10-Q-Einreichungen

9

Gibt es jemanden, der Erfahrung damit hat, SEC 10-K und 10-Q zu scannen? Ich steckte fest, während ich versuchte, monatlich realisierte Aktienrückkäufe aus diesen Einreichungen zu machen. Insbesondere möchte ich folgende Informationen erhalten: 1. Zeitraum; 2. Gesamtzahl der gekauften Anteile; 3. Durchschnittspreis pro Aktie; 4. Gesamtzahl der im Rahmen von öffentlich angekündigten Plänen oder Programmen erworbenen Anteile; 5. Maximale Anzahl (oder ungefährer Dollarwert) von Anteilen, die möglicherweise im Rahmen der Pläne oder Programme für jeden Monat von 2004 bis 2014 erworben wurden. Ich habe insgesamt mehr als 90.000 Formulare zu analysieren, daher ist es nicht machbar, dies zu tun manuell.

Diese Informationen werden normalerweise unter "Teil 2, Abschnitt 5, Markt für Stammaktien des Anlegers, Bezug von Aktienbesitzern und Käufe von Wertpapieren durch Emittenten" in 10-Ks und "Teil 2, Punkt 2, nicht eingetragene Verkäufe von Dividendenwerten und Verwendung von Erträgen" ausgewiesen. .

Hier ist ein Beispiel für die 10-Q-Anmeldungen, die ich analysieren muss: Ссылка

Wenn ein Unternehmen keinen Aktienrückkauf hat, kann diese Tabelle im Quartalsbericht fehlen.

Ich habe versucht, die HTML-Dateien mit Python BeautifulSoup zu analysieren, aber die Ergebnisse sind nicht zufriedenstellend, hauptsächlich weil diese Dateien nicht in einem konsistenten Format geschrieben sind.

Zum Beispiel ist die einzige Möglichkeit, diese Formulare zu analysieren,

%Vor%

Der obige Code gibt nur das Unordentliche zurück, das die Rückkaufinformationen enthalten kann. Jedoch 1) ist es nicht zuverlässig; 2) es ist sehr langsam; 3) die folgenden Schritte, um Datum / Monat, Aktienkurs und Anzahl der Aktien etc. zu kratzen, sind viel schmerzhafter zu tun. Ich frage mich, ob es mehr machbare Sprachen / Ansätze / Anwendungen / Datenbanken gibt, um solche Informationen zu erhalten? Tausend Dank!

    
Jiayuan Chen 20.07.2015, 22:53
quelle

1 Antwort

1

Ich bin nicht sicher über Python, aber in R gibt es eine schöne Lösung mit 'Finstr' Paket ( Ссылка ). 'finstr' extrahiert automatisch die Abschlüsse (Gewinn- und Verlustrechnung, Bilanz, Cashflow usw.) von EDGAR im XBRL-Format.

    
Lamothy 01.06.2016 03:10
quelle