data-mining

Data Mining ist der Prozess der Analyse großer Datenmengen, um Muster und Gemeinsamkeiten zu finden.
4
Antworten

Sentimentanalyse-Java-Bibliothek

Ich habe einige unbenannte Microblogging-Posts und möchte ein Sentiment-Analyse-Modul erstellen. Um dies zu tun, habe ich versucht Stanford Bibliothek und Alchemy Api Web-Service, aber das Ergebnis ist nicht sehr gut. Fürs Erste möchte ic...
15.11.2014, 18:32
16
Antworten

Ein gutes Web-Datenextraktions- / Screen-Scraper-Programm?

Ich muss regelmäßig Produktdaten von einer Website erfassen und frage mich, ob jemand von einem guten Softwareprogramm weiß? Ich habe Mozenda ausprobiert aber es ist ein monatliches Abonnement und auf lange Sicht teuer. Offensichtlich ist etwa...
25.02.2010, 13:13
1
Antwort

Welche FFT-Deskriptoren sollten als Feature zur Implementierung eines Klassifikations- oder Clustering-Algorithmus verwendet werden?

Ich habe einige geografische Trajektorien gesammelt, um sie zu analysieren, und ich habe das Histogramm von Daten in räumlicher und zeitlicher Dimension berechnet, was ein zeitdomänenbasiertes Merkmal für jedes räumliche Element ergab. Ich möchte...
18.12.2014, 12:19
5
Antworten

Wann sind N-Gramme (n3) wichtig im Gegensatz zu Bigrammen oder Trigrammen?

Ich frage mich nur, was n-gramm (n & gt; 3) (und ihre Häufigkeit des Auftretens) unter Berücksichtigung des Berechnungsaufwands bei deren Berechnung ist. Gibt es Anwendungen, bei denen Bigramme oder Trigramme einfach nicht ausreichen? Wenn ja...
23.04.2012, 18:20
1
Antwort

Clustering und Matlab

Ich versuche einige Daten zu sammeln, die ich aus dem KDD 1999 Cup-Datensatz habe Die Ausgabe aus der Datei sieht folgendermaßen aus: %Vor% mit 48 tausend verschiedenen Datensätzen in diesem Format. Ich habe die Daten aufgeräumt und den T...
10.10.2011, 16:34
2
Antworten

Fehler in do_one (nmeth): NA / NaN / Inf beim Aufruf einer fremden Funktion (arg 1)

Ich habe eine Datentabelle ("norm"), die numerisch enthält - zumindest was ich sehen kann - normalisierte Werte der folgenden Form: Wenn ich ausführe %Vor% Ich erhalte den folgenden Fehler: %Vor% Können Sie mir helfen? Danke!    ...
07.04.2016, 07:40
5
Antworten

Können Stoppwörter automatisch gefunden werden?

In NLP ist das Entfernen von Stoppwörtern ein typischer Vorverarbeitungsschritt. Und es wird typischerweise in einer empirischen Weise basierend auf dem, was wir denken, Stop-Worte sollten gemacht werden. Aber meiner Meinung nach sollten wir...
13.03.2014, 05:52
1
Antwort

Die Beziehung zwischen latenter Dirichlet-Zuordnung und Dokumentenclustern

Ich möchte die Beziehung zwischen latenter Dirichlet-Zuweisung (LDA) und der generischen Aufgabe des Dokumentenclusterns verdeutlichen. Die LDA-Analyse tendiert dazu, die Themenanteile für jedes Dokument auszugeben. Wenn mein Verständnis stim...
07.07.2011, 14:17
4
Antworten

Prüfe, ob eine Regex eine andere Regex abdeckt

Ich versuche, einen Textclusteralgorithmus zu implementieren. Der Algorithmus gruppiert ähnliche Zeilen von Rohtext, indem er sie durch Regex ersetzt, und aggregiert die Anzahl von Mustern, die zu jedem Regex passen, um eine saubere Zusammenfass...
27.03.2012, 10:42
1
Antwort

Gibt es in TeamCity eine Möglichkeit, einen Bericht über fehlgeschlagene Tests zu sehen, der in der gesamten Historie am häufigsten fehlgeschlagen ist?

Wir haben einige unzuverlässige Tests - aus Umweltgründen unzuverlässig. Wir würden gerne einen Verlauf sehen, bei dem die Tests am häufigsten fehlgeschlagen sind. Daher können wir einen Grund dafür finden und das Problem der Umgebung beheben...
12.05.2011, 08:46