Wie lautet die offizielle Codierung für die Streaming-API von Twitter? Meine beste Vermutung ist UTF-8 basierend auf dem, was ich gesehen habe, aber ich möchte vermeiden, Annahmen zu treffen.
Der einzige Teil der Twitter-Seite, den ich gesehen habe, wo sie sogar angeben, was sie als offizielle Kodierung verwenden, ist hier:
Twitter möchte einen Benutzer nicht dafür bestrafen, dass wir UTF-8 verwenden oder dass der betreffende API-Client die längere Darstellung verwendet hat
Hat jemand eine "offizielle" Antwort? Ich schreibe einen State-Machine-Tokenizer für die Streaming-API, der bestimmte Annahmen trifft. Das Letzte, was ich möchte, ist etwas wie UTF-16 zu begegnen.
Danke! : D
Ein Indikator ist, dass das JSON-Format , das Twitter für praktisch alles verwendet, vorschreibt (oder zumindest vorgibt). UTF-8. Sie sollten auch einen entsprechenden HTTP-Header für die Codierung festlegen (aber ich habe dies nicht bestätigt). Wenn Sie stattdessen XML verwenden, gibt das XML-öffnende Tag explizit die Codierung an, bei der es sich um UTF-8 handelt.
Wenn sie sagen, dass sie UTF-8 verwenden, ist das eine ziemlich gute Wette. UTF-8 ist sehr häufig und UTF-16 in freier Wildbahn ist ziemlich selten von dem, was ich gesehen habe.
Es gibt auch einige clevere Bibliotheken, die du benutzen könntest, wenn du es dir selbst beweisen willst, indem du testest, ob sie verschiedene Charaktere unterstützen. Das Beste davon wird von Firefox verwendet, um die Codierung von Webseiten zu erkennen, wenn diese geladen sind: Ссылка