Document 1 — Foundations · Part 6 — Multilingual application

Part 6 — Multilingual application

6.1 The three structural commitments

Multilingual support in AVO is built on three structural commitments that distinguish it from multilingual-as-translation.

Commitment 1: Unicode-aware processing throughout. Tokenization, entity extraction, claim detection, content depth measurement — all use Unicode-aware character classes rather than ASCII-only patterns. A measurement that uses \w regex tokens silently fails on CJK content; a measurement that uses \p{L}\p{N} with the Unicode flag handles all five primary languages correctly. The team’s working principle: any text-processing operation that produces different results for English versus Japanese versus Korean is a bug in the measurement, not a feature of multilingual scope.

Commitment 2: Language-specific date and entity patterns. Date conventions in Japanese and Chinese (year-month-day character forms: 年, 月, 日) differ structurally from English. Entity-formation conventions across all five languages — Japanese organizational suffixes, Korean honorific patterns, Chinese name conventions — require explicit per-language pattern detection. A measurement that assumes English entity patterns produces silent failure on the other four languages.

Commitment 3: Neutral fallback rather than zero. When language detection encounters a script the implementation does not yet handle, the affected datapoints fall back to a neutral score rather than zero. This prevents silent failure modes: a brand with Korean content is not penalized to zero on Korean-content-relevant datapoints simply because the implementation has not been calibrated for Korean. The fallback is reported transparently so that the practitioner knows the measurement is incomplete.

For the practitioner, the three commitments produce specific operating norms:

A brand operating in a primary language other than English does not require the measurement to be re-engineered. The architecture handles it.
A brand operating in a language not yet calibrated (e.g., Vietnamese, Thai, Hindi for an Avonetiq engagement) produces neutral-fallback measurements transparently. The practitioner reports this state to the brand stakeholder rather than reporting potentially-wrong measurements as if they were valid.
The team’s calibration backlog includes language coverage. Adding a new language to the calibrated set is engineering work, not architectural work. The practitioner can scope an engagement that requires a new language with an explicit calibration phase if needed.

6.2 Per-language considerations

Each of the five primary languages has distinct considerations the practitioner should be aware of when scoping engagements and selecting actions.

English

English is the most calibrated language and the language most AI training corpora are dominated by. Brands operating in English have:

The largest probe corpus available for VS measurement
The most refined datapoint detection for V2.1 (Semantic Density) and V2.2 (Structural Legibility)
The widest range of OMG action options that have been validated in English contexts
The most competitive landscape — saturation effects are strongest in English-language category discovery

Practitioner implications: a brand operating only in English faces a more competitive AVO landscape. Differentiation comes from depth and from category-niche specificity rather than from language-specific opportunities.

Indonesian

Indonesian is one of Avonetiq’s primary deployment languages and is calibrated against domestic Indonesian market deployment. Brands operating in Indonesian have:

A growing but less saturated probe corpus
Datapoint detection calibrated for Indonesian text patterns including the language’s specific entity-formation conventions and absence of explicit grammatical case
OMG action options that account for the Indonesian media landscape (which has distinct authority hierarchies from English-language equivalents)
Less competitive AVO landscape — earlier-stage brands can reach Strong band more readily because the saturation pressure is lower

Practitioner implications: Indonesian-language work is often the highest-leverage scope to add for brands with regional market presence. The competitive pressure is lighter and the calibration is solid.

Japanese

Japanese has distinctive characteristics that affect AVO work substantially:

Mixed-script content (kanji, hiragana, katakana) requires Unicode-aware processing throughout
Entity-formation conventions include organizational suffixes (株式会社, etc.) that affect entity-recognition datapoints
The Japanese media landscape is conservative regarding corporate articles in Wikipedia (G-11 specifically), and Wikipedia notability requires Japanese-language source citations rather than translated foreign-language sources
Honorific patterns affect attribution and author-byline detection
The probe corpus for VS measurement is meaningful but narrower than English

Practitioner implications: Japanese-language AVO work requires native-language editorial capacity and native-language communications relationships. A brand attempting Japanese AVO without native-language operational capacity will be Manifest- and Generative-bottlenecked regardless of AS findings.

Korean

Korean shares some characteristics with Japanese (mixed-script considerations, distinctive entity conventions) and differs in others:

The hangul script is more uniform than Japanese mixed-script, simplifying some text-processing
Honorific patterns in Korean affect attribution detection but in different patterns from Japanese
The Korean media landscape has a smaller editor community for Wikipedia work; corporate articles are common but require Korean-language sources or substantial international coverage
Search behavior in Korean has different navigational-tier patterns from English (proportionally more brand-name navigation, less category discovery)

Practitioner implications: Korean AVO work is feasible at smaller engagement scope than Japanese because the operational complexity is somewhat lower, but the same native-language operational capacity is required.

Traditional Chinese

Traditional Chinese is shared with Simplified Chinese variants but has distinct editorial governance, particularly around Wikipedia. Considerations:

Sources from Taiwan, Hong Kong, and overseas Chinese-language publications carry weight in Traditional Chinese; mainland Chinese-language sources have nuanced reliability classification
The Traditional Chinese probe corpus is narrower than Simplified Chinese but more accessible to Avonetiq’s deployment context (cacaFly partnership in Taiwan)
Entity-recognition for Chinese names requires explicit per-language pattern detection that handles the distinct naming conventions
The Traditional Chinese editorial culture for Wikipedia and Wikidata is conservative; G-11 work is more demanding here than in less-conservative communities

Practitioner implications: Traditional Chinese work in the Avonetiq deployment is well-supported by the cacaFly partnership and produces good leverage in Taiwan and Hong Kong markets. Scope should account for the conservative Wikipedia editorial culture by allocating more time to G-11 work specifically.

6.3 Why multilingual amplifies the AS = 0 problem

A brand at AS ≈ 0 in English may be at AS = floor in Japanese for completely different reasons. The two zero-states are not equivalent and require different approaches.

Single-language AS ≈ 0 typically reflects: a small or new brand that has not engineered for AI-mediated discovery; technical foundation gaps; minimal external validation. The work is the foundations-stage AVO work described elsewhere in this document.

Multilingual AS = floor can reflect any of: the foundations-stage state in that specific language (the brand has done AVO work in English but not in Japanese); the absence of native-language content (the brand operates in English-only and has no Japanese content for AI to discover); calibration limitations (the implementation has not been validated for Korean and reports neutral-fallback scores).

The practitioner reading multilingual AS findings must distinguish these three causes. Misreading them produces wrong action selection: attempting Japanese OMG work for a brand that has no Japanese-language operational capacity wastes effort; not attempting Japanese OMG work for a brand that has Japanese operational capacity but has not yet engineered Japanese AVO leaves visible-AVO-progress on the table.

Engagement scoping should explicitly identify per-language operational capacity before AS measurement is conducted in each language. The brand stakeholder’s claim “we operate in five languages” should be tested against the operational reality: do you have native-language editorial capacity in Japanese? Do you have communications relationships in Korean media? If the answer is no for a given language, AVO work in that language will be Manifest- or Generative-bottlenecked regardless of the AS measurement.

6.4 Common multilingual failure modes

The practitioner should recognize these patterns:

Failure mode	What it looks like	Practitioner response
Translated content treated as multilingual content	Brand has English content auto-translated into other languages; per-language AS measurement shows similar content-depth datapoints across languages but VS shows minimal recognition in non-English languages	Explain to brand stakeholder that translated content does not produce native-language AI authority; commission native-language editorial work
Single-language brand stakeholder making multilingual claims	Brand stakeholder asserts multilingual operations but per-language AS reveals minimal non-English content; engagement scope assumed multilingual but operational capacity is single-language	Reduce engagement scope to actual operational capacity; revisit when multilingual capacity is established
Calibration gap mistaken for brand performance	A language not yet calibrated produces neutral-fallback scores; brand stakeholder reads them as performance indicators	Report calibration state explicitly; either de-scope the language or scope a calibration phase
Cross-language Wikipedia translation attempted	G-11 work in English succeeds and the brand attempts direct translation into Japanese Wikipedia	Explain that each language Wikipedia is an independent editorial community; native-language source material and native-language editorial work are required
Mixed-language content fragmenting authority	Brand has Japanese-language content that includes English-language passages; entity-recognition datapoints fail or produce inconsistent measurements	Recommend content separation: clear language-coded URLs, hreflang implementation, content that is consistently in one language per page

6.5 When to add a new language to engagement scope

Adding a new language to a brand’s AVO engagement is a meaningful scope expansion comparable to adding a new business unit. The practitioner should evaluate readiness before recommending the addition.

Readiness criteria:

The brand has operational capacity in the new language: native-language editorial team, native-language content production capability, native-language communications relationships
The brand has commercial reason for the new language: market presence or growth target that justifies the investment
The brand’s existing-language AVO work is not actively bottlenecked: adding a new language while existing-language work is producing measurable progress is sustainable; adding a new language while existing-language work is failing is compounding the problem
Avonetiq’s calibration covers the new language, or a calibration phase is in scope

When all four criteria are met, the new language is added to engagement scope with a defined Focus, defined OMG action sequence, and per-language AS-VS measurement. The new language is not assumed to inherit progress from existing-language work; it begins at its own foundations stage and is treated as a parallel engagement under the same brand.

When any criterion is not met, the practitioner explains the limitation honestly and either defers the addition or scopes an interim phase to remedy the limitation before full engagement begins. The temptation to scope language additions optimistically should be resisted; an under-scoped multilingual engagement produces measurably-poor results and damages the brand-Avonetiq relationship.

Bagian 6 — Penerapan multibahasa

6.1 Tiga komitmen struktural

Dukungan multibahasa dalam AVO dibangun di atas tiga komitmen struktural yang membedakannya dari pendekatan multibahasa-sebagai-terjemahan.

Komitmen 1: Pemrosesan berbasis Unicode di seluruh sistem. Tokenisasi, ekstraksi entitas, deteksi klaim, pengukuran kedalaman konten — semuanya menggunakan kelas karakter berbasis Unicode, bukan pola ASCII-only. Pengukuran yang menggunakan token regex \w akan gagal secara diam-diam pada konten CJK; pengukuran yang menggunakan \p{L}\p{N} dengan flag Unicode menangani kelima bahasa utama dengan benar. Prinsip kerja tim: setiap operasi pemrosesan teks yang menghasilkan hasil berbeda antara bahasa Inggris, Jepang, dan Korea merupakan bug dalam pengukuran, bukan fitur dari cakupan multibahasa.

Komitmen 2: Pola tanggal dan entitas yang spesifik per bahasa. Konvensi tanggal dalam bahasa Jepang dan Tionghoa (bentuk karakter tahun-bulan-hari: 年、月、日) berbeda secara struktural dari bahasa Inggris. Konvensi pembentukan entitas di kelima bahasa — sufiks organisasi Jepang, pola honorifik Korea, konvensi nama Tionghoa — memerlukan deteksi pola eksplisit per bahasa. Pengukuran yang mengasumsikan pola entitas bahasa Inggris akan mengalami kegagalan diam-diam pada keempat bahasa lainnya.

Komitmen 3: Fallback netral, bukan nol. Ketika deteksi bahasa menemukan skrip yang belum dapat ditangani oleh implementasi, datapoints yang terpengaruh akan kembali ke skor netral, bukan nol. Ini mencegah mode kegagalan diam-diam: sebuah merek dengan konten Korea tidak diberi hukuman nol pada datapoints yang relevan dengan konten Korea hanya karena implementasinya belum dikalibrasi untuk bahasa Korea. Fallback dilaporkan secara transparan agar praktisi mengetahui bahwa pengukuran tersebut belum lengkap.

Bagi praktisi, ketiga komitmen ini menghasilkan norma operasional yang spesifik:

Merek yang beroperasi dalam bahasa utama selain Inggris tidak perlu meminta rekayasa ulang pada pengukuran. Arsitekturnya sudah menanganinya.
Merek yang beroperasi dalam bahasa yang belum dikalibrasi (misalnya, bahasa Vietnam, Thai, atau Hindi untuk suatu engagement Avonetiq) menghasilkan pengukuran fallback netral secara transparan. Praktisi melaporkan kondisi ini kepada pemangku kepentingan merek, bukan melaporkan pengukuran yang berpotensi salah seolah-olah valid.
Backlog kalibrasi tim mencakup cakupan bahasa. Menambahkan bahasa baru ke dalam set yang dikalibrasi adalah pekerjaan rekayasa, bukan pekerjaan arsitektur. Praktisi dapat merancang cakupan engagement yang memerlukan bahasa baru dengan fase kalibrasi eksplisit jika diperlukan.

6.2 Pertimbangan per bahasa

Masing-masing dari kelima bahasa utama memiliki pertimbangan tersendiri yang perlu diperhatikan praktisi saat merancang cakupan engagement dan memilih tindakan.

Bahasa Inggris

Bahasa Inggris adalah bahasa yang paling dikalibrasi dan bahasa yang paling mendominasi korpus pelatihan AI. Merek yang beroperasi dalam bahasa Inggris memiliki:

Korpus probe terluas yang tersedia untuk pengukuran VS
Deteksi datapoint yang paling halus untuk V2.1 (Semantic Density) dan V2.2 (Structural Legibility)
Rangkaian opsi tindakan OMG terluas yang telah divalidasi dalam konteks berbahasa Inggris
Lanskap paling kompetitif — efek saturasi paling kuat dalam penemuan kategori berbahasa Inggris

Implikasi bagi praktisi: merek yang hanya beroperasi dalam bahasa Inggris menghadapi lanskap AVO yang lebih kompetitif. Diferensiasi berasal dari kedalaman dan spesifisitas niche kategori, bukan dari peluang spesifik bahasa.

Bahasa Indonesia

Bahasa Indonesia adalah salah satu bahasa deployment utama Avonetiq dan dikalibrasi terhadap deployment pasar domestik Indonesia. Merek yang beroperasi dalam bahasa Indonesia memiliki:

Korpus probe yang berkembang namun kurang tersaturasi
Deteksi datapoint yang dikalibrasi untuk pola teks bahasa Indonesia, termasuk konvensi pembentukan entitas khusus bahasa ini dan ketiadaan kasus gramatikal eksplisit
Opsi tindakan OMG yang memperhitungkan lanskap media Indonesia (yang memiliki hierarki otoritas berbeda dari padanannya dalam bahasa Inggris)
Lanskap AVO yang kurang kompetitif — merek tahap awal dapat mencapai band Strong lebih mudah karena tekanan saturasi lebih rendah

Implikasi bagi praktisi: pekerjaan berbahasa Indonesia sering kali merupakan cakupan dengan leverage tertinggi untuk ditambahkan bagi merek dengan kehadiran pasar regional. Tekanan kompetitif lebih ringan dan kalibrasi sudah solid.

Bahasa Jepang

Bahasa Jepang memiliki karakteristik khas yang secara substansial memengaruhi pekerjaan AVO:

Konten beraksara campuran (kanji, hiragana, katakana) memerlukan pemrosesan berbasis Unicode di seluruh sistem
Konvensi pembentukan entitas mencakup sufiks organisasi (株式会社, dll.) yang memengaruhi datapoint pengenalan entitas
Lanskap media Jepang bersifat konservatif terkait artikel korporat di Wikipedia (khususnya G-11), dan notabilitas Wikipedia memerlukan kutipan sumber berbahasa Jepang, bukan sumber berbahasa asing yang diterjemahkan
Pola honorifik memengaruhi deteksi atribusi dan byline penulis
Korpus probe untuk pengukuran VS bermakna namun lebih sempit dari bahasa Inggris

Implikasi bagi praktisi: pekerjaan AVO berbahasa Jepang memerlukan kapasitas editorial berbahasa asli dan hubungan komunikasi berbahasa asli. Merek yang mencoba AVO Jepang tanpa kapasitas operasional berbahasa asli akan mengalami bottleneck pada Manifest dan Generative, terlepas dari temuan AS.

Bahasa Korea

Bahasa Korea memiliki beberapa kesamaan dengan bahasa Jepang (pertimbangan aksara campuran, konvensi entitas yang khas) dan perbedaan di aspek lain:

Aksara hangul lebih seragam dibanding aksara campuran Jepang, sehingga menyederhanakan sebagian pemrosesan teks
Pola honorifik dalam bahasa Korea memengaruhi deteksi atribusi, namun dengan pola yang berbeda dari bahasa Jepang
Lanskap media Korea memiliki komunitas editor Wikipedia yang lebih kecil; artikel korporat umum ditemukan namun memerlukan sumber berbahasa Korea atau liputan internasional yang substansial
Perilaku pencarian dalam bahasa Korea memiliki pola tier navigasional yang berbeda dari bahasa Inggris (proporsional lebih banyak navigasi nama merek, lebih sedikit penemuan kategori)

Implikasi bagi praktisi: pekerjaan AVO berbahasa Korea dapat dilakukan dengan cakupan engagement yang lebih kecil dibandingkan bahasa Jepang karena kompleksitas operasionalnya agak lebih rendah, namun kapasitas operasional berbahasa asli yang sama tetap diperlukan.

Bahasa Tionghoa Tradisional

Bahasa Tionghoa Tradisional memiliki varian yang tumpang tindih dengan Tionghoa Sederhana, namun tata kelola editorialnya berbeda, terutama di Wikipedia. Pertimbangannya:

Sumber dari Taiwan, Hong Kong, dan publikasi berbahasa Tionghoa di luar negeri memiliki bobot dalam konteks Tionghoa Tradisional; sumber berbahasa Tionghoa dari daratan Tiongkok memiliki klasifikasi keandalan yang bernuansa
Korpus probe Tionghoa Tradisional lebih sempit dari Tionghoa Sederhana, namun lebih mudah diakses dalam konteks deployment Avonetiq (kemitraan cacaFly di Taiwan)
Pengenalan entitas untuk nama Tionghoa memerlukan deteksi pola eksplisit per bahasa yang menangani konvensi penamaan yang berbeda
Budaya editorial Tionghoa Tradisional untuk Wikipedia dan Wikidata bersifat konservatif; pekerjaan G-11 lebih menantang di sini dibandingkan komunitas yang kurang konservatif

Implikasi bagi praktisi: pekerjaan Tionghoa Tradisional dalam deployment Avonetiq didukung dengan baik oleh kemitraan cacaFly dan menghasilkan leverage yang baik di pasar Taiwan dan Hong Kong. Cakupan harus memperhitungkan budaya editorial Wikipedia yang konservatif dengan mengalokasikan lebih banyak waktu untuk pekerjaan G-11 secara khusus.

6.3 Mengapa multibahasa memperbesar masalah AS = 0

Merek dengan AS ≈ 0 dalam bahasa Inggris mungkin berada di AS = floor dalam bahasa Jepang karena alasan yang sama sekali berbeda. Kedua kondisi nol tersebut tidak setara dan memerlukan pendekatan yang berbeda.

AS ≈ 0 satu bahasa biasanya mencerminkan: merek kecil atau baru yang belum mengoptimalkan diri untuk penemuan berbasis AI; kesenjangan fondasi teknis; validasi eksternal yang minimal. Pekerjaannya adalah pekerjaan AVO tahap foundations yang dijelaskan di bagian lain dokumen ini.

AS = floor multibahasa dapat mencerminkan salah satu dari: kondisi tahap foundations pada bahasa tertentu tersebut (merek telah melakukan pekerjaan AVO dalam bahasa Inggris tetapi belum dalam bahasa Jepang); ketiadaan konten berbahasa asli (merek beroperasi hanya dalam bahasa Inggris dan tidak memiliki konten Jepang untuk ditemukan oleh AI); keterbatasan kalibrasi (implementasi belum divalidasi untuk bahasa Korea dan melaporkan skor fallback netral).

Praktisi yang membaca temuan AS multibahasa harus membedakan ketiga penyebab ini. Salah membacanya menghasilkan pemilihan tindakan yang keliru: mencoba pekerjaan OMG berbahasa Jepang untuk merek yang tidak memiliki kapasitas operasional berbahasa Jepang membuang upaya; tidak mencoba pekerjaan OMG berbahasa Jepang untuk merek yang memiliki kapasitas operasional Jepang namun belum mengoptimalkan AVO Jepang justru meninggalkan kemajuan AVO yang terlihat di atas meja.

Perancangan cakupan engagement harus secara eksplisit mengidentifikasi kapasitas operasional per bahasa sebelum pengukuran AS dilakukan di setiap bahasa. Pernyataan pemangku kepentingan merek “kami beroperasi dalam lima bahasa” perlu diuji terhadap realitas operasional: apakah Anda memiliki kapasitas editorial berbahasa asli dalam bahasa Jepang? Apakah Anda memiliki hubungan komunikasi di media Korea? Jika jawabannya tidak untuk bahasa tertentu, pekerjaan AVO dalam bahasa tersebut akan mengalami bottleneck pada Manifest atau Generative, terlepas dari hasil pengukuran AS.

6.4 Mode kegagalan multibahasa yang umum

Praktisi harus mengenali pola-pola berikut:

Mode kegagalan	Tampilannya	Respons praktisi
Konten terjemahan diperlakukan sebagai konten multibahasa	Merek memiliki konten bahasa Inggris yang diterjemahkan secara otomatis ke bahasa lain; pengukuran AS per bahasa menunjukkan datapoint kedalaman konten yang serupa di semua bahasa, namun VS menunjukkan pengakuan minimal dalam bahasa selain Inggris	Jelaskan kepada pemangku kepentingan merek bahwa konten terjemahan tidak menghasilkan otoritas AI berbahasa asli; pesan pekerjaan editorial berbahasa asli
Pemangku kepentingan merek satu bahasa yang membuat klaim multibahasa	Pemangku kepentingan merek menegaskan operasi multibahasa, namun AS per bahasa mengungkap konten non-Inggris yang minimal; cakupan engagement diasumsikan multibahasa, namun kapasitas operasional hanya satu bahasa	Kurangi cakupan engagement ke kapasitas operasional aktual; tinjau kembali saat kapasitas multibahasa telah tersedia
Kesenjangan kalibrasi disalahartikan sebagai performa merek	Bahasa yang belum dikalibrasi menghasilkan skor fallback netral; pemangku kepentingan merek membacanya sebagai indikator performa	Laporkan kondisi kalibrasi secara eksplisit; hilangkan bahasa tersebut dari cakupan atau rencanakan fase kalibrasi
Terjemahan Wikipedia lintas bahasa yang dicoba	Pekerjaan G-11 dalam bahasa Inggris berhasil dan merek mencoba terjemahan langsung ke Wikipedia bahasa Jepang	Jelaskan bahwa setiap Wikipedia berbahasa adalah komunitas editorial yang independen; materi sumber berbahasa asli dan pekerjaan editorial berbahasa asli diperlukan
Konten berbahasa campuran yang memecah otoritas	Merek memiliki konten berbahasa Jepang yang menyertakan bagian dalam bahasa Inggris; datapoint pengenalan entitas gagal atau menghasilkan pengukuran yang tidak konsisten	Rekomendasikan pemisahan konten: URL berkode bahasa yang jelas, implementasi hreflang, konten yang secara konsisten dalam satu bahasa per halaman

6.5 Kapan menambahkan bahasa baru ke cakupan engagement

Menambahkan bahasa baru ke engagement AVO suatu merek adalah perluasan cakupan yang signifikan, sebanding dengan menambahkan unit bisnis baru. Praktisi harus mengevaluasi kesiapan sebelum merekomendasikan penambahan tersebut.

Kriteria kesiapan:

Merek memiliki kapasitas operasional dalam bahasa baru: tim editorial berbahasa asli, kemampuan produksi kon