Actions › manifest M-7

Multimedia Content Optimization

authority multilingual multilingual

Prerequisites

O-4 Infrastruktur Teknis, Performa & Found O-5 Fondasi Structured Data Inti

Affects datapoints

accessibility-score performance-score content-depth information-structure-quality structured-content-signals

Typical followups

M-9 Pengembangan Alat Interaktif G-3 Konten Panjang yang Komprehensif

M-7 — Multimedia Content Optimization

What this action is

M-7 is the production and optimization of multimedia content — images, video, audio, infographics — for AI-mediated discovery. It comprises three components: multimedia production with AI-discovery in mind (alt text, transcripts, structured data per asset), optimization of existing multimedia (retrofitting alt text, transcripts, schema), and integration into the brand’s content surface (multimedia connected to relevant text content rather than isolated assets).

The work is editorial-engineering hybrid. Editorial produces and curates; engineering implements alt text, transcripts, structured data.

Why this action matters in AVO

AI systems increasingly consume multimedia. Image search and recognition are mature; video understanding and audio processing are advancing. A brand that produces only text content is invisible to multimedia-side discovery, and a brand that produces multimedia without optimization for AI consumption produces multimedia that doesn’t contribute to the brand’s authority and visibility.

M-7 also addresses an accessibility datapoint that has measurable AVO impact. Alt text and transcripts that serve users with disabilities also serve AI systems consuming structured-data-tagged content for grounding.

What it requires before you can attempt it

Hard prerequisites:

Prerequisite	Why required
O-4 and O-5 substantially complete	Multimedia work depends on technical infrastructure and schema support
Editorial capacity for alt text and transcript production	Multimedia optimization is editorial-intensive

Soft prerequisites:

Prerequisite	Why it helps
Existing multimedia assets	M-7 is faster when there’s existing content to optimize
Multimedia production capacity	New multimedia production requires creative resources

Stage assessment: M-7 can begin at foundations stage in basic forms (retrofitting alt text on existing images) and continues through depth stage with more substantial optimization and new production.

What gets done in this action

M-7 work proceeds through four phases.

Phase 1 — Asset inventory. Multimedia assets across the brand’s properties are cataloged. The catalog documents image alt text status, video transcript status, audio transcript status, structured data presence per asset.

Phase 2 — Optimization of existing assets. Retrofitting work: alt text for images, transcripts for video and audio, ImageObject and VideoObject schema for assets, captions where applicable. The work is unglamorous but high-leverage; existing assets become measurably more discoverable.

Phase 3 — New multimedia production with optimization built-in. Going forward, multimedia is produced with alt text, transcripts, and schema as part of the standard production process rather than retrofit work. The discipline becomes editorial culture.

Phase 4 — Integration into content surface. Multimedia is connected to relevant text content. Images on long-form content are contextualized with descriptive captions and connected text. Videos are embedded within relevant articles or have dedicated pages with substantive text descriptions. The integration prevents multimedia from being isolated assets discoverable only through specific multimedia search.

What success looks like

A successful M-7 produces:

Existing multimedia assets retrofit with alt text, transcripts, and schema
New multimedia produced with optimization built into the production process
Multimedia integrated into the brand’s content surface
Datapoint movement: accessibility-score lifts substantially; structured-content-signals lifts; performance-score may benefit from optimization (image format, sizing); content-depth may lift indirectly through multimedia-supported content

What failure looks like

Failure pattern	What it signals
Alt text retrofit produces generic descriptions (“photo,” “image”)	Generic alt text is barely better than absence; descriptive alt text is required
Video transcripts generated by automatic systems without editorial review	Auto-generated transcripts have errors that propagate through citation chains
Multimedia assets exist as isolated archives without integration	Multimedia is discoverable only on direct query; doesn’t contribute to broader content authority
Schema implemented inconsistently across asset types	Inconsistent implementation produces uneven discovery

Common mistakes

Mistake	Better approach
Treating alt text as accessibility checkbox	Alt text is descriptive content that contributes to AI grounding; treat it editorially
Auto-generating transcripts without review	Auto-generation produces errors that need editorial review; pure auto-generation introduces noise
Optimizing only images and skipping video and audio	All multimedia types deserve optimization; video and audio are increasingly consumed by AI
Not coordinating with M-3 hub work	Multimedia in hub content provides substantial richness; isolated multimedia loses context

Datapoints affected

Datapoint	Influence
accessibility-score (V2.2)	Direct, primary
structured-content-signals (V1.1)	Substantial
content-depth (V2.1)	Substantial — multimedia adds depth dimensions
performance-score (V1.2)	Substantial — optimization includes image format and sizing
information-structure-quality (V2.1)	Substantial

Multilingual considerations

Multimedia must be optimized per language:

Alt text in the page’s content language
Transcripts in the language of the audio or video
Captions in the language appropriate to the audience
Schema language declarations matching content language

A common multilingual M-7 finding is that multimedia produced for one language has alt text or transcripts only in that language, leaving multilingual sites with multimedia that fails per-language discovery in other languages.

What comes after

M-7 typically leads to:

Next action	Why it follows
M-9 (Interactive Tool Development)	Interactive tools often integrate multimedia; M-7 establishes the patterns
G-3 (Comprehensive Long-Form Content)	Long-form content benefits from multimedia integration

In maturity-stage terms, M-7 is depth-stage work that continues through authority stage.

M-7 — Optimisasi Konten Multimedia

Apa yang dilakukan action ini

M-7 adalah produksi dan optimisasi konten multimedia — gambar, video, audio, infografis — untuk discovery yang dimediasi oleh AI. Action ini terdiri dari tiga komponen: produksi multimedia dengan mempertimbangkan AI-discovery (alt text, transkrip, structured data per aset), optimisasi multimedia yang sudah ada (retrofitting alt text, transkrip, schema), dan integrasi ke dalam permukaan konten brand (multimedia yang terhubung ke konten teks yang relevan, bukan aset yang berdiri sendiri).

Pekerjaannya merupakan hibrida editorial-engineering. Editorial memproduksi dan mengkurasi; engineering mengimplementasikan alt text, transkrip, dan structured data.

Mengapa action ini penting dalam AVO

Sistem AI semakin banyak mengonsumsi multimedia. Pencarian dan pengenalan gambar sudah matang; pemahaman video dan pemrosesan audio terus berkembang. Brand yang hanya memproduksi konten teks tidak terlihat pada sisi discovery multimedia, dan brand yang memproduksi multimedia tanpa optimisasi untuk konsumsi AI menghasilkan multimedia yang tidak berkontribusi pada authority dan visibility brand tersebut.

M-7 juga menangani accessibility datapoint yang memiliki dampak AVO yang terukur. Alt text dan transkrip yang melayani pengguna dengan disabilitas juga melayani sistem AI yang mengonsumsi konten bertag structured data untuk grounding.

Apa yang perlu dipenuhi sebelum memulai action ini

Hard prerequisites:

Prasyarat	Alasan diperlukan
O-4 dan O-5 sebagian besar sudah selesai	Pekerjaan multimedia bergantung pada infrastruktur teknis dan dukungan schema
Kapasitas editorial untuk produksi alt text dan transkrip	Optimisasi multimedia bersifat padat editorial

Soft prerequisites:

Prasyarat	Alasan membantu
Aset multimedia yang sudah ada	M-7 lebih cepat jika ada konten yang sudah ada untuk dioptimasi
Kapasitas produksi multimedia	Produksi multimedia baru memerlukan sumber daya kreatif

Penilaian stage: M-7 dapat dimulai pada Foundations stage dalam bentuk dasar (retrofitting alt text pada gambar yang sudah ada) dan berlanjut ke depth stage dengan optimisasi yang lebih substansial serta produksi baru.

Apa yang dikerjakan dalam action ini

Pekerjaan M-7 berlangsung dalam empat fase.

Fase 1 — Inventaris aset. Aset multimedia di seluruh properti brand dikatalogkan. Katalog mendokumentasikan status alt text gambar, status transkrip video, status transkrip audio, dan keberadaan structured data per aset.

Fase 2 — Optimisasi aset yang sudah ada. Pekerjaan retrofitting: alt text untuk gambar, transkrip untuk video dan audio, schema ImageObject dan VideoObject untuk aset, serta keterangan (caption) bila berlaku. Pekerjaannya tidak glamor tetapi berdampak tinggi; aset yang sudah ada menjadi jauh lebih mudah ditemukan secara terukur.

Fase 3 — Produksi multimedia baru dengan optimisasi yang sudah terintegrasi. Ke depannya, multimedia diproduksi dengan alt text, transkrip, dan schema sebagai bagian dari proses produksi standar, bukan pekerjaan retrofit. Disiplin ini menjadi budaya editorial.

Fase 4 — Integrasi ke dalam permukaan konten. Multimedia dihubungkan ke konten teks yang relevan. Gambar pada konten panjang diberi konteks dengan caption deskriptif dan teks yang terhubung. Video disematkan dalam artikel yang relevan atau memiliki halaman tersendiri dengan deskripsi teks yang substantif. Integrasi ini mencegah multimedia menjadi aset terisolasi yang hanya dapat ditemukan melalui pencarian multimedia spesifik.

Seperti apa keberhasilan action ini

M-7 yang berhasil menghasilkan:

Aset multimedia yang sudah ada telah di-retrofit dengan alt text, transkrip, dan schema
Multimedia baru diproduksi dengan optimisasi yang sudah tertanam dalam proses produksi
Multimedia terintegrasi ke dalam permukaan konten brand
Pergerakan datapoint: accessibility-score meningkat secara substansial; structured-content-signals meningkat; performance-score dapat memperoleh manfaat dari optimisasi (format gambar, ukuran); content-depth dapat meningkat secara tidak langsung melalui konten yang didukung multimedia

Seperti apa kegagalan action ini

Pola kegagalan	Apa yang ditandakan
Retrofit alt text menghasilkan deskripsi generik (“foto,” “gambar”)	Alt text generik hanya sedikit lebih baik daripada tidak ada sama sekali; alt text deskriptif diperlukan
Transkrip video dihasilkan oleh sistem otomatis tanpa tinjauan editorial	Transkrip yang dihasilkan otomatis memiliki kesalahan yang merambat melalui rantai kutipan
Aset multimedia ada sebagai arsip terisolasi tanpa integrasi	Multimedia hanya dapat ditemukan pada kueri langsung; tidak berkontribusi pada authority konten yang lebih luas
Schema diimplementasikan secara tidak konsisten di berbagai jenis aset	Implementasi yang tidak konsisten menghasilkan discovery yang tidak merata

Kesalahan umum

Kesalahan	Pendekatan yang lebih baik
Memperlakukan alt text sebagai kotak centang aksesibilitas	Alt text adalah konten deskriptif yang berkontribusi pada AI grounding; perlakukan secara editorial
Menghasilkan transkrip secara otomatis tanpa tinjauan	Pembuatan otomatis menghasilkan kesalahan yang memerlukan tinjauan editorial; pembuatan otomatis murni menghadirkan noise
Hanya mengoptimasi gambar dan melewatkan video dan audio	Semua jenis multimedia layak dioptimasi; video dan audio semakin banyak dikonsumsi oleh AI
Tidak berkoordinasi dengan pekerjaan hub M-3	Multimedia dalam konten hub memberikan kekayaan yang substansial; multimedia terisolasi kehilangan konteks

Datapoints yang terpengaruh

Datapoint	Pengaruh
accessibility-score (V2.2)	Langsung, primer
structured-content-signals (V1.1)	Substansial
content-depth (V2.1)	Substansial — multimedia menambahkan dimensi kedalaman
performance-score (V1.2)	Substansial — optimisasi mencakup format dan ukuran gambar
information-structure-quality (V2.1)	Substansial

Pertimbangan multibahasa

Multimedia harus dioptimasi per bahasa:

Alt text dalam bahasa konten halaman
Transkrip dalam bahasa audio atau video
Caption dalam bahasa yang sesuai dengan audiens
Deklarasi bahasa schema sesuai dengan bahasa konten

Temuan M-7 multibahasa yang umum adalah multimedia yang diproduksi untuk satu bahasa hanya memiliki alt text atau transkrip dalam bahasa tersebut, sehingga situs multibahasa memiliki multimedia yang gagal dalam discovery per bahasa pada bahasa-bahasa lainnya.

Apa yang mengikuti setelah ini

M-7 biasanya mengarah ke:

Action berikutnya	Alasan mengikuti
M-9 (Pengembangan Alat Interaktif)	Alat interaktif sering mengintegrasikan multimedia; M-7 menetapkan pola-polanya
G-3 (Konten Panjang Komprehensif)	Konten panjang mendapat manfaat dari integrasi multimedia

Dalam istilah maturity stage, M-7 adalah pekerjaan depth stage yang berlanjut ke authority stage.