Если вы пользуетесь поисковой системой или каким-либо мобильным телефоном, вам наверняка знакома технология интеллектуального (или предиктивного) ввода текста. Когда вам необходимо выведать правильное правописание в незнакомом слове, данная технология волшебным образом исправляет его непосредственно во время написания. Это срабатывает, даже если вы не помните, какой конкретно факт вас интересует. Вам нужно всего лишь ввести несколько первых букв в поисковую строку и отобрать наиболее релевантный запрос из выпадающего меню.
Автозаполнение — один из примеров интеллектуального ввода текста, который на пару с автозаменой позволяет нам по максимуму оптимизировать правописание при использовании сенсорной клавиатуры. При помощи сложных языковых баз данных, совмещающих возможные комбинации слов и букв, эти функции приводят наши нелепые словосочетания к приемлемому виду. Они настраиваются в соответствии с пожеланиями пользователей, и когда те отказываются от автоматических исправлений или принимают их, в операционной системе телефона формируются индивидуальные языковые предпочтения, которые становятся частью программного обеспечения.
Большинство из нас уже привыкло к такой машинной корректировке предложений и не видит в ней ничего особенного. А ведь на самом деле мы имеем дело с уникальным цифровым феноменом, существующим только благодаря изощренным компьютерным технологиям, способным анализировать и изучать каждую строчку нашего текста. Вот как это работало в западной технологии написания, которая не использовала предиктивный ввод текста до тех пор, пока мобильные телефоны не сделали его практической необходимостью (помните, как вы пытались писать сообщения при помощи клавиатуры без функции Т9?).
Стэнфордский историк Томас Маллэни (Thomas Mullaney) обнаружил, что Китайская технология написания шагнула намного дальше в этом плане: в 1950-х годах они уже использовали принципы интеллектуального ввода текста в своих печатных машинках. Когда человек вводил символ «mei», символы «di» и «li» размещались в максимально удобном положении, чтобы упростить написание двух широко распространенных слов времен маоистской эпохи Китая: meili («красивый») и Meidi («американский империалист»).
Письменный китайский язык — очень сложный
Как вам известно, китайский письменный язык не основывается на привычном алфавите. Он базируется на символах, которые являются визуальными репрезентациями объектов или мыслей. Каждый символ соответствует определенному разговорному слогу, а его отдельные элементы привносят ясность в произношение и значение.
К примеру, символ 休 означает «отдых»:
Он состоит из двух частей, полученных из пиктограмм. Левый компонент, 亻, был взят из символа 人, который значит «человек», а правый элемент представлен в виде символа 木, обозначающего «дерево». Таким образом, данный иероглиф характеризует отдых, изображая человека, отдыхающего у дерева.
Этимология символа 木, обозначающего «дерево», от надписей на гадательных костях до древних манускриптов
Эта письменная система была разделена на несколько языков и диалектов на протяжении всей истории Китая: представители кантонской диалектной группы и говорящие на «мандарине» все еще придают одинаковое семантическое значение многим символам, но даже при этом они произносят их совершенно по-разному. На «мандарине» все тот же иероглиф 休 произносится как «xiū», но в кантонском диалекте его произношение изменяется на «jau». Без такой обобщенной письменной системы существование громадных Китайских империй было бы невозможным, к тому же во многом именно благодаря ей сегодня Китай остается целостным государством.
С другой стороны, количество символов в их письменной системе должно соответствовать числу слогов, присутствующих в языке, и как вы понимаете, это действительно много. Письменный китайский насчитывает более 80 000 иероглифов, но к счастью, на сегодняшний день многие из них устарели и используются крайне редко. Сейчас считается, что для грамотного изложения своих мыслей человеку достаточно знать хотя бы 4000 символов.
Эта обширная и процветающая письменная система существенно усложнила жизнь здешнему печатному делу. Можете ли представить функциональную печатную машинку с тысячами клавиш?
Согласитесь, это выглядит очень сложно.
У китайских печатных машинок нет клавиш: здесь используется специальный бокс жетонов с нанесенными на них символами и рычаг. При помощи рычага машинист выбирает определенный иероглиф, машинка подымает жетон, наносит на него чернила, печатает символ и помещает жетон назад в лоток. Конечно же, в данном случае наиболее сложной задачей является поиск нужного символа, поскольку всего в лотке находится 2450 жетонов.
Когда в 1911 году были созданы первые машинки, символы начали размещать в так называемом «радикальном порядке» (radical-stroke order). Многие китайские иероглифы состоят из меньших символов, и наиболее часто используемые из них называются радикалами, (亻является радикалом символа 休.) Согласно данной методике, сперва иероглифы распределяются по группам, соответствующим составному радикалу, затем группы упорядочивают по количеству мазков, необходимых для написания радикала вручную, после чего по этому же принципу классифицируются и сами символы. Только представьте, современные китайские словари организованы точно таким же образом.
Согласитесь, любой, кто когда-либо жаловался на неудобство QWERTY клавиатуры, должен благодарить судьбу за то, что ему не пришлось пользоваться китайской печатной техникой. С учетом всех перечисленных нюансов вы будете вынуждены проверять в словаре правописание каждого слова. Письменный китайский язык насчитывает 214 радикалов, и в составе различных символов они могут выглядеть по-разному. Поскольку полный набор знаков, необходимый для грамотного общения, не помещается в боксе печатной машинки, в некоторых случаях иероглифы приходится заменять. Именно поэтому даже у подготовленных специалистов скорость ввода текста в данной системе не превышает 20-30 символов (каждый из которых соответствует конкретному слогу).
Образцовый работник
Текст: «Нерушимые мысли Мао Цзэдуна освещают этапы революционного искусства!» Афиша госпожи Мао со страниц «Цитат председателя Мао Цзэдуна» (или «Красной книжечки»)
По словам Маллени, в революционные времена печатное дело пользовалось особым спросом: начиная с 1950 года, в Китае постоянно проводятся политические кампании, которые стали настоящим бременем для местных писателей.
Один из таких авторов заслуживает отдельного внимания. Его звали Жанг Джиюнг (Zhang Jiying) и проживал он в Кайфэне. Этот опытный наборщик текста работал с внушительной скоростью 1200-2000 слов в час (или 20-30 слов в минуту) на традиционной печатной машинке. Маллени пишет: «Спустя всего несколько месяцев после образования Китайской Народной Республики, он ощутил прилив вдохновения и начал вплотную работать над реорганизацией набора используемых иероглифов.»
Еще до революции размещение символов по радикалам настолько усложняло жизнь наборщикам текста, что многим из них приходилось отводить целую секцию своего бокса для символов специального использования. Инновационное решение Жанга заключалось в полной реорганизации лотка и его адаптации к работе над конкретной тематикой.
В какой-то момент тема может затронуть «рабочее движение», и Жангу придется задействовать такие слова, как «производство» (shengchan), «опыт» (jingyan), «труд» (laodong) и «отчет» (jilu); в иных же случаях текст может оказаться более пропагандистским, а это значит, что при его написании пригодятся фразы в стиле «Боритесь с Америкой, поддерживайте Корею» (kang Mei yuan Chao), которые использовались в военную эпоху при массовой мобилизации.
Эта система позволила Жангу удвоить свою продуктивность в предельно сжатые сроки: в 1951 году газета People’s Daily опубликовала статью с громким заголовком «Наборщик текста из Кайфэна Жанг Джиюнг совершенствует методику ввода и устанавливает новый рекорд — более 3000 символов в час». То есть, за одну минуту он набирал около 50 символов. В 1952 году этот трудяга побил собственный рекорд, напечатав 4778 знаков за час (примерно 80 символов в минуту), и зафиксировал этот невероятный результат на пленке. Как видите, в итоге такой специфический подход к вводу текста позволил Жангу повысить свою продуктивность более чем в 2 раза.
Сети иероглифов
Китайский наборщик текста
Жанг был идеальным революционным героем: трудолюбивым и преданным работником с верными иконоборческими взглядами. Партия опубликовала и распространила информацию о его методиках и достижениях. В 1953 году в People’s Daily появилась статья о «новой печатной технике», посвященная принципам смежности, которые Жанг использовал при работе с набором символов.
Отобрав один знак в качестве основного и двигаясь в направлении от него, автор мог заполнить 8 ближайших пробелов максимально возможным количеством соответствующих символов. Благодаря такой многогранности наборщик текста мог экспериментировать как с вертикальным, так и с горизонтальным размещением. Это позволило не только увеличить число многосимвольных комбинаций и последовательностей в каждом пустующем клочке пространства, но и объединить данные мини-секции в постоянные ассоциативные сети.
Ввод текста при помощи данной методики выглядел следующим образом: сперва вы подбираете первоначальный символ, а затем ищете вокруг него последующие знаки. Отыскав применение для новой комбинации иероглифов, свой бокс необходимо организовать таким образом, чтобы в будущем по максимуму упростить ее использование. (Так поступили и с символом 毛, обозначающим «волосы» или «перо», который на «мандарине» произносится как «мао». Это слово также является фамилией политического лидера Мао Цзэдуна, поэтому оно довольно быстро заполучило центральное размещение на многих клавиатурах).
Теперь бокс печатной машинки начинает походить на двухмерную интерпретацию данных, используемых для автозаполнения в выпадающих меню поисковой системы Google, клавиатурах iOS 8 и алгоритмах подбора слов T9. И когда при написании вы отталкиваетесь от начального символа, технология существенно упрощает ввод последующего текста.
Конечно же, основное отличие здесь заключается в том, что предиктивность набора иероглифов определяется исключительно пользователем. В конце 1980-х годов китайские печатные машинки продавались с пустыми лотками: наборщикам текста позволяли самостоятельно выстраивать собственные ассоциативные сети. Однако существуют свидетельства того, что добиться результатов в этом плане большинству авторов удалось только спустя некоторое время.
Взгляните на размещенные ниже тепловые карты, демонстрирующие боксы для двух китайских печатных машинок. Как видите, слева используется дореволюционный порядок размещения по радикалам, а справа изображена методика, применяемая в ЮНЕСКО примерно с 1970-х годов. Каждый жетон окрашен, исходя из количества соседних символов, позволяющих сформировать реальное двухзнаковое слово. Черный цвет означает 0, а белый — 8.
Техно-линвистическая инновация
С компьютерными текстовыми процессорами у китайских печатных машинок отношения также не заладились. Но Маллени утверждает, что компьютеры не были связующим звеном между китайским языком и эпохой современных технологий.
Согласно теории автора, эта печатная техника заложила прочный фундамент для нынешних текстовых инноваций. Чтобы печатать на китайском языке, пользуясь китайским компьютером, большинство людей применяют QWERTY клавиатуру. Они вводят текст в Пиньинь (Pinyin), систему романизации китайского языка, и словесный процессор конвертирует его в символы. Основная проблема заключается в том, что китайский язык существенно отличается от латиницы — для десятков тысяч иероглифов в Пиньинь насчитывается всего лишь 400 возможных вариантов написания — а хорошие текстовые процессоры во многом зависят от контекста. Они предлагают вам возможные символы, исходя из введенной информации и ее наиболее вероятного продолжения: по сути, это и есть технология интеллектуального ввода текста. В этом плане их функционирование немного напоминает работу текстовых редакторов большинства мобильных телефонов.
Как печатать китайские иероглифы на QWERTY клавиатурах
Вторая наиболее распространенная методика ввода текста называется Wubi, и здесь различные виды штрихов в китайских иероглифах соответствуют определенным QWERTY клавишам. При использовании этой техники вам необходимо выбрать составные штрихи символа в порядке, характерном для написания данного текста вручную. В данном случае вашей основной задачей станет устранение неоднозначности, поскольку во многих иероглифах комбинации штрихов совпадают по мере набора текста на клавиатуре. И снова на помощь приходит технология предиктивного ввода текста, предлагающая пользователю возможные варианты символов в процессе написания.
Среди владельцев мобильных телефонов предиктивный текст не обрел широкой популярности, однако по словам Маллени, в Китае все пишут именно таким способом.
Высоких вам конверсий!
По материалам: priceonomics.com