Category: технологии

Category was added automatically. Read all entries about "технологии".

хотей

Китай, хайтек и предрассудки

Те, кто еще относятся к Китаю с пренебрежением и продолжают считать китайцев узкоглазыми дикарями, способными только воровать чужую интеллектуальную собственность, пусть начинают менять свое мнение.

Я тут делаю патентное исследование в сфере автоматической классификации текстов на естественных языках. Предыдущее на эту тему делал десять лет назад. Тогда китайских патентов было процентов 15, и это уже в то время было много: больше, чем израильских или японских. Кстати, часть китайских – патентовались в США, составляя заметную долю в американских патентах.

Так вот, уважаемые: сейчас из первых 250 патентов, отобранных в международной базе данных по этой теме – не китайских только 24, причем три из них (зарегистрированные в США и Японии) принадлежат также лицам китайской национальности, работающим в китайских вузах.

Работа с естественными языками, если что, один из крупных разделов искусственного интеллекта. Перенесено из Dreamwidth.
хотей

К рассуждениям об искусственном интеллекте

Тут на АТ пошли очередные расплывчатые рассуждения об искусственном интеллекте (со ссылкой на статью в Journal of Artificial Intelligence Research, пропущенную через гуглоперевод и мозги, если так можно выразиться, журналистки Виктории Ветровой). Обсуждался вопрос: сможем ли мы контролировать высокоуровневый компьютерный супер-интеллект?

Как давеча написали на Баше, "никакой искусственный интеллект не может решить проблемы, вызванные недостатком естественного".

Все философские рассуждения об ИИ страдают одним и тем же недостатком: практически ни один человек, который ими занимается, сам с ИИ не работал. Поэтому рассуждающие имеют представление об ИИ из таких же рассуждений и фантастических романов, где ИИ антропоморфен до отвращения. Фактически же ИИ никакой не интеллект, а некие программные продукты, обладающие свойством обучаться и выдавать пользователям результаты без объяснения того, как они получены.

Антропоморфизм описываемых сейчас всяческими философами и фантастами ИИ заключается в том, что им приписывается наличие эмоций и формирование решений по человеческому типу (включая участие в этом процессе инстинктов и рефлексов). Фактически же ИИ не антропоморфен уже сейчас, механизмы формирования выводов и принятия решений у него принципиально отличаются от человеческих.

Чтобы получить тот самый антропоморфизм, надо всерьез заниматься дополнением механизмов работы ИИ эмоциональной составляющей, учетом инстинктов и выработкой рефлексов (а из всего этого реалистично только последнее: обучение ИИ в известной степени и есть выработка рефлексов.) Это возможно, только если этим будут специально заниматься.

Пока же соцвласть ИИ может быть только на уровне подсчета баллов социального капитала и реализации машины выводов для изучения доказательств в судебном процессе (причем второе с о-очень большой натяжкой). И никто даже не изучает, ЧТО ИМЕННО надо добавлять к ИИ, чтобы его можно было использовать в социальной сфере.

Прежде всего это касается таких понятий как "справедливость", "милосердие", "гуманизм", "общественное благо" (и его соотнесения с благом индивидуальной личности). Все эти понятия в той или иной степени основаны на общем представлении о "благе" (что такое хорошо и что такое плохо), а оно даже у человечества весьма размыто и непостоянно. Подробнее я писал уже здесь несколько лет назад.

Так что ИИ может стать "неконтролируемым и опасным для человечества" исключительно в руках людей, которые не понимают, что это такое на самом деле, как это устроено, как и где это можно применять и где ограничения и условия, в которых это применять либо бессмысленно, либо вредно. Перенесено из Dreamwidth.
хотей

Искусственный интеллект и экономика

Приходится слышать голоса, сообщающие, что искусственный интеллект (плюс грядущие успехи искусственного интеллекта) имеет шанс навсегда избавить капитализм от т.н. "кризисов перепроизводства". Которыми в советские времена, по-моему, больше пугали советских, а не капиталистических граждан.
Искусственный интеллект всегда сможет посчитать, сколько нужно трусов, а сколько "новичков", поэтому выглядевшее вечным основание кризисов перепроизводства - отсутствие достоверного знания со стороны предложения (у производителей и торговцев) о масштабах спроса - ликвидируется.


Точка зрения эта смешная и нелепая.
Потому что никакой искусственный интеллект не в состоянии определить, сколько нужно РАЗНЫХ трусов, чтобы милая дама, отправившаяся на шопинг, смогла выбрать те, которые ее удовлетворят.

Преимущество свободного рынка — возможность выбора. За него приходится платить значительной избыточностью производства.
Преимущество плановой экономики — рациональные объемы производства. За него приходится платить отсутствием выбора.

.. Перенесено из Dreamwidth.
хотей

Паньские вытребеньки


Каждый раз, когда я смотрю очередную рекламную фигню от Boston Dynamics (или пародию на нее, как в этом ролике), у меня возникает, с одной стороны, восхищение работой программеров и механиков из BD, а с другой -- одни и те же простые вопросы:

1. Сколько минут (ну, десятков минут) продержится на поле боя это красивое устройство до того, как сдохнет с полностью разряженными аккумуляторами даже без воздействия противника?

2. Где на поле боя будет находиться зарядная станция для этих устройств? И какова вероятность, что она доживет до их возвращения на зарядку?

3. Сколько времени потребуется на зарядку аккумуляторов?

4. Что будет с этими устройствами в условиях действующей РЭБ?

Есть такой принцип: KISS -- Keep It Simple, Stupid! (По-русски: Чем проще, тем лучше. В буквальном переводе -- Делай просто, дубина!) Перенесено из Dreamwidth.
хотей

И снова о молодых и талантливых авторах

Действие происходит в далеком-далеком будущем, где огромные космические корабли летают через гиперпереходы между звездными системами, а искусственный интеллект развит настолько, что обладает эмоциями.

И вот как обстоит там дело с цифровизацией:

Министр труда и занятости ответил мгновенно, несмотря на то, что у него проходило совещание.
- На завтра подготовьте цифры по занятости по отраслям и прогноз на десять лет.
- Будет сделано, мой Император, — министр отключил связь и строго посмотрел на глав управлений. — Всем понятно? К вечеру все цифры должны быть у меня, чтобы к утру я всё свёл в единый доклад. И спаси вас Дева-Воительница, если я облажаюсь, как министр соцзащиты, не знавший, сколько у него инвалидов по зрению.


Если простыми русскими словами -- то это уровень середины прошлого века, до появления ЭВМ, и это методы управления времен незабвенного Иосифа Виссарионовича.

Не очень понятно, зачем первому лицу государства цифры по занятости по отраслям и прогноз на десять лет. Одно из двух: или Император занимается микроменеджментом, подменяя руководителей ведомств, или он собирается эти цифры раздать на совещании лицам, которых намерен задействовать в принятии решений (скорее второе, потому что у автора постоянно участникам совещаний раздают распечатки информационных материалов). Еще менее понятно, почему Император требует, чтобы такие сведения докладывал ему лично министр.

При нормальном подходе к цифровизации первую информацию (цифры по занятости по отраслям) он должен бы получить, нажав максимум несколько экранных кнопок (или попросив Сири, Алису, в общем, кто там у них), поскольку, по идее, это ОДИН селект к реляционной БД (а точнее, поскольку запрос явно типовой, это заранее подготовленное VIEW, выводимое в стандартную форму). Нет, в частности, никаких объективных причин, чтобы оправдать отсутствие такой единой централизованной или распределенной БД в Российской Федерации: на уровне субъектов эти данные есть, и свести их вместе достаточно тривиальная задача. При этом можно было бы избавить Росстат от утомительной задачи собирать и обрабатывать статистику -- что он делает с безнадежным опозданием.

Для второй же информации (прогноз на 10 лет) также должно быть достаточно нажать несколько экранных кнопок -- или попросить голосового ассистента. Тут немножко сложнее, но в описываемом мире ведь существуют развитые инстансы искусственного интеллекта, решающие (по описанию автора) куда более сложные задачи, чем предиктивный анализ динамики одного параметра. Даже если этот параметр зависит от кучи факторов.

Такие прогнозы можно делать уже сейчас, причем без больших затруднений в части математики. Главная проблема -- это данные, которые должны быть доступны аналитическому модулю. А это -- см. выше. Перенесено из Dreamwidth.
хотей

Об искусственном интеллекте, из комментариев у Иванова-Петрова

(Не мое, а жаль!)

Украли у мужика корову. Приходит он домой и говорит сыновьям:
- У нас корову украл какой-то пидар. Старший брат: — Если пидар — значит маленький.
Средний брат: — Если маленький — значит из Малиновки.
Младший Брат: — Если из Малиновки — значит Васька Косой.
Все выдвигаются в Малиновку и там прессуют Ваську Косого.
Однако Васька корову не отдает. Его ведут к мировому судье.
Мировой судья:
- Ну… Логика мне ваша непонятна. Вот у меня коробка, что в ней лежит?
Старший брат: — Коробка квадратная, значит внутри что-то круглое.
Средний: — Если круглое, то оранжевое.
Младший: — Если круглое и оранжевое, то апельсин.
Судья открывает коробку, а там и правда апельсин.
Судья — Ваське Косому:
- Косой, отдай корову!

Комментарии:
- Судья явный байесианец.
- ^ это все, что достаточно знать о создании датасетов для тренировки сетей...


Перенесено из Dreamwidth.
хотей

О языках малых народов и машинном переводе

Писатель Роберт Ибатуллин выложил пост, который удостоился цитирования сразу от нескольких уважаемых людей в моей френд-ленте:
Машинный перевод, распознавание и синтез речи за последние лет десять улучшились радикально. А что будет ещё через десять? У каждого в телефоне будет Google Translate, способный переводить несложный диалог устно в реальном времени без потери качества, с естественного разговорного языка на такой же. Та самая коробочка-переводчик из научной фантастики. Не думаю, что это нереально оптимистичное ожидание. И если оно сбудется, то потребность изучать какой-либо язык кроме родного исчезнет.

Исчезнет и потребность изучать русский язык в России национальным меньшинствам. Конечно, его изучение не прекратится, но давление языковой среды на малые языки ослабнет. Угроза их вымирания уменьшится.

При условии, что они будут в Гугл-транслейте.


Все бы хорошо, но принцип действия Гугл-транслейта и аналогичных систем машинного перевода основан, в сущности, на поиске в огромном массиве текстов на исходном языке и на языке перевода фрагментов, которые по некоторым признакам (долго описывать, это сплошная математическая лингвистика) считаются эквивалентными.

При этом важно, что перевод тем лучше, чем больше эти самые массивы: за счет анализа статистики отбираются корректные эквиваленты.

Совершенно очевидно, что на редких и малоиспользуемых языках, в особенности на тех, на которых нет большого корпуса художественных и научно-технических текстов, невозможно иметь массивы текстов такого размера, который обеспечивает адекватность перевода.

Перенесено из Dreamwidth.
хотей

Могучая решимость остывает при размышленье

And enterprises of great pith and moment
With this regard their currents turn awry,
And lose the name of action.

Накрылся медным тазом проект Stratolaunch. Чего можно было ожидать после смерти Пола Аллена в октябре прошлого года (Пол Аллен, если кто не помнит, был в числе основателей Майкрософта и стоял за проектом Stratolaunch).
Успели построить громадный, но с виду ненадежный самолет (впрочем, проект был команды Берта Рутана, а у него все самолеты выглядят ненадежными, но летают хорошо) с двумя фюзеляжами и шестью двигателями. Даже полеты были (ну как полеты -- взлетел, сделал коробочку, сел).

Проект был нужен Полу Аллену, у которого были космические амбиции, и совершенно не нужен его наследникам, у которых он отсасывал деньги. Еще в январе представители фирмы говорили, что планируют пуск с этой платформы ракеты малой грузоподъемности Pegasus (разработанной, между прочим, в 80-х годах как противоспутниковая, и даже запускавшейся с B-52 и L-1011 аж 42 раза), но сестра покойного основателя фирмы приняла другое решение. Из 77 сотрудников сейчас осталось 4.

Слежу за проектами космических ракет воздушного пуска с конца 70-х, но что-то плохо идут они. Тот же Pegasus вполне мог бы развиваться, вместо этого его фактически закрыли в 2016 году.

Интересно, куда они денут Рутановскую птичку?

Получился еще один Spruce Goose, гигантский самолет одного полета...

Перенесено из Dreamwidth.
хотей

Технологический вопрос

А вот скажите мне, пожалуйста, как опытные, просвещенные люди: надо ли размораживать куриные голени, чтобы сварить их на бульон?

Или можно просто бросить в кастрюлю как есть?

Перенесено из Dreamwidth.
хотей

Чужую беду руками разведу, или мнение непрофессионалов по вопросам, требующим знаний

У Ивакина появился хороший, правильный пост о проблемах оцифровки архивов:

Наткнулся на интересные циферки по Санкт-Петербургским архивам.

1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.

Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.

УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.


В комментарии немедленно набежали очень умные люди, которые всё на свете знают:

да не, время сканирования листа 20 сек с учетом переворота ручного

сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.

не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.


Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.

Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).

Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.

И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.

А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.

Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.

А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).

Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.

Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).

Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.

Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?

Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.

Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.

Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.

А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.

Хорошо, успел данные скинуть на более современные носители.

(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)

А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.

И там ТАКИЕ навороты начинаются...

Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.

ВСЕГДА.

А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...

Перенесено из Dreamwidth.